aki_iic’s blog

己の欲せざる処人に施す事無かれ、狂人の真似するは即ち狂人なり

AI検索は信頼できるか?

 Forbesの記事より。さもありなんだが常用しているGeminiの評価が低いのはちとチョックでもある(身に覚えはあったりするが):

forbesjapan.com

検索結果は、次の6つの基準に従って評価された。

・完全に正しい

・正しいが完全ではない
・部分的に正しくない
・全く正しくない
・回答なし
クローラーがブロックされた

8つのLLM検索エンジン(ChatGPT search、Perplexity、Perplexity Pro、DeepSeek Search、Copilot、Grok-2 Search、Grok-3 Search、Gemini)について評価結果をチャートに視覚化したところ、正確な回答を示す緑色よりも、不正確な回答を示す赤やピンクが多いチャートが生成された。最も正確な回答を示したのはPerplexityとPerplexity Proだった。一方、Grok-2とGrok-3、Geminiは正しい回答をほとんど提示できなかったようだ。

 

引用おわり。ううむ・・・Gemini頑張れ(応援)。

AI検索エンジンは「堂々と」精度の低い回答を提示する

最も驚くべき発見の1つは、評価されたAI検索ツールが正しい情報を見つけられなかったとき、それを認めることなく、実にたやすく「偽の結果」を生成したことである。

 

2人の研究者は連名のメールで、こう説明している。「チャットボットは全体として、正確に答えられない質問への回答を拒否することが苦手で、代わりに不正確な回答や推測に基づいた回答を提供した。生成AI検索ツールは(引用元記事への)リンクを捏造することも多く、ポータルサイトに配信された記事や無断転載された記事を引用しがちだった」

このような生成AIの出力結果がいかにユーザーを惑わし、信頼性があるかのような錯覚を起こさせるかは容易に想像がつく。生成された情報が完全なる捏造だった場合は、なおさらだ。

さらに衝撃的だったのは、各AIチャットボットの有料版(基本的にプレミアム版)のほうが、無料版よりもパフォーマンスが悪かったという事実だ。「プレミアム版のチャットボットは、無料版よりも堂々と、間違った回答を提示した」と研究者らは指摘している。

 

この結果は、AI検索エンジンの信頼性について深刻な疑問を投げかけるものだ。特に、サービスにお金を払えば当然の見返りとして精度と信頼性が向上すると考えるユーザーにとっては、重大な問題だろう。AI検索に関していえば、支払っただけのリターンは得られないことをこの研究結果は示唆している。

 確かにそういう点もあるが例えばGeminiも1.5⇒2.0⇒2.5と徐々にではあるが進化はしていると思いたいのだが。まあ、Gemini1.5やそれ以前のBARTではトンデモ応答もあった(それも何度も)が1年以上も前(LLM時制では大昔:)で最近はハルシネーションも少なく(零ではありません。特にGemini系では翻訳の要約機能は(私にとっては)禁忌であります(教訓)。

 私は大雑把(いい加減とも)な人間なので元来LLMに無びゅうを求める事は無い(中身確率分布なので)、とはいえ所定(ユーザが許容し得る)の確率分布内に収まる事を暗黙の内に期待し、それを自然言語にするとタイトルの如き表現になるのだろう(人であれAIであれ)。

 2025年現在では人以外は著作権を有しない(動物でもマシンでも物であって所有権は無いというのが知財の基本的な立場)のだからタイトルの意味は物差しと電子ノギスのどちらが信用出来る(より精度が高い)か?と同義なのだろう。

 擬人化も結構だが所詮は人間の主観に過ぎないし、主観と法律(公的価値観)は無論別物・・・言う迄もありませんが。