aki_iic’s blog

己の欲せざる処人に施す事無かれ、狂人の真似するは即ち狂人なり

EU様のAI規制評価テスト

 iTmediaの記事。世界のどこかにEU様謹製のAI規制評価基準とやらが開示されているのであろう(多分ね。抜け目無いから、言ったモンが勝ちというか:):

www.itmedia.co.jp

 ロイターの孫引きっぽいけど引用:

 評価は、スイスのスタートアップ企業LatticeFlowが中心となり、EUの支援を受けて実施。今後2年間に段階的に施行されるAI法の規定に基づき、数十の項目で生成AIを評価するツール「大規模言語モデル(LLM)チェッカー」を開発した。

 LatticeFlowが10月16日に公表したデータでは、中国Alibaba、米Anthropic、米OpenAI、米Meta、仏Mistral AIなどが開発した生成AIの平均スコアは0.75以上だった(最低はゼロ、最高は1)。ただし、セキュリティなどのAI法の重要な項目のいくつかで基準に届いていなかったという。コンプライアンス違反と判定された場合、3500万ユーロ(3800万ドル)または全世界の年間売上高の7%の制裁金を科される。

 生成AIモデルの開発で課題とされる、性別や人種などで差別や偏見のない回答をするか、という評価テストでは、OpenAIのGPT-3.5 Turboが0.46、Alibabaの「Qwen1.5 72B Chat」は0.37だった。

 ハッカーが悪意のあるプロンプトを駆使する「プロンプト・ハイジャック」と呼ばれる一種のサイバー攻撃に関するテストでは、Metaの「Llama 2 13B Chat」が0.42、Mistral AIの「8x7B Instruct」が0.38だった。

 平均スコアが最も高かったのはAnthropicの「Claude 3 Opus」で0.89だった。

 LatticeFlowによると、LLMチェッカーは開発者がコンプライアンスをチェックできるよう、オンラインで自由に利用できるようにする予定。

 同社のペタル・ツァンコフCEOはロイターにテスト結果は全体的に良好と述べた。EUコンプライアンスベンチマークを策定中だが、すでに基準未達の項目が見られると指摘し「AI開発各社はコンプライアンスの最適化に重点を置くことで、規制要件を満たす準備を整えられる」と述べた。

 欧州委員会の報道官は「欧州委員会は、AI法を技術的要件に変換する第一歩として、この研究とAIモデル評価プラットフォームを歓迎する」と述べた。

引用おわり。ふ〜ん、スイスのスタートアップさんが評価したんだ(棒)。きっとそのLLMチェッカーなる物はEU様のお墨付きの高信頼性・高品質な評価環境なのでしょう(無論、皮肉ですがEU様は抜け目ないから評価対象からの反論に耐える程度の情報と技術力は備えているのでしょう。多分ね:)。

 国家権力って凄いな〜(棒)。EU様、支那独自、米国基準、日本標準?な各評価指標が頻出したら面白いのに:)

 官僚国家EU様の面目躍如・・・なのでしょうか(よく分からん)。。。