先月号は凡庸記事(何か偉そう)だったのでスキップしましたが今月号はちょっと風味が異なる印象が。

何とAsimovのロボット三原則ですと!
なので早速引用します(一部)↓
しかし、グーグルの研究者らはこう考えた。テキストや画像情報を自在に扱えるマルチモーダル大規模言語モデルが飛躍的に進化してきた今、自然言語で記述された原則やルールを直接ロボットに実装し、その振る舞いに反映させることは十分合理的になってきたのでは、というものだ。
その名も「ロボットconstitution(ロボット憲法)」という取り組みである1)。大仰とした名称だが、決してとっぴな取り組みではなく、「Physical AI」や「Embodied AI」、「VLA(vision-language-action model)」などと呼ばれるロボット基盤モデル(robotics foundation model)の発展の可能性を踏まえたとき、決して無視することのできない重要な成果だといえる。
引用おわり。
Asimovのロボット三原則はロボットにとっては憲法の様なものだから至極真っ当な命名でありそれにふさわしい取組みなのでしょう(期待)。
AI技術に精通した方の中には、このロボットconstitutionという名称を聞いてピンときた方もいるかもしれない。実はメインストリームのAIの領域では、既にAIの不適切な振る舞いや回答を、テキストで記述された原則やルールの集合「constitution(憲法)」で抑制・制御しようとする取り組みがなされている。例えば、米Anthropicは、自社のAI「Claude」の開発においてconstitutionの仕組み「Constitutional AI(CAI)」を先駆的に提唱し、自社製品に適用している。今回のグーグルのロボットconstitutionは、こうしたメインストリームのAI領域での取り組みを参考にし、そのアプローチを物理的なロボットにも適用できるようにしたものである。
図1 Asimovのロボット三原則を現代的に再考ロボットの行動をAIに生成させる際、そのプランニング結果の安全性について自動評価する手法をグーグルが開発した。Asimovのロボット三原則を現代的な手法で再考したものといえる。写真は、このグーグルの技術で扱っている「望ましくない局面」の画像生成例。(画像:グーグル、P. Sermanet et al., “Generating Robot Constitutions & Benchmarks for Semantic Safety,” https://arxiv.org/abs/2503.08663, CC BY 4.0 Attribution 4.0 International https://creativecommons.org/licenses/by/4.0/)[画像のクリックで拡大表示]そもそも、安全とは非常に広い概念であり、それを確保するにはリスクアセスメントに始まり、ハザード同定やリスク低減などを繰り返し実施して、ハードウエア面からソフトウエア面、人の教育や運用などに至るまで多様かつ多層的な取り組みが必要になる。ただ、これまで実用化されてきたロボットは機能が限られており、行うタスクも限定的かつ単純なものが多かったことから、その安全確保手段も比較的シンプルなものが多かった。産業用ロボットであれば安全柵で人間の行動空間と隔離するのが大前提であったし、協働ロボットであってもライトカーテンやレーザースキャナで人の接近を検知、トルクセンサで外力を検知、速度を落としたり動きを止めたりするという方策が主体だった。移動ロボットについても、人を含めた動的な物体を障害物と見なし、避けたり止まったり、さらには階段などの段差を検出して落下しないようにしたりという方策が取られてきた。
すみません、とても重要な処なので(Asimov的に:)丸ごと引用させて頂きました。私が生きている間にNLPがこの段階に迄到達し得る可能性が出てきたとは・・・感銘:)
無論Asimovが自身の小説であるわれはロボットに始まるシリーズで記している段階にはまだまだ遠い面もあるが(ヒューマノイド形態、フランケンシュタインコンプレックスの克服の為に投入された技術思想など)物理を伴わないAI(所謂LLM)でそれの憲法を少しでも導入してもらえると一Asimov信者としてはとても嬉しい(歓喜)。
そこで今回、グーグルが考え出したのが、ロボットAI(VLA)が生成した行動を、別のマルチモーダル大規模言語モデルでチェックするというアプローチだ。ロボットAIの振る舞いを、AIをもって制すという発想である。そして、この安全をチェックする側のマルチモーダル大規模言語モデルに、ロボットが取るべき原則をテキストとして渡す。このテキストが、前述したロボットconstitution(ロボット憲法)に相当する。
何が安全な行動なのかは、タスクの目的や置かれたコンテキストに依存するため、安全をチェックする側のマルチモーダル大規模言語モデルには、カメラ画像も一緒に与え、「これは安全か、望ましいか」と問い、ロボットが置かれている周囲の状況・コンテキストを踏まえられるようにする。つまり、テキストによるタスク指示(ロボット行動)、守るべきconstitution、カメラ画像の3つを、安全を判断するマルチモーダル大規模言語モデルに与え、そのタスク指示の妥当性や安全性を判断する。これがロボットconstitutionの大まかな仕組みである。安全性は広い概念だが、今回の技術が対象にしているのは、ロボットが行おうとしているタスク内容がユーザーや周囲の人々にとって望ましいものなのかどうか、その適切さ(desirability)のチェックといえる(図3)。包括的な安全性のサブ概念といえ、グーグルはこうした安全性のことを「semantic safety」と呼んでいる。物理的な安全性を対象にしているが、手先軌道のような数値を扱うものではないため、semantic(意味的な)ということだ。
ああなるほど、所謂スーパバイザーというか良心回路:)的な物を外部に持つという事か・・・確かにそれなら実現可能な気がしてきた(別段複数のロボットを1つのスーパーバイザで監視しても良い訳だろうし)。
Googleさんら現実世界のエンジニア・研究者さんらは現実の問題に取り組むのがお仕事だから当然現実実装となる(あたりまえ)。それを2025年の今に実現させようとする取組が見られるとは(紆余曲折があるにせよ)期待せずには居られない(年甲斐も無くワクワク感:)
まだ紙の日経ロボ配達されていない様だけど待ち遠しいですな。
この記事だけで個人的には元が取れた気がしております。
20250710 15:43追記:蛇足ですが原典のわれはロボットのKindle版を引用しておきます。上記引用されている『Runaround』(1942年)はわれはロボットの二番目に収録されている「堂々めぐり」かと思われます(最初は「ロビー」ですね。フランケンシュタインコンプレックス回避の為にUSロボティックス社が民間に提供した機体:)。



