日本の研究.comより。
現実の、現場のRoboticsにもマルチエージェントで性能向上を行う、既にモノの世界でも実用段階になってきているのでしょうか(リソース食いそう)。
https://research-er.jp/articles/view/149274

発表内容
従来のロボット把持手法は、特定のデータセットを用いた学習済み単一モデルに依存しており、複雑な言語による指示や未学習環境への対応に課題がありました。本研究で開発されたGraspMAS では、「Planner」「Coder」「Observer」という 3 種の AI エージェントが協調して動作し、ユーザからの自然言語命令を逐次的に処理します(図 2)。以下のように連携します。
• Planner:自然言語命令を分解し、空間的推論を含む把持計画を構築。
• Coder:視覚と言語の認識モデルと連携して、適切なコードを生成・実行。
• Observer:得られた結果を評価し、安全でないつかみ方を検出した上で、システム全
体にフィードバックを返す。
図 2:GraspMAS が結果を確認しながら把持を計画・修正していく仕組本システムは事前の学習なしに、ユーザが新たに入力した命令に対しても柔軟に対応できる「ゼロショット把持」を実現しました。たとえば、「赤いマグカップの近くにある紫のボールをとって」「奥にあるドライバーを持ち手の部分で取って」といった指示にも正確に応答し、実世界のタスクに適用可能であることが実証されています。
引用おわり。
ハードウェア技術の進化(Intel・NVIDIAさんに感謝)で豊富なリソースを消費して性能向上を目指すというある意味力技というか柔軟なアーキテクチャ(コーダしばけば性能向上:)的な・・・なのかどうなのか。
とはいえ現物世界だからネットワーク故障時等も想定してシステム構成・構築も含めると大変そうな印象(検証含めて)。
