impress watchの記事より。
Gemini RoboticsはGemini2.0ベースのマルチモーダルのRobotics向けAIモデル、らしい:
Googleの記事を引用している様なのでオリジナルを引用:
Roboticsの世界こそ(に限らず)マルチモーダルが必要で、クルマ(自動運転等)でも複数のセンサ(ああ、テスラの一般車はカメラ馬鹿らしいが:)で外部情報を取得する(例えばカメラとLidar等)がそれをより汎化(画像と自然言語とか)するモデルの発表と大雑把に理解している。
次はロイターの記事だが一般向けにより単純化(分かりやすいかどうかは・・・)されている:
業界関係者によると、ロボット工学の分野では近年、AIの進歩などにより、主に産業用ロボットの商業化が加速している。グーグルが開発した「ジェミニ・ロボティクス」はロボットが視覚情報と言語による指示を理解し、動作することを可能にする。グーグルによると、この2つのモデルは、人型を含め工場や倉庫で使用されるあらゆるタイプと形状のロボットに対応するよう設計されている。これらのAIモデルを活用することで、製品の開発コストを削減し、市場に投入するまでの時間を短縮することが可能になる。
ふうむ、一般向け記事としては解りやすい・・・のでは(多分)。
日経ロボ読者としては1年前に読んだ記事の内容が一般メディアの記事として配信される様でなんというか、日経ロボ読んでてよかった(屈折しておりますが)〜とか思ったり(変態ですね:)。
技術の進歩は素晴らしい(特に実業の分野に於いて)。
20250321 00:28追記:MIT Tech Reviewより。MITと名前は立派だが記事内容は玉石混交(翻訳レベルもあるのかもしれないが概ね元記事のレベル)故、是々非々にて: