aki_iic’s blog

己の欲せざる処人に施す事無かれ、狂人の真似するは即ち狂人なり

2024/12/29更新:日経ロボ令和七年新年号

 10日は日経ロボの日という事で令和七年一月号について:

xtech.nikkei.com

例によって表紙のスクショを↓

日経ロボ令和七年新年号

 何せ薄い本なので表紙が目次を兼ねるが中身は少なくとも私にとっては読み甲斐のある内容であります(まだ読んでない:)。

 日経ロボ編集長さんのFacebookをフォローさせて頂いたので勉強させて頂きたいと思っております。

 

20241229 14:38追記:お行儀が悪いのですが筆頭記事を読了したので2024/12/29のblogの内容を本トピックに移しました。思いつきで書いてるので推敲が必要ですな(反省)。

 日経ロボ令和七年新年号は大変読み応えのあります。通勤電車の中で赤線引く変なオッサンを数度(読み込むのに数日・通勤電車掛かったので)演じてしまった:)これだけで4千円の8割方回収出来たと個人的には思っている(日経ロボ編集長さんありがとう)。

個人的に重要と思しき箇所を引用:

 どうにかして、大規模言語モデルが持つ膨大な知識を生かしつつ、拡散モデルベースのアプローチが持つような器用さ・滑らかさを実現できないか。汎用的なロボット基盤モデルを実現するには、異質のモデルであるマルチモーダル型大規模言語モデルと拡散モデルとをうまく橋渡しし、統合することが求められていた。

 突破口となったのは、実はロボット以外の領域での成果だ。ロボットAIではなく、AIのメインストリームの領域でも、大規模言語モデルと拡散モデルを何とか融合させようとする研究はここ1~2年、盛んに試みられてきた。動画生成などの面ではやはり拡散モデル系の手法が優れており、その長所を大規模言語モデル側に取り込めないかとの問題意識があった。

 様々なアイデアが試みられてきたが、2024年8月に米Meta Platformsが「Transfusion」という非常にシンプルなアプローチを提唱。大規模言語モデルの中に、拡散モデルを自然に取り込めるようにした(図5)。

図5 ここ数年のロボットAIの成果を統合して総動員
図5 ここ数年のロボットAIの成果を統合して総動員
Physical Intelligenceのロボット基盤モデル「π0」は、大規模言語モデルのロボット応用などグーグルが取り組んで来た成果を基盤とし、ここ数年のロボットAIの様々な成果・知見を総動員し、統合したような技術となっている。汎用的なロボット基盤モデルを実現するための入り口にようやく達した。図中では、π0に影響を与えた主な技術を点線矢印の始点に示した。図中の※2~8はその技術を本誌で解説した号の参考文献番号。詳細は参考文献リストを参照。
[画像のクリックで拡大表示]

 今回、PIが発表したπ0は、このTransfusionのアプローチをほぼそのまま踏襲することで、大規模言語モデルが持つ豊富な知識と、拡散モデルが持つ動作の器用さを両立することに成功した。大規模言語モデルの離散的なトークンの世界と、拡散モデルが出力する連続値の世界とを、単一のTransformerモデル上でシームレスに扱えるようにした。Transfusionが発表されたのが2024年8月であるから、PIはわずか1~2カ月ほどの間にこの最新の知見を自社に取り入れ、ロボット用に仕立て直し、学習まで実行し、π0を完成させた。まさに精鋭達ならではの早業といえる。

引用おわり。

 もうこの内容だけで4千円分の価値が(あれ、8割と書いたのに10割にマシマシだ:)今の私には有りました。LLMと拡散系の融合がこれほど単純な(それぞれの誤差関数を加算するだけ・・・ある意味乱暴な)方法で実現したMetaの功績は大きいとど素人目線では見える。

 こういう技術内容を門外漢の者(私の事です)にも解りやすく詳解してくれる日経ロボに感謝。