Ledge.aiとかいうサイトの記事より。
3.5ヶ月毎に同等性能を得るサイズが半減しているらしい、がこれってどの基準なのだろうか。 プロセスが3.5ヶ月で進化するのは無理筋なのでアーキテクチャ(つまりはアルゴリズム)なのでは。
となるとプロセス技術から導出された経験則とアルゴリズム開発過程の(中間)生産物の推移を一意に比較出来るのだろうか、とど素人視点での素朴な疑問も・・・成長期の論文投稿周期なら納得なのですが・・・
密度化の法則が示唆するのは、同等性能に必要なパラメータ数の指数的減少である。実際、後発の小型モデルが、より大きな先行モデルと同等水準に迫るケースが各種ベンチで観測されている。 またAPI価格の代表例として、GPT-3.5(2022年末)で100万トークンあたり20ドルだったのに対し、Gemini 1.5 Flash(2024年夏)では0.075ドルまで低下しており、推論コストも短い周期で半減している(図参照)。
画像の出典:Densing law of LLMs
「Mooreの法則」と掛け合わせた未来
研究チームは、半導体のMooreの法則(トランジスタ密度の倍増)と密度化の法則を組み合わせると、固定価格のチップ上で実行可能な“有効パラメータ数”は約88日で倍増するとの試算を示す。これにより、エッジデバイスでの高性能推論が加速する可能性が高い。
引用おわり。
なんだ、パラメタ更新での、つまりはアルゴリズムの推移を示しただけに過ぎないじゃないか。これを物理の経験則と比較するなぞおこがましい、却下(個人的には)。
こんなしょうもない「論文」をさも大事の様に引用しないで欲しいなぁ・・・単に過去データから回帰しただけに過ぎないじゃん、それならハイプカーブでノーベル賞取れるのでは?と皮肉も言いたくもなるわな(これはど素人の私見:)。
