翻訳:
モデル(たとえばO1シリーズ)のスケーリングには、現在2つの次元が影響を与えています。それは「トレーニング時間」と「テスト(推論)時間」です。
従来の「スケーリング法則」、つまり大規模なモデルを長時間(前)トレーニングするという考え方は、今も重要であり、依然として基礎的な要素です。しかし今や、もう一つのスケーリングの概念が登場しており、この2つの要素が揃うことで驚異的な能力を引き出す準備が整いつつあります(詳細は以下のスレッドを参照してください)。
要約すると、これは「AND」であって「OR」ではありません。スケーリングは新たなギアを見つけたのです。
以下、海外の反応
- 名無しの外国人
これは、テスト時の計算能力を使って、次のトレーニングに向けた高品質な合成データを生成できるという意味もあるのではないでしょうか。その結果、より高品質なテスト時の計算が可能になり、再びさらに高品質なトレーニングデータを生成できる、というサイクルが生まれるかもしれません。 - 名無しの外国人
>>1
かなり明白な考えだ。オリオンのモデルはそうなっているはずだ。o1の合成データに基づいている。将来の指標では、o1のベースモデルは非常に弱いものになるだろう。ベースモデルのスケーリングに関して、近くに壁があるようには思えない。新しいソネットがそれを証明している。 - 名無しの外国人
>>1
おそらく、より多くの時間を与えることは、大規模なコスト増を意味するため、可能な限り最高の合成データが欲しいので、トレーニングそのもの以外では割に合わないだろう。
あるいは、科学的AIデータセンターのように時間が問題にならないものでなければならない。 - 名無しの外国人
>>1
いつか、ASIは完璧な文章を発見するだろう。 - 名無しの外国人
現代の生成モデルが、賢いことを言うのにかかる時間と、馬鹿げたことを言うのにかかる時間がまったく同じであることは、少しばかげていると思う人は他にもいませんか?例えば、画像モデルは傑作を描くのに1分かかるのも、意味不明な怪物を描くのも同じ1分で、テキストモデルは物理の問題に対する賢い解決策を計算するのに数秒かかるのも、「ガゼボ(あずまや)が偶蹄類の一種だ」と判断するのも同じ数秒かかるのです。
もっと考える時間を与えれば、より賢い結果を出せるモデルが出てきているのは素晴らしいことだと思います。というのも、以前の方法は何かしら本質的な限界があったことは明らかだからです。宇宙にタダ飯はなく、複雑な質問が簡単な質問と同じ計算量で済むはずがありません。つまり、現在のAIは電力を無駄にしているか、十分に考えるリソースが与えられていないかのどちらかだ、ということです。 - 名無しの外国人
>>5
テスト時の計算能力と共にスケールするモデルクラスの発見は、コンピューター囲碁におけるモンテカルロ木探索(MCTS)の発見と同様に重要だと思います。MCTSが登場する以前は、囲碁プログラムは与えられた時間が増えても強くなりませんでした。従来のアルファ・ベータ枝刈りによるゲーム木探索は、高い分岐数と位置評価の弱さのために失敗していたのです。ところが、人々はMCTSと、軽量なプレイアウトポリシーやゲームの終局評価に基づく簡単なヒューリスティクス、さらに十分なテスト時の計算能力があれば、強いクラブプレーヤーレベルの強さに到達できることを発見しました。その数年後には、ニューラルネットワークが優れたプレイアウトポリシーと位置評価を提供できること、さらに自己対局を通じたエキスパート・イテレーションで両者を訓練できることが発見され、プログラムは明らかに超人的なレベルへと急成長しました。
コンピューター囲碁の進化において、MCTSもニューラルネットワークも、最初は従来のアプローチ(囲碁の専門的な知識を手作業で組み込んだもの)に比べて圧倒的に優れていたわけではありませんでした。しかし、それらは従来のモデルとは異なるスケーリング特性や強みと弱みを持っており、比較的早い段階で従来の手法を上回りました。最新の推論モデルにおいても、言語モデルの分野で同様のことが起きつつあると思います。新しい世代のモデルが、ちょうどGPT-4レベルのモデルを上回り始めた段階ですが、まだ全領域での圧倒的な優位性は得ていないのです。 - 名無しの外国人
>>5
それは興味深い見解だ。 - 名無しの外国人
OpenAIは最近、非常に自信を持っているようで、これは良いニュースだ。 - 名無しの外国人
>>8
O1が発表されたときも似たようなチャートを見せていました。そのときも確かに本物らしく見えました。 - 名無しの外国人
AIが限界を打破する - 名無しの外国人
>>10 - 名無しの外国人
テスト時の計算能力を増やすことで、精度は80を超えるべきではないですか? これは「1 & 1 = 1」のようなAND演算で、何も得られないということですか? - 名無しの外国人
最近、テスト時の計算能力が長時間放置されるほど精度が低下し、実際には「最適なタイミング」があるというグラフが浮上していたと思います。 - 名無しの外国人
>>13
推論が多すぎると、難しく考えすぎてしまうとも言える。 - 名無しの外国人
>>14
OpenAIのアダムが言っていることと比べてどうなんだろう? - 名無しの外国人
AIをよりインテリジェントにするためには、データの種類を増やすことで拡張することができる。
手を学習しようとするテキストから画像へのモデルを想像してみてほしい。何百万もの手の画像を与えても、モデルは指が多すぎたり少なすぎたりする支離滅裂な手を出力する。
そこで、手の画像だけで学習するのではなく、3種類のデータで学習する。手の画像、頂点という形で画像に表現された同じ手のジオメトリ、そしてリグという形の手の関節。
つまり、これらすべてのデータを同時にトレーニングすることで、モデルは毎回完璧な手を出力するのです。画像だけのトレーニングでは、手がどのように構成されているかについての十分な知識は得られなかった。画像によっては、数本の指しか見えないものもある。そのため、おそらくモデルは指の数は変化すると考えているのだろう。追加的な種類のデータがあれば、手をより明確に定義できる。 - 名無しの外国人
o1を数百万年放置すれば、人生や宇宙のすべての答えを教えてくれるだろう、たぶん。 - 名無しの外国人
今や』というのはどういう意味ですか?彼らが言及している研究論文は、テスト時の計算能力の重要性を強調したもので、2021年初めにアンディ・ジョーンズ(現在はAnthropicにいる)が発表したものです。なぜ彼らはテスト時の計算能力が新しいスケーリングのパラダイムだと示唆しているのでしょうか?
何かおかしい気がします。私はできるだけ早くAGIを実現したいと思っていますが、彼らが現在、前回の熱狂的なサイクルの主要な話題から方向転換していることに対して、あまり誠実ではないように感じます。だから、次の『突然の』発見があって、テスト時の計算能力からも方向転換するのを待つしかないのでしょうか。 - 名無しの外国人
>>18
『なぜテスト時間計算が新しいスケーリング・パラダイムだと言いたいのか?
』
おそらく、彼らがo1で推論時間コンピューティングにCoTを組み込んだ最初の実装を行ったからだろう。2021年時点では、CoTはまだ、わずかな改善しか見られない、やっつけ仕事のプロンプト手法のようなものだった。 - 名無しの外国人
>>19
問題なのは、プレトレーニングの規模を拡大すれば『そこ』に行けるという、過去4年間彼らが嬉々として押し進めてきたシナリオから逸れてしまうことだ。彼らが明確にそう言ったとは言わないが(そう言った人もいたかもしれないが)、この数年間、人々がそう推測し、憶測が飛び交うのを喜んでいた。
というのも、トレーニング前のコンピュートが実際に、収穫逓増によって実行可能な道ではなくなる(本質的には壁となる)ポイントに差し掛かっていることが判明した今、彼らはその事実から目をそらすために、ストーリーをトレーニング/推論にシフトさせているだけなのではないかと思うからだ。すでに何年も前からトレーニング/干渉について知っていたにもかかわらずだ。この 「新しい 」パラダイムと、今度こそきっとAGIへの最後の道なのだと、人々に憶測や推測をさせて喜んでいるように見える。
私が言いたいのは、彼らの言葉は信頼できる絵ではないということだ。 - 名無しの外国人
>>20『問題なのは、過去4年間、彼らが嬉々として押し進めてきた、プレトレーニングの規模を拡大すれば「そこに」到達できるというシナリオから逸脱していることだ。
』
↑問題は、GPT-4を超えるスケーリングには膨大なエネルギーとハードウェアのインフラが必要で、その構築には何年も何十億もかかるということだ。これが、サム・アルトマンが過去数年間、原子力について言及し、核分裂の新興企業に投資してきた理由である。ブラックウェル・チップの遅れは確かに助けにならなかった。
また、(質・量ともに)データの必要性もあるため、より野心的な取り組みのための総合的なデータを作成するために、より優れた小型モデルが必要なのだ。これがo1が作られた理由の一部であることは間違いない(インフラーが作られる間、ただ座って待つつもりはないという理由もある)。このことは、彼らが今年マルチモダリティに重点を置き、エージェントのことを後回しにした理由を間接的に説明している。しかし、どの研究室もプランニングや推論を解明しようとしているので、oNがより早く、より効率的にそこに到達できるのであれば、なおさらだ。
『というのも、プレトレーニング・コンピューティングは、収穫逓増によって実行可能な道ではなくなる(本質的に壁となる)ポイントに差し掛かっていることが判明したからだ、
』
↑これは、Adam.GPTや他の人たちが真実ではないと主張していることだ。彼らは、スケーリングの法則はまだ有効であり、プレトレーニング・コンピューティングにはまだ収穫逓増はないと言っている。ボトルネックのために一時的にスケーリングが妨げられているだけなのです。 - 名無しの外国人
もうパニックになるのはやめよう。この記事の著者は、o1の推論時間スケーリングについて聞き、実際のスケーリング法則と混同してしまった可能性が高い。我々はまだ壁にぶつかっていない。少なくともOpenAIはそうではない。
redditの『OpenAIのアダムは、「モデルには2つのスケーリングの次元がある。伝統的なスケーリング法則はまだ存在し、基礎となっている。「これはANDであり、ORではない。スケーリングは別の歯車を見つけただけだ。』より
翻訳元
コメント