新しい3.5ソネットと古い3.5ソネットをMinecraftの建築対決に出場させました。
唯一信頼できるベンチマークです。
左: 新しい3.5ソネット
右: 古い3.5ソネット
以下、海外の反応
- 名無しの外国人
素晴らしい、とてもいいね。さて、次はchatGPTo1のMinecraftの建築を見てみよう。 - 名無しの外国人
>>1
このちょっとした操作で、51年分の計算資源がかかることになるぞ - 名無しの外国人
>>1
o1は1か月前に始めたが、まだ建築全体について考え続けている - 名無しの外国人
このビデオを見てみたい - 名無しの外国人
>>4
ああ、もしこれが本当なら、本当に素晴らしいことだ。 - 名無しの外国人
>>5
Emergent Gardenは、このような実験を多く行っていて、異なるモデルを使ってMinecraftのエージェントを動かしているんだ
https://www.youtube.com/watch?v=IeXadWbvDiE - 名無しの外国人
>>6
とてもクールだ。主にデジタルマーケティング/電子商取引の領域で、クロードを実際に応用したこのようなビデオをもっと見たいな - 名無しの外国人
マインクラフトが今のLLMのベンチマークテストなのか? - 名無しの外国人
>>8
正直なところ?現在私たちが使っている、汚染された、しばしば欠陥のあるベンチマークの大半よりはずっといいと思う。 - 名無しの外国人
多種多様なベンチマークがあることは、モデルのさまざまな側面をテストして、どこが強く、どこが弱いかを見つけることができるからだ。たとえツイッターの不特定多数の人が嘘をついていたとしても、多くの異なるベンチマークがあることは良いことだ。 - 名無しの外国人
>>10
「コーヒーテスト – あなたのロボットは、知らない家でコーヒーを作れるか?」
このアイデアはとても古くて、100回シリーズの第1回にすべきだと思う。
『あなたのロボットはMinecraftでダイヤモンドを採掘できるか?』 『あなたのロボットは箱詰めされた部品からPCを組み立てられるか?』
『あなたのロボットは、League of Legendsで人間のチームメイトを協力プレイさせられるか?』(超人的) - 名無しの外国人
未来のAIが近未来的な都市を建設するのを今すぐ見てみたい。 - 名無しの外国人
…AIは一体どうやってこれを作ったんだ? - 名無しの外国人
>>13
コマンドをアクションに変えることができるMODとのインターフェイスだ。 - 名無しの外国人
天国への塔を築こうとしている - 名無しの外国人
こんなに複雑な構造物を建てるために必要な空間認識能力があるなんて、まったく信じられない。 - 名無しの外国人
私はこれを不当に疑っているのだが…。できればビデオで、このタスクをこなせることを証明できないだろうか? - 名無しの外国人
>>17
そうだね、より良いベンチマークは、ClaudeエージェントがMinecraftでこのような構造物を構築する動画だろう。究極のAGIベンチマークは、エージェントにすべてのMinecraft実績を達成させることだ。 - 名無しの外国人
私には必ずしも失敗した結果には見えない。良い評判を聞いたことはあるけど - 名無しの外国人
>>19
失敗作はソネットではなくオーパス - 名無しの外国人
ランダムな超高層ビル - 名無しの外国人
Minecraft内で人々がやってきたクレイジーなことを考えると、将来的に誰かが新しい自己学習型AIをMinecraftに組み込んで、最初のAGIが生まれても驚かない。
redditの『左:新しいソネット。右:古いソネット』より
翻訳元
コメント