OpenAI共同創業者が明かすChatGPT成功の真実：GPUより大切だったポストトレーニング

この記事でわかること

ChatGPT成功の核心は「計算資源」ではなく「ポストトレーニング」だった理由
初期OpenAIの失敗プロジェクトがいかにして成功の礎になったか
AGI実現に向けて必要な「継続学習」の3つのアプローチ
Thinking Machines Labが目指す「モデル生成インフラ」の未来

なぜ今この話題が重要なのか

OpenAIの共同創業者で、ChatGPTの学習設計の基盤を築いたジョン・シュルマン。彼はRLHF（Reinforcement Learning from Human Feedback：人間のフィードバックによる強化学習）の研究をリードし、GPT-4の進化に貢献した人物です。

そのシュルマンがOpenAIを去り、Anthropicを経て、現在はミラ・ムラティが率いるThinking Machines Labでチーフサイエンティストを務めています。Cursorのポッドキャストで語った内容は、AI業界の内側を知る数少ない証言として非常に価値があります。

GPUよりも重要だったこと

2018年でもGPT-3.5レベルは作れた？

シュルマンによると、今分かっていることを前提にすれば、2018年か2019年には数人の才能あるエンジニアだけでGPT-3.5レベルのチャットボットは作れたはずだと言います。

当時のGPUはNVIDIAのV100。現在のH100に比べれば古い世代です。それでも数台のGPUマシンを組み合わせれば十分だったのではないか、と。

3つのボトルネック

シュルマンが挙げたボトルネックは3つ：

計算資源 — 実は一番の問題ではなかった
レシピ — どう訓練し、どんな工夫をするかの知識
データとポストトレーニング — これが最も重要だった

「クレバーなトリックを追加すれば、より少ない計算量で同じことができる」とシュルマンは語ります。GPT-3レベルのモデルでフューショット・プロンプティングを頑張るより、もっと小さいモデルに徹底的にファインチューニングをかけ、データセットを賢く構築する方がはるかに良い結果が出せる、と。

ポストトレーニングの革命

実際、RLHFなどの技術を使うことで、実質的にGPUを大幅に増やしたのと同等の効果が得られたそうです。

「もしリターンがこれほど大きいと分かっていたら、もっと早くスケールできた」—技術的には可能だったが、本当にここに投資すべきかという確信が持てなかったのです。

DeepSeekがカリカリにチューニングして少ないリソースで結果を出しているのも、この流れを汲んでいると言えるでしょう。

初期OpenAIの実態：失敗から成功へ

大学の研究室のような組織

今となっては巨大企業のOpenAIですが、初期はほとんど大学の研究室のような組織だったとシュルマンは振り返ります。

1〜3人の小グループがそれぞれの興味に基づいて研究プロジェクトを進め、それが論文やブログ記事になるという形式。会社というよりアカデミアに近い雰囲気でした。

AlphaGoが転換点に

大きな転換点は、DeepMindのAlphaGoの成功でした。AlphaGoを見て、OpenAIも「真剣なエンジニアリングと組織的で大規模なチームで、大きなプロジェクトをやる」というアイデアを取り入れ始めたのです。

「Move 37を見て、これやろう！となった」—シュルマンの言葉からは、当時の熱気が伝わってきます。

失敗したが意味のあったプロジェクト

Universe：あらゆるビデオゲームやウェブ操作タスクを集めた強化学習環境を作るプロジェクト。「アイデアとしては正しかったが、10年早かった」とシュルマンは評価します。今のマルチモーダルAIや汎用エージェントの研究は、Universeがやろうとしていたことに近いのです。

ロボティクス：最終的には撤退しましたが、大規模なエンジニアリングと研究を統合する能力が組織に蓄積されました。

OpenAI Five（Dota 2）：これが本当に成功した最初の大規模プロジェクト。ゲームの中で人間のプロに勝つという目標を達成しました。

OpenAI Fiveの成果は、技術そのものよりも**「AIを工場のように大規模に成長させる仕組み」**を作ったこと。何千ものAIが同時に試合をして、結果をリアルタイムで学習に反映し続ける非同期強化学習のインフラ。この考え方が後のGPTの大規模学習にそのまま活きています。

次のAI研究の最前線：継続学習

一回作って終わりでいいのか？

シュルマンが強く問題提起したのは継続学習です。現実の世界にAIを出していくなら、使われながら学び続ける能力が必要。デミス・ハサビスやサム・アルトマンも同様の課題を指摘しており、研究者の間でコンセンサスになりつつあります。

3つのアプローチ

1. ロングコンテキスト 短期間で状況を理解し、会話の流れを覚える能力。ただしコンテキストの量には限界があり、増えると初期の入力を忘れがちになります。

2. パラメータのファインチューニング（LoRA） Low-Rank Adaptationと呼ばれる手法。モデル全体を再学習せずに、低コスト・短時間で特定のキャラクターやスタイルを追加できます。大量の知識をより長期的に吸収するのに向いています。

3. 両者の組み合わせ どこまでコンテキストで処理し、どこからパラメータで処理するか。このやり方次第で、同じGPUでも実質的に計算量が増えたのと同じ効果が出ます。

共同訓練（Co-training）への期待

シュルマンが特に期待しているのは共同訓練というアプローチ。生成モデルと検証モデルを一緒に訓練することで、自己改善のループが生まれるという考え方です。

モデルが推論能力を向上させると、検証側としても賢くなる。それがまた生成モデルを改善する—正の循環です。自己改善の具体的な形が見えてきた、と言えるかもしれません。

AGIのタイムライン

2つの相反する力

シュルマンはAGIの予測について、2つの相反する力があると指摘します。

エンジニアの見積もりバイアス：エンジニアや研究者はプロジェクトの完了時期を常に2〜3倍早く見積もる傾向がある。AGIの予測も同様に、2〜3倍遅くなる可能性がある。

AIの自己加速：AIがAI開発を加速させるポジティブフィードバックループが起これば、加速度的に進む可能性もある。

人間の理解がボトルネックになるかもしれないし、AIの自己加速が予想を超えるかもしれない。シュルマンはどちらにも自信を持った予測はしないと言います。研究者らしい誠実な態度です。

Thinking Machines LabのTinker

ポストトレーニング用のAPI

Thinking Machines Labは「Tinker」というツールを提供しています。これはポストトレーニング用の低レベルAPIで、GPUの管理や分散システムの複雑さを気にせずにポストトレーニングを行えるサービスです。

Pythonスクリプトを書くだけで、GPUの箱を立ち上げる必要もなく、インストール作業も不要。APIをコールするだけでポストトレーニングが動く—OpenAIやAnthropicのAPIを叩くように使えます。

モデル生成の未来

現在は機械学習の知識が豊富な人向けですが、将来的にはもっとユーザーフレンドリーにしていきたいとシュルマンは語ります。

ビジネス課題を持ってきて「こういうモデルが欲しい」と言えば、Tinkerが作ってくれる—そんなモデル生成APIの世界を目指しているのです。

ジェンソン・ファンが言う「1企業1モデル」、全ての企業が自社のAIファクトリーを持ってトレーニングする世界に、一歩近づいているのかもしれません。

テスラジオの考察

シュルマンの話で最も印象的だったのは、「計算資源より大事なことがある」という指摘です。AI業界では「GPUをいかに確保するか」が注目されがちですが、実際にChatGPTを作った人物が「レシピとポストトレーニングの方が重要だった」と言うのは示唆に富んでいます。

OpenAI、Anthropic、Thinking Machines Labと渡り歩くシュルマンのキャリアも興味深い。Anthropicが短かったのは何故か気になりますが、研究者として「一番面白いことができる場所」を常に探しているのかもしれません。

Thinking Machines Labがモデル生成インフラを提供しようとしているのは、新しいレイヤーの登場です。OpenAIやAnthropicがAPIを提供し、企業がそれを使ってサービスを作る。その下のレイヤーで、企業が自社専用のモデルを作るためのインフラを提供する—AI業界のスタックが一段深くなりつつあります。

まとめ

ChatGPT成功の核心：計算資源の量ではなく、ポストトレーニングの「レシピ」が決定的に重要だった
初期OpenAIの教訓：Universeやロボティクスなど失敗プロジェクトが、後の成功の礎になった
継続学習の3アプローチ：ロングコンテキスト、LoRA、その組み合わせ。共同訓練による自己改善にも期待
AGIタイムライン：エンジニアの見積もりバイアスとAIの自己加速、どちらに転ぶか不確実
Tinkerの野望：ポストトレーニングのAPI化で、モデル生成インフラを提供する未来を目指す

この記事の元動画: YouTube