2025年7月25日

AIモデルはまだ成長するのか？高まる強化学習の重要性とAIの将来

概要

2025年最新AIトレンド解説：強化学習（Reinforcement Learning／RL）がChatGPT・Grok4・Geminiを進化させる！
――「AIモデルはまだ成長するのか？その鍵は強化学習にある」――
この動画でわかること
📌 強化学習（RL・RLHF・RLAIF）とは何か、従来のスケーリング手法の限界とどう違うのか
📌 OpenAI・xAI・DeepMind・Anthropic・Meta 各社が2025年に投入した最新RL戦略
📌 Grok 4 / GPT‑4 / Gemini / Claude が採用した大規模RLの実例と性能向上データ
📌 AIジム／ツール使用エージェントがもたらすLLMの次世代機能（自律的ウェブ検索・コード実行）
📌 AGI（Artificial General Intelligence）へのロードマップと安全性・報酬設計の課題

＜目次＞
00:00 オープニング・強化学習がトレンドになっている理由
00:30 AIスケーリング限界説とデータ枯渇問題
02:05 従来の訓練vs強化学習の違い
03:35 強化学習の具体的な仕組み
04:58 競技プログラミングでの成功事例
06:11 業界に起きている劇的な変化
07:32 xAI Grok4の革新的アプローチ
09:59 業界トップランナーたちの戦略
12:01 OpenAI・Anthropic・Metaの取り組み
15:53 最先端研究「デジタルジム」とは？
18:00 課題と計算コストの問題
20:19 強化学習がAGIに決定的に重要な理由
22:16 安全性と今後の課題
24:02 人間の学習との類似性について
26:14 ロボティクスとの関連性
29:00 エンディング・チャンネル登録のお願い

＜参考＞
強化学習の将来
https://www.theinformation.com/articles/reinforcement-learning-going

xAIが強化学習に多額の投資をした理由
https://www.theinformation.com/articles/xai-spent-reinforcement-learning

iPhoneアプリでご視聴の方向けの有料メンバーシップ登録はこちら！
https://www.youtube.com/channel/UCXYstYfeIP6cApPZnMmw2jQ/join

動画

字幕テキスト

00:00:00	本日なんですけどAIモデルのトレーニングの話をしていこうと思うんですけど
00:00:06	強化学習が結構今トレンドになっているっていうのが
00:00:10	このAIモデルのトレーニングにおける
00:00:13	研究者たちの多くが言っていることで
00:00:16	XAIのGrok4とかが強化学習に力を入れたみたいな話をしたと思うんですけど
00:00:22	前々回ぐらいにはい、OpenAIもそうですし
00:00:27	XAIもこの強化学習という技術を重要視していると
00:00:32	これが結構AGIとか汎用人工知能につながっていくピースかもしれないというのがあって
00:00:39	この辺が注目されているという話をしていこうと思います
00:00:46	最近ChatGPTとか使ってても賢くなってるって感じることはありませんだろうな
00:00:54	この発言めっちゃ…まあいいんじゃない？
00:01:01	メイン議論入って…ああここいらないってことですか？
00:01:04	前から思ってたんだけど
00:01:05	ここ冗長なんだよな　冒頭と導入が同じじゃね？
00:01:12	これ冒頭と導入
00:01:13	えーっと…はい、2024年から2025年にかけてAIトレーニングにおける
00:01:21	パラダイムシフトみたいなのが起きてますと
00:01:24	従来のトレーニングデータを増やしていって
00:01:26	モデルを大きくするみたいなのが従来の手法なんですけど
00:01:29	これが限界を迎えてるんじゃないかみたい
00:01:31	なのが来てて、新しいアプローチが出てきてるっていうことですね
00:01:36	それが強化学習ですよね
00:01:38	そうですね、まずこのスケーリング限界説みたいのがありますと
00:01:45	OpenAIのJerry Tworekっていう従来っていうのが言ってるのが
00:01:51	従来のスーパーサイジング手法ではもう劇的な知能向上は期待できないっていう風に言ってるんですね
00:01:59	スーパーサイジング、プレトレーニングのところの投資ではっていう意味ですかね
00:02:07	インターネット上の良質なテキストデータを2024年までにほぼ使い尽くされていて
00:02:12	単純なデータ量とパラメータ数を増やして、増やしても
00:02:16	収穫逓減みたいなのが起きていると
00:02:19	従来のAIスケーリング法則的な、データ量とパラメータ数を増やし続ければ
00:02:25	データを増やし続ければ
00:02:27	AIがどんどん賢くなっていくよねみたい
00:02:29	なのが、データの枯渇みたいなのが
00:02:31	起き始めていて
00:02:34	これまでと同じような線形
00:02:35	線形の増加みたいなのを
00:02:37	線形な増加みたいなAIスケーリング法則を疑問視するような
00:02:41	研究者がいるということですね
00:02:45	じゃあスケーリング法則終わりなんだ
00:02:47	終わりというか、多分イメージとしては成長の角度が下がってくるみたいな感じなのかなって思いましたけど
00:02:57	比例はしてるけど角度が低くなったというか
00:03:01	はい、データ量を入れられないからみたいなところですかね
00:03:05	はいはい、データさえあればいけるけどって
00:03:07	ところか、データが枯渇しちゃったってことですね
00:03:12	ここで登場したのがこの強化学習で
00:03:16	これが従来の次の単語を予測させていくというトレーニングじゃなくて
00:03:20	目標に向かった行動に対して
00:03:24	人間がフィードバックを与える、人間じゃなくてもいいんですけど
00:03:39	フィードバックを与えるっていうアプローチですよね
00:03:43	これが出てきたっていうことですね
00:03:46	はい、強化学習はこの回答は人間にとって有用なのか
00:03:51	有害なのかみたいなふうに明確に評価をもとに試行錯誤を通じて学習していくみたいな感じの違いがありますと
00:04:03	人間が子供にいいこと
00:04:05	悪いことを教えるみたいな感じですよね
00:04:08	そうですね、人間のフィードバックから学ぶっていう強化学習なので
00:04:13	子育てに近いものですね
00:04:16	人間のフィードバックから学ぶモードをReinforcement Learning from Human Feedbackっていう、RLHFって呼ばれる手法なんですけど
00:04:26	これが実はChatGPTの成功の鍵であったという話は
00:04:30	有名な話で
00:04:31	一部の界隈では有名な話で
00:04:34	でもこれが2025年の中頃とかには
00:04:38	業界全体で強化学習っていうのがAIの訓練の次のフロンティアとして広く認識されるようになってきたということですね
00:04:50	これが今重要視されてるっていうのは
00:04:56	そこで合ってますよ
00:05:04	いや、なんか繋がんねえなと思って
00:05:10	事前学習でモデルが成長しなくなったから
00:05:13	この強化学習の重要性が注目されているんですよね
00:05:18	そうですね、だからもともとChatGPTの成功事例として強化学習、人間によるフィードバックによる強化学習というのが注目されていたんですけど、使われていたんですけど
00:05:29	これが事前トレーニングのデータの枯渇によって
00:05:33	今めちゃめちゃ注目を集めるようになったというところで
00:05:36	強化学習が単なる知識を覚えるというのから
00:05:39	知識を使って問題を解くみたいなへの進化を可能にするというのがあって
00:05:44	それで今注目されているということですね
00:05:46	専門家は強化学習はモデルに何を言うべきかではなく
00:05:50	どのように知識を使うべきかみたいなのを教えるというふうに表現していますと
00:05:55	分かりやすいですね
00:05:57	事前学習は覚えさせる、知識を覚えさせるで
00:06:00	後工程のこの強化学習ではその知識の使い方みたいなのが、だから
00:06:05	なんかAGIとかそのエージェンティックな動きとかにも
00:06:10	強化学習っていうのはめちゃめちゃ大事なトレーニングになるっていう風に言われてるんで
00:06:15	次のトレンドとしてはそのAGI的なエージェンティックなモデルっていうのが結構トレンドなので、XAIとかもこの辺めちゃめちゃやってるっていうことですね
00:06:29	強化学習の具体的な仕組みについて話していくんですけど
00:06:32	強化学習の革新は試行錯誤とフィードバックっていうもので
00:06:36	人間がスキルを練習するのと
00:06:38	同じようにAIモデルも行動して
00:06:40	何か行動してその結果に対して報酬とか罰とかを受けて学習していくっていう内容になっているみたいですね
00:06:50	これAIに報酬を与えるって
00:06:51	何回かやりましたけど
00:06:53	これ実際どういう風に与えるんですかね
00:06:56	2つアプローチがあるらしくて
00:06:58	1つがReinforcement Learning from Human Feedback、人間のフィードバックからの強化学習、人間の評価者が
00:07:07	モデルの出力を評価して
00:07:08	好ましい回答に高いスコアを与えるというようなやり方をやるみたいですね
00:07:15	これは工数かかりそうですけどね
00:07:17	そうですね、めちゃめちゃ工数かかるんで
00:07:19	実際にはまず人間が数万件の評価例みたいなのを作って
00:07:23	その評価パターンを学習した報酬モデルを作ると
00:07:28	そしてその報酬モデルが大量の出力を自動評価するみたいな仕組みになっていることが
00:07:33	ほとんどのこのRLHF、人間フィードバック型の強化学習のモデルになっているみたいですね
00:07:40	仕組みになっているみたいですね
00:07:42	評価のモデルを作っちゃうんだね
00:07:44	そうですね、このモデルを作るのもめちゃめちゃ個人的な作業なんで
00:07:50	結構泥臭いことやってるっていうことですね
00:07:54	二つ目としては明確な目標がある問題での自動評価っていうもので
00:08:00	これは例えばプログラミングの問題だと
00:08:02	コードが正しく動くかとか
00:08:03	数学の問題だと答えが正しいかで自動的に報酬が決められるっていう分野があると思うんですけど
00:08:10	こういう分野は自動評価で自動的に答えと同じなら報酬を与えてポイントを与えて
00:08:19	違ったら…違うみたいな感じで
00:08:21	自動的にここは組むことができるっていうものみたいですね
00:08:26	これはやりやすいんですよね
00:08:27	そうですね、2025年の今年の初めぐらいにOpenAIが発表した研究で
00:08:33	競技プログラミング問題で強化学習を適用したら
00:08:37	人間のエリートレベルのエンジニアの成績を達成したと
00:08:42	しかも特別な戦略を手作業でプログラムした専用のプログラミングシステムを上回ったみたいなのがあって
00:08:53	強化学習されたモデルっていうのは自動判定できる
00:08:58	明確な目標がある問題に強くなるっていうのがあるんですかね
00:09:04	人間のフィードバックの…パターンよりも効率的だから
00:09:11	その正解があるやつは自動で強化学習が進めやすいからってことだろうな
00:09:18	そうですね、これが意味しているのが
00:09:22	多段階の推論問題を解く能力が劇的に向上したっていうのを意味していて
00:09:27	従来のモデルは次の単語を予測していくだけだったんだけど
00:09:30	強化学習によって問題を分析して
00:09:33	複数のステップに考えて解決策を見つけるっていう人間的な思考プロセスを獲得するに至ったと
00:09:41	ここに強化学習がめちゃめちゃ貢献しているっていうことですね
00:09:47	考えることを覚えたんですね
00:09:50	そうですね、冒頭で話したOpenAIのJerry Tworekっていうのはモデルが熟慮をするとか
00:09:56	異なる問題
00:09:57	解決経路を試すとか試すっていうのは
00:10:01	能力の獲得だっていうふうに説明していて
00:10:03	強化学習によってAIに戦略的な計画能力だったりとか
00:10:07	深い推論能力みたいな
00:10:09	新しい能力が生まれている
00:10:10	これがAGIとかにつながっていくんじゃないかみたいなことみたいですね、だから強化学習によって
00:10:17	そういう今のAIモデルのすごくなったなみたいな、AIモデルが
00:10:22	なんか賢くなったなみたいな背景ってこういう段階的な推論能力とかだと思うんですけど
00:10:29	結構多分強化学習がそこに貢献しているっていう部分が結構あるんじゃないかということですね
00:10:40	でここで業界に起きている変化として
00:10:44	従来強化学習って仕上げの調整みたいな程度の小さい扱いだったっていうのがあったんですけど
00:10:51	どれぐらい小さかったんですかね
00:10:53	事前訓練と比べてごく少量のリソースしか使われていなかったと
00:10:58	2024年から2025年にかけて
00:11:00	この状況が劇的に変わっていったっていうのがあって
00:11:03	イーロン・マスクのXAIが業界に衝撃を与えたっていうのがありまして
00:11:07	最新モデルのGrok4だったと
00:11:09	前世代のGrok3の10倍のコンピューティングリソースをこの強化学習に投入したっていうことがありましたと
00:11:19	前回やったやつですね
00:11:20	そうですね、これでGrok4が相当成長したっていうのを話したと思うんですけど
00:11:25	20万GPUのColossusSuperClusterというXAIが持っている大規模なデータセンターがあるんですけど
00:11:32	それを使って事前訓練規模での強化学習、事前学習と同程度の強化学習を実行したと
00:11:42	結果として訓練期間中ずっと滑らかな性能向上がGrok4に関しては続いたというのが報告されていて
00:11:50	これをこの強化学習のスケールアップがプラトーではなく継続的な改善をもたらすということを証明したので
00:11:58	事前学習の限界みたいなのを補完する役割として
00:12:02	強化学習を同規模に行うことによって
00:12:05	モデルの賢さがさらにパワーアップするということが証明されたということですね
00:12:11	同時に？同時ではないんじゃない？
00:12:13	同時っていうのは？
00:12:14	そうですね、期間中訓練期間中ずっと
00:12:17	事前訓練と同規模の強化学習を行うっていう
00:12:21	はいはいはい、同時って何？同時ってどこ読んだの？
00:12:24	あれ同時って…同時って…同時って読めなかった？
00:12:30	いや同時って言ったんですけど、同時だったような
00:12:33	気がしたんですよね
00:12:34	最初テキストが変わっているってこと？
00:12:38	いや事前学習と事後の強化学習は同時なわけなくない？
00:12:44	そうですね
00:12:45	なんで…はい
00:12:48	ちょっと一気にやり直しますね
00:12:51	20万GPUのColossusスーパークラスターというのを使って
00:12:55	事前訓練規模と同等の、同規模の強化学習を実行したと
00:12:59	結果として訓練期間中ずっと滑らかな性能向上みたいなのが続いて、これが強化学習のスケールアップがプラトーではなくて
00:13:07	継続的な改善をもたらすということを証明したということで
00:13:11	事前訓練と同規模の同じレベルの強化学習を
00:13:16	Grok4に関してはやったっていうことが
00:13:20	従来のモデルから、従来のフロンティアモデルに追いつくって
00:13:25	ことに貢献したっていうのがあったということですね
00:13:31	強化学習のところではお金と計算資源かけた分だけちゃんと賢くなったってことですね
00:13:37	そうですね、結局金とリソースをかければ賢くなる、強化学習に関しても成果を得られるということなんですけど
00:13:49	しかもGrok4に関しては数学とかプログラミングだけじゃなくて
00:13:52	様々な分野で性能向上を達成したというところで
00:13:56	Grok4が証明したこととしては
00:13:59	強化学習への投資額とモデルの知能がイコールになるという
00:14:03	新しい方程式みたいなのを実証したっていうところが大きくて、これが次のAIトレーニングのトレンドになっていくっていうことですね
00:14:14	今まではAIスケーリング法則で事前学習にかけた分だけ
00:14:18	モデルの知能が賢くなるみたいな感じなんですけど
00:14:20	強化学習への投資額っていうのもモデルの知能にめちゃめちゃ貢献するっていうことが分かったっていうのが新しい方程式を見出したっていうのがこのGrok4のイノベーションだったということですね
00:14:34	他の会社もやってるんですかね
00:14:37	そうですね、OpenAIも同様の方向に向かっていて
00:14:42	一部の研究者とかは事前訓練と強化学習を同時並行で行う手法みたいなのを提案していたりすると
00:14:50	これか、同時って言ってんの
00:14:52	同時並行ここで行えるんや
00:14:55	事前学習と…そうですね
00:14:57	従来はまずインターネットのテキストで訓練して
00:14:59	その後でフィードバック、その後なんかフィードバック学習っていう強化学習ですね
00:15:03	っていう順序でやってたんですけど
00:15:05	新しいアプローチではテキストを学習しながら同時に好ましい行動パターンも学習するみたいなことが
00:15:14	従来のパターンとは新しい方法でトレーニングする方法みたいなのを
00:15:18	考えている研究者とかが多いと
00:15:23	これ全然ピンとこないな、事前学習やりながら強化学習を同時にできるんや　同じマシンじゃできない感じはしますけどね
00:15:35	時間的に同時に行うみたいなことなんですかね
00:15:37	成長中のモデルに対して同時に強化学習を行うみたいな
00:15:43	うーん、どういうことなんですかね、なんか
00:15:46	これができんだったら
00:15:47	最初から、最初からやれよって感じですけど
00:15:52	まあなんか今までは難しかったのが、なんかできるようになったんですかね、なんか
00:15:56	工夫をして…確かに、なんか今までなんで強化学習を同時に行うっていうアプローチをしてこなかったのかっていうのは
00:16:03	なんか理由があるかもしれないですね
00:16:05	うん、しかもあれだね、完成前のモデル、完成前っていうか
00:16:09	事前学習完了…事前学習完了前のモデルにですね
00:16:13	途中だもんね
00:16:14	その途中のモデルでも強化学習当てって意味あるんだね
00:16:20	うん、人間で言うと
00:16:22	なんか全部まだ完全に勉強終わってない子に試験問題解かせるみたいな
00:16:30	そうか、データのあれか、与えてるどこまでのデータの学習が完了してるかで
00:16:37	数学の勉強終わってるから
00:16:39	数学だけ強化学習先にやるとかそんなイメージなんですかね
00:16:44	もしかしたら終わってないところに関する分野の問題とかもやって、先に人間がまずなんか、うん、勉強を始める前に
00:16:54	試験勉強を始める前に
00:16:55	試験の過去問も解くみたいな
00:16:58	そういうのをやるのかもしれないですね
00:17:00	AnthropicのCEOのDario Amodeiとかもこの強化学習、後処理段階っていうのがどんどん大きくなっているという風に話していて
00:17:10	強化学習というのが今までは事前学習の後に行う仕上げの調整みたいな
00:17:15	ちっちゃな調整の分野だったんですけど
00:17:19	AI訓練の中核のものへと移行しているというのがAI
00:17:24	業界全体で起きていること
00:17:26	将来的にはどうなりそうなんですか？
00:17:29	将来的には多くの、今OpenAIとかAnthropicの話しますけど
00:17:34	多くのモデルとか多くの専門家の予測で
00:17:37	将来のAIモデルは生のインターネットデータを学習するのと同じくらいの時間をフィードバックと実験からの強化学習に費やすようになるという風に思われているというか
00:17:47	そういう風にトレンドが移行しているということですね
00:17:52	はい、ここから業界のトップランナーたちがなんでこれほど強化学習に注力しているのかというのを見ていくんですけど
00:18:00	どんな人たちが注目しているんですか？
00:18:03	基本的にAIの専門家でも
00:18:05	全員出てくるみたいな感じなんですけど
00:18:07	DeepMindのCEOだったり
00:18:08	Demis Hassabisっていう、GoogleのAIのトップの発言とか
00:18:14	次世代のGemini
00:18:16	AIとか
00:18:16	ではAlphaGoタイプのシステムの強みと
00:18:19	現在のLLMの素晴らしい汎用能力を組み合わせるというふうに明言していて
00:18:24	AlphaGoは囲碁で人間のチャンピオンを破ったやつですね
00:18:27	そうですね、これ結構フロンティア的なモデルだったんですけど
00:18:34	GoogleのAlphaGoが使っていた先読み
00:18:36	これたる計画とか選択肢の探索とか思考のフィードバックからの学習みたいな
00:18:41	この強化学習技術っていうのを
00:18:43	Geminiの大規模言語モデルに統合しようとしているっていう発言がありましたね
00:18:50	強化学習大事になったから
00:18:52	強化学習ですごく成果出したモデルをうまいことくっつけようみたいな、Geminiにくっつけようみたいなことみたいな
00:19:01	それで新たな成長を模索しているみたいなことだと思うんですけど
00:19:05	言語モデルの次の大きな飛躍はインターネットやコンピューター上でより
00:19:09	多くのタスクを実行することかもしれないという風にHassabisは言っていて
00:19:14	つまり単なる対話ではなくて
00:19:15	実際にツールとかAPIを操作する能力、より人間的な能力の獲得みたいなのを目指しているっていうのが
00:19:22	おそらく背景にあると　AnthropicとかMetaとかはどうですか？
00:19:27	どうなんですか？
00:19:28	AnthropicのClaudeは、Claudeのモデル、Claudeというモデルがあると思うんですけど
00:19:33	ここがこのRLHF、人間のフィードバックに加えてAnthropicはこのConstitutional AIという
00:19:41	独自手法を使っていますと
00:19:44	これ一回やったと思うんですけど
00:19:46	Anthropicが作っている、人間の代わりにAI判定者が決められた原則に従ってフィードバックを提供する、AIの評価者、評価モデルみたいなのを
00:19:57	Anthropicが独自に作っていて
00:20:00	人間のフィードバックに加えて
00:20:01	これを使っているというのがAnthropicの現状
00:20:04	このAI同士で学習し合うみたいなやつですよね
00:20:08	そうですね、Amodeiは事前訓練は数ヶ月で終わるけど
00:20:12	その後のこの強化学習の調整っていうのは複雑で
00:20:15	正確性に欠ける作業なので
00:20:17	うまくやるにはすごい努力が必要だというふうに言っているんですけど
00:20:20	同時にそのモデルの潜在能力を引き出すには不可欠だというふうに説明していますと
00:20:26	Metaも何か言っているんですか？
00:20:28	Metaも、LLaMA2チャットで
00:20:31	RLHF、ヒューマンフィードバックを使って有用性とユーザー嗜好に最適化したということをやったみたいなんですけど
00:20:39	興味深いのは普段AIに関して懐疑的な慎重派のYann LeCunが
00:20:45	RLHFの有用性、強化学習におけるヒューマンフィードバックの有用性を認めているということがあって
00:20:55	ディープラーニングは過大評価されているって
00:20:58	発言が有名なそうですよね
00:21:01	このチャンネルでAI、AGIいつできるのみたいな話をすると
00:21:06	Yann LeCunだけは、Yann LeCunはいつもネガティブ側の事例で出てくるっていう
00:21:12	はいはい、AGIの予想時期出したら
00:21:15	LeCunだけめっちゃ遅かったみたいな、そうです
00:21:18	そうです
00:21:18	強化学習のAIができることみたいなのを現実的に見てるんですけど
00:21:23	うん、彼は純粋なモデルのスケーリングでは不十分で、より
00:21:27	認知的な仕組みの学習が真の知能には必要だというふうに
00:21:30	従来から主張していて
00:21:32	そういう彼が強化学習の価値は認めているというと
00:21:36	やっぱりその認知的なこの仕組み、新しいよりAIが賢くなるために必要な次の段階に強化学習がめちゃめちゃ効くということを認識しているから
00:21:48	強化学習の価値を認めているというのがあるんじゃないかという感じですかね
00:21:54	一番印象的な発言とかありました？
00:21:56	OpenAIのJerry Tworekという、最初に言ったOpenAIの開発者なんですけど
00:22:01	この継続的な学習プロセス自体がAGIへの最も重要な要素になり得るというふうに言っていて
00:22:07	まずこれどういう意味かというと、知能が固定されたモデルの重みにあるんじゃなくて
00:22:12	モデルが出力を生成して
00:22:14	それを評価されて
00:22:16	フィードバックから改善するっていうモデル自体の反復学習プロセスに知能というか
00:22:22	AGIっぽいものはここにあるんじゃないかみたいなことを彼が言ってるんですよね
00:22:29	OpenAIが作っている
00:22:31	このモデルの強化学習の仕組み？
00:22:34	モデルが自動でフィードバックしてみたいな仕組み自体がもはやAGIっぽいなみたいなことをこのTworekは言ってると、なるほど
00:22:43	やっぱりだから人間が教えてあげるみたいなのが大事なんですね
00:22:38	やっぱりね、人間じゃなくてもいいのか
00:22:40	でもそうですね
00:22:42	フィードバックされてそれを改善するみたいなのがAGIへの重要な要素になるっていう風にこのTworekが言ってるという、なんか
00:22:53	その事前学習だけやったモデルだと
00:22:55	そのなんか人間には当たり前の問題が、簡単な問題が解けなかったりとかするって
00:23:01	それは世界モデルがないからみたいな、重力に関する感覚がないとか
00:23:06	あの辺がこう、今までの事前学習だけだとカバーできない範囲があったと思うんですけど
00:23:12	その辺を網羅しに行くような感じのトレーニングなんですかね
00:23:16	この強化学習で人間がフィードバックしたりとか
00:23:19	実際の現実世界の問題を解かせたり…そうですね
00:23:26	データの枯渇だけじゃない、強化学習自体の強みみたいなのがこのトレンドにはあるみたいな印象は…思いますよね
00:23:37	物理学の問題とかとかさせてフィードバックしたら
00:23:39	さっきの重力に関する知識足りないとかも補完し…
00:23:42	そうじゃん、そういうことなんですかね、なんか
00:23:48	人間も重力について実際に学習するのって
00:23:52	実際に物を落としたりとかして学んだりすると思うんで
00:23:55	感覚的にね
00:23:57	その辺って確かに人間も物事をインプットすることによって得られる感覚じゃないから、でも
00:24:08	もともと強化学習ってそういうことのためにあったのかもしれないですね
00:24:12	そうだね、なんかOJTみたいなのに近いのかもしれないね、なんか
00:24:18	新しく人を取った時にさ、はい面接とかしてるから
00:24:22	一定スキルあるのはわかるけど
00:24:23	実際の問題解決でいけてるか
00:24:25	どうかってぶっちゃけ分かんなかったりするじゃん
00:24:29	実際動かしてみて、この辺弱いなと思ったらその辺を教えたりとか育成したりとかして
00:24:34	その企業の特定のセクションで活躍できる人材に育てていく、オンボードしていくみたいなのがあると思うんですけど
00:24:42	ああいう一回泳がすみたいなのが大事っていうか、この事前学習を投資して
00:24:48	一生懸命作ったモデルの、言うて
00:24:49	でもこいつどこが苦手かよく分かんねえみたいなのを
00:24:53	いろんなベンチマークとか実際の現実問題の課題を解かしてどうか、それに対してフィードバックして、よく分かんない足りない部分を
00:25:02	その中でアジャイル的に補っていくみたいな
00:25:06	そういうアプローチなんですかね
00:25:08	抽象化すると
00:25:09	一回アウトプットさせて良くない箇所を出すみたいな作業、課題見つけるじゃないですけど
00:25:18	その結果見つかったのが重力に関しては全然こいつ分かってねえなとかだったと思うんですけど
00:25:25	あれを炙り出す作業なのかも分かんないですね
00:25:27	そうですね、ここからは最先端の研究についてどういう手法が使われているのかっていう話をしていくんですけど
00:25:34	このThe Informationの報道で
00:25:36	記事の中でデジタルジムっていう概念を登場させていて
00:25:40	デジタルジム？　The Informationの記事によると
00:25:43	静的なデータセットの訓練から
00:25:46	実際のアプリケーションを持った仮想環境で
00:25:48	仮想環境を作ってAIエージェントに学習させるみたいな
00:25:51	研究が進んでいますと
00:25:53	例えばSalesforceとかAmazonの模擬環境みたいなのを作って
00:25:58	そこでAIが
00:25:58	実際にタスクを練習するみたいな構想ですね
00:26:01	はあー
00:26:01	SalesforceやAmazonの模擬環境、Salesforceはあの、CRMですね
00:26:09	CRMはポチポチいじれる仮想環境、Amazonは実際に買い物できる、買い物できる環境ってことですかね
00:26:17	はい、えー、ゲームみたいですけど
00:26:19	だから自動運転でもこんなのあって
00:26:22	Waymoが自動運転を日夜やらしている仮想環境でやらしているみたいな言ってましたよね
00:26:32	CRMにセールスリードを登録したり
00:26:34	ECサイトで注文を行ったりする作業みたいなのをAIが試行錯誤を通じて覚えていく
00:26:40	正しく完了すれば報酬を与えたり、失敗すれば
00:26:42	改善のチャンスを与えるみたいな感じで学習させるみたいなんですけど
00:26:47	実際の使われているエージェントが使われている環境で
00:26:50	環境を模した環境を作って
00:26:52	そこでエージェンティックにAIが動くかどうかっていうのを
00:26:58	強化学習の手法を用いて改善させていくっていうアプローチが紹介されてましたね
00:27:05	英語は人間と同じように
00:27:06	ブラウザー、ブラウザかだから
00:27:09	これで言うとSalesforceとAmazon、Webブラウザじゃないか
00:27:13	Salesforceってあれか、ブラウザというか
00:27:16	ウェブサイト、ウェブだっけ、Salesforceってウェブですね
00:27:20	じゃあブラウザ操作する方法みたいなのを覚えてるって感じなんですかね
00:27:25	はいはい、でXAIのGrok4とかはすでにこの技術で訓練されて
00:27:30	自発的にコード実行とか？
00:27:31	ウェブブラウジングとかデータベースクエリみたいなのを行う能力を獲得していると
00:27:38	これでどんなことができるようになるとかあるんですか？
00:27:41	複雑な研究の質問を受けると
00:27:44	Grok4は自分でタスクを分解して
00:27:46	必要な情報をウェブ検索して、その結果を統合して回答したりすると
00:27:51	単なるテキスト予測を超えて
00:27:53	デジタル世界で実際に行動する能力みたいな、人間が実際に同じような課題を受けて行動するのと
00:28:01	同じような能力を備え始めているという　大変そうだね
00:28:08	そうですね、何パターンも模擬の環境を作って学習しなきゃいけないというのもあると思う
00:28:16	静的訓練と違って
00:28:17	インタラクティブシミュレーションというらしいんですけど、計算負荷が高いというふうに
00:28:23	The Informationがあって
00:28:24	そうだよね、大規模モデルに
00:28:27	ウェブアプリを何百万回もクリックさせるっていうのは計算コストが非常に高いっていう
00:28:32	そこの大変さみたいなのもあるみたいですね
00:28:35	そうだよね、Operatorとか使うと分かるけど
00:28:39	すげえ時間かかるもんな
00:28:41	まだ一回、その一回
00:28:44	そのウェブブラウザのキャプチャーをロードしてこう、見て考えて
00:28:51	このボタンをクリックすれば
00:28:52	多分いけるみたいな、クリックしてみたとか
00:28:54	そういうなんか推論コストがめちゃめちゃかかる、時間もかかるから
00:29:00	しかもそれ何百万回とかやるんだね
00:29:03	これいや、そうですよね
00:29:04	複数のウェブアプリに対して何百万回もやらなきゃいけないっていうのがあるんで
00:29:10	これやっぱり汎用のモデルにするのは大変そうだね
00:29:13	Amazonの買い物専用とかSalesforceの管理専用とかだとまだやりようあるかもしれないですけど
00:29:22	ECサイトとかは、ECサイトのパターンとか、CRMっぽいもののパターンとか
00:29:28	Web記事のパターンみたいな
00:29:31	そういう感じでパターンごとに用意するんですかね
00:29:34	模擬環境を、なんかそういうふうに
00:29:36	まあまあ、そっか、並列できんのか
00:29:38	そこの訓練ってでも一つのアプリに対して
00:29:41	何百万回もクリックさせなきゃいけないですね、その強化学習させるってことを考えると
00:29:47	そうだね、だし
00:29:50	これ何がいいパフォーマンスなのかっていう定義も難しそうですけど
00:29:55	そうですね、あそうですね
00:29:56	でゲームとか数学の問題とかは勝敗とか正解が明確なんですけど
00:30:02	例えば使いやすいウェブページを設計するみたいなオープンエンドのタスクでは報酬設計みたいなのが
00:30:08	主観的になるっていうのがあって
00:30:11	これがいいパフォーマンスだったのか
00:30:12	どうかみたいなのが曖昧になるっていうのがありましたね
00:30:17	これも解決の工夫してるんですか
00:30:20	最終的な、いい、最終的な
00:30:25	そのパフォーマンス定義みたいなのを正確になるように調整してるみたいなのが一つのやり方として出てきてましたけど
00:30:53	本当に人間を教えるみたいだね
00:30:56	そうですね、一旦草案できたら見せてみたいな
00:31:00	そういうことですよね
00:31:02	結果評価は難しいような領域とかだと
00:31:05	まさにこんな感じかなと思うけど
00:31:07	数字で別に厳密に出ないけど
00:31:10	明らかにこうした方がいいみたいなのって
00:31:12	なんか別に数値結果で語られないじゃん、なんか
00:31:16	微妙なことしてたら
00:31:17	それ微妙だよって教えたりとか
00:31:20	もっとこうした方が良かったら、こうした方がいいよって
00:31:22	別になんかこの数字がこうなるから
00:31:24	こうしましょうみたいに言わない改善ポイントっていっぱいあると思うんですけど
00:31:28	人間の仕事でも、はい、そういうのをやってんだね
00:31:33	モデルにも、そうですね
00:31:35	こういう人間らしい
00:31:36	学習プロセスを通じて人間の期待により近い結果を生み出せるっていうのがあるんで
00:31:42	この投影主役的にやっぱなるんですけど
00:31:45	現実世界のアプリケーションでAIが人間のようにナビゲートする未来っていうのが、このAIの多くの人間が求めている
00:31:51	このAIの未来だと思うんで
00:31:53	例えばインターフェースはなんかチャットだったりとか
00:31:59	音声入力で、裏で人間っぽい調査とかいろんなウェブの情報を使って動くっていうのが人間がAIに期待していることなんで
00:32:11	その未来への重要なステップに繋がるってことみたいですね
00:32:17	なるほど、やっぱりScale AIがやってたことが重要そうですね
00:32:23	だからやっぱりScale AIのAlexander Wangの先見性は凄まじいものがありましたよね
00:32:29	そうだね、彼の言う通りになってみたいなのがあるんで
00:32:33	ラベル付けが大事って気づいたみたいなやつね
00:32:36	データの　最後に強化学習がこのAIの継続的な成長にとって
00:32:40	なんで決定的に重要なのかっていうのをまとめていくんですけど
00:32:44	2025年にAI業界には強い革新があって、AIモデルは賢くなり続けることができるんだけど
00:32:51	新しい訓練パラダイム
00:32:52	この強化学習を採用すれば、AIモデルは、AIスケーリング法則が限界を迎えているんじゃないかみたいな
00:32:59	一種の一部の研究者にあった閉塞感みたいなのを
00:33:03	強化学習に投資すれば、要は成長が返ってくるということが分かったことによって、AIモデルは2025年も賢くなり続けることができるということが一つ、AI研究者たちが今思っている革新的なことで
00:33:20	従来の方法では限界だけど
00:33:22	強化学習なら可能性があると、そうですね
00:33:27	単純にニューラルネットワークをスケールアップするだけでは限界があって
00:33:30	次の改善はこのフィードバックから学習したりとか探索して
00:33:33	実際に求められるゴールに
00:33:34	最適化する能力みたいなのを
00:33:36	モデルに与えることから
00:33:37	この次のAIモデルの成長みたいなのが来ると
00:33:41	具体的にはどんな証拠があるんですか？
00:33:45	強化学習を通じてコーディング能力を劇的に改善したモデルとか
00:33:48	ウェブブラウザの使い方を自己学習できるチャットボットとかがすでに実在していますと
00:33:54	重要なのは強化学習が人間の目標とか価値観と今提供されている
00:34:00	強力なモデルを整合させる方法であるということですね
00:34:04	エージェンティックな動きだったりとか
00:34:06	AIモデルが持つ学習して
00:34:09	新しい探索をして新しい正解を出すみたいな動き自体がもはや強化学習なんじゃないかみたいなことですね
00:34:18	安全性の面でも重要なんですね
00:34:22	そうですね、設計段階から強化学習を行うことには有用で
00:34:26	誠実で安全になるように
00:34:28	モデルを訓練できるっていうのがあるらしくて
00:34:32	OpenAI、Google DeepMindとかAnthropic、XAI、Metaみたいな
00:34:37	全ての主要なAI研究ラボみたいなところが今現在強化学習に大量のリソースを投入しているという理由が
00:34:44	この安全性面でも強化学習が有用だというのは
00:34:47	昔から分かっていることなので
00:34:49	そういうのもあって
00:34:51	大量のリソースが現在ここに割かれているということですね
00:34:55	みんな同じ結論なんですね
00:34:57	そうですね、3つの収束点としては、強化学習は訓練分布を超えて、訓練分布を超えて汎化する推論能力みたいなのを
00:35:07	モデルに植え付けられると
00:35:08	強化学習によってモデルは継続的に適用できる、デプロイ後も強化学習自体は可能と、強化学習は定義された目的を通じてAIの行動を操縦する
00:35:19	最良のツールであるということですね
00:35:21	だからChatGPTとかが今提供しているエージェンティックな動きみたいなのを支えているのは
00:35:27	強化学習っぽい動き
00:35:29	そのものであるということですね
00:35:31	課題もあるんですかね
00:35:33	そうですね、さっき話してた
00:35:35	この大規模な強化学習の実行というのは
00:35:39	報酬設計とか巨大な計算コストとかいろんな技術的課題があって
00:35:44	安全対策もどういう風に安全対策していくかみたいな
00:35:46	どういう風に安全対策をフィードバックしていくかみたいなところも重要なんで
00:35:52	不適切に選択された報酬を
00:35:56	不適切に選択された報酬に
00:35:58	最適化されたAIとかは暴走する可能性がありますよね
00:36:01	っていう
00:36:02	ことですね
00:36:04	でも業界はそれを理解してるんですよね
00:36:07	そうですね、各組織がより安全な強化学習技術と厳格な評価に取り組んでいて
00:36:13	リスクを最小化しながら
00:36:14	強化学習の利益を享受しようとしているという段階ですね
00:36:20	将来の展望はどうですか？
00:36:22	2025年現在、その軌道自体は明確で、強化学習がAI訓練の中心部隊に今立ち始めていますと
00:36:29	AIモデルの能力向上を継続して
00:36:31	汎用知能という長期的なAGIという目標に近づく実行可能な道筋を
00:36:36	新たに提供しているというのが強化学習の可能性というところで
00:36:40	いろんな研究者が示唆しているように
00:36:42	AGIの秘密は静的なスーパーモデルではなくて
00:36:45	継続的に学習し続けるシステム
00:36:48	そのもの、強化学習の仕組み
00:36:50	そのものにこのAGIの仕組みみたいな秘密みたいなのがあるかもしれないというふうに思っている
00:36:56	研究者もいるというところですね
00:36:58	なるほど
00:37:00	だからすっげえ強い
00:37:02	一個のモデルがAGIになるとかじゃなくて
00:37:05	この強化学習も含めた全体のオペレーション
00:37:08	こっちの比重の方が高くなるんじゃねえみたいな、そうですね
00:37:12	人間の学習と同じように止まらない継続的な強化学習プロセス自体がAIのAGIかもしれないし
00:37:20	AIの未来になっていくっていうことですね
00:37:23	なるほど、人間もそうだもんね、生まれて成長してって
00:37:28	どういう学習を、なんかいい小学校、中学校、高校出て、その中でどんな学習をするかで
00:37:36	どんな大学に行けるかが決まってみたいな、そうですね
00:37:40	だからなんかなんていうんですかね
00:37:42	結構まともな結論に至ったというか、なんか
00:37:46	そういう感じ、人間の、やっぱり人間、何だろうね
00:37:52	何か納得感だけありますね
00:37:53	まだちょっとよく分かってないですけど、納得感はありますね
00:37:56	こっちの方が現実的に確かにそうかもなっていう納得感があるかもしれないですね
00:38:01	そうだね、その感じで本日のこの強化学習が次のAIモデルトレーニングのトレンドになってきていて
00:38:10	これがAGIだったりとか
00:38:12	皆さんが求めているAIの能力に貢献していて
00:38:16	もはや強化学習のプロセス
00:38:17	そのものがAGIなのかもしれないとか
00:38:20	そういう話をしてきましたと
00:38:22	重要なポイントとしては従来のスケーリング手法自体は限界に達しつつあると言われていて
00:38:29	データの枯渇の問題とかですね
00:38:31	強化学習が新たな成長エンジンとなっていると
00:38:34	この強化学習によってAIは知識を使って問題を解くっていう能力を獲得して
00:38:39	人間レベルの推論に近づいていますと
00:38:42	主要AI企業すべてが強化学習に大規模に現在投資をしていて
00:38:46	これがAGIへの最有力な道筋となり始めているということですね
00:38:52	なるほど、面白いですね
00:38:56	人間の学習ってすごく似てるんだなって聞きながら思っていて、思ったのが
00:39:03	やっぱり人間も知識を吸収するインプットのフェーズと、得た知識とか
00:39:08	経験をアウトプットして
00:39:10	現実世界からフィードバックを得るフェーズと、なんか二段階あるのかなと思ったんですけど
00:39:15	確かに今までのプレトレーニングの奴って人間で言うと
00:39:19	ひたすら勉強だけ頑張ってる状態みたいな
00:39:22	詰め込み教育じゃないですけど、っていう状態
00:39:25	その強化学習、後工程で得た知識とかを実際に使って問題を解いたりとか
00:39:32	囲碁でバトルしてみたりみたいな
00:39:35	その結果勝ったり負けたりみたいな、人間のフィードバックもあって
00:39:39	これはいいけど
00:39:40	このプレーはいいけど
00:39:41	このプレー微妙だよみたい
00:39:42	なのから、あそうなんだみたいな、なんていうんですかね
00:39:47	OJTって出てきちゃうんですけど
00:39:49	言葉が何だろうな、人間の学習とめちゃめちゃ似てますよね
00:39:54	強化学習の話
00:39:55	そういうのは名前ついてるよね、体験学習じゃないけど
00:40:00	体験型学習、体験型学習って言うんですかね
00:40:06	教室にこもって勉強ばっかやってないで
00:40:08	夏休みボーイスカウトに行って火起こししてみて
00:40:13	物理現象を学ぶ
00:40:15	そうそうそうそう、ああいうの体験学習か、通じるんじゃないですかね
00:40:22	社会見学とか、フィールド企業の社会科見学で水道処理場、下水処理場見学に行って
00:40:31	こんな風に処理してんだとか
00:40:34	そういうなんか、お勉強だけじゃないお勉強というか、なんていうんですかね
00:40:40	火起こしで学ぶとか、ボーイスカウト、すげえしっくりきましたけど
00:40:45	実際の世界に出ていって
00:40:47	何かアクションするというのが、それ考えると
00:40:49	やっぱりOptimusとかね
00:40:51	ロボティクスの発展がまた楽しみですけどね
00:40:55	そうですね、どっちかというと
00:40:57	そっち、例えばあれですよね
00:40:59	自動運転とかは強化学習をメインに学習リソースに使ってきたんだと思うんですよね
00:41:06	昔から、赤信号は渡らないみたいな
00:41:10	そういうのが結構メインになってくるじゃないですか、はいはいはい、だからそっちの技術がLLMにも応用できたっていうことが
00:41:18	このトレンドの一つなんじゃないかな、なるほどね
00:41:21	ロボティクスとか自動運転の分野で使われてきた、同時並行で
00:41:29	今AI進んでるじゃないですか
00:41:31	そこがLLM側が従来スケーリング法則に若干寄ってて
00:41:36	事前学習に若干寄ってたところを、ちょっと成長段階に限界が来たから
00:41:40	取り入れたら
00:41:41	新たなフロンティア出てきたみたいな感じなのかなっていうの、XAIが最初こそ強かった、それに最初の成果を出したっていうのを納得感があるというか
00:41:53	イーロン・マスクはやっぱテスラもやってるんで
00:41:55	テスラでそのノウハウというか感覚があったんですね
00:41:59	そうですよね
00:42:02	だからなんとなく
00:42:03	Optimus出てくると世界モデル強くなるから
00:42:07	イーロンのやっぱりXAI強いんじゃねえかみたいな
00:42:10	もうちょっと細かく抽象度が深い部分が見えた感じがしましたね
00:42:17	ロボティクスで何が強化されるのかって
00:42:19	この強化学習が強くなるんだなっていう
00:42:23	フィジカルなAIが
00:42:25	モデルが身体を手に入れて
00:42:28	現実世界からの、現実世界におけるアクションと
00:42:31	その結果のフィードバックを受け入れるようになるっていうのが車だったりとか
00:42:37	人型のロボだったりとか
00:42:38	ああいうところからどんどんそういうデータが増える、強化学習用のデータが増えて
00:42:44	もっともっと賢くなっていくみたいな感じなんですかね
00:42:47	そうですね、これがLLMに応用されていって
00:42:51	LLMが賢くなるという、僕としては今まではこういう強化学習についてちゃんとなんか情報を探す前までは、インプットすれば
00:43:05	それほどAIは賢くなるのかみたいな
00:43:08	そういうAIスケーリング法則の話を聞いてて
00:43:13	人間も詰め込み教育されたら
00:43:16	人間も推論的な能力が活性化するんじゃないか
00:43:20	一定のインプット量を超えるとみたいな
00:43:22	そういう風に思ってたんですけど
00:43:23	やっぱりやっぱりAIは強化学習されてるからな、今の賢さとかは
00:43:28	強化学習とかが効いてるのかなっていうふうに考えるようになったんで
00:43:33	どの分野には事前学習が結構効いてて
00:43:38	強化学習が具体的にどの、今のChatGPTとかの賢さの
00:43:43	どの辺に効いてるのかっていうのがもうちょい分かるようになったらいいのになっていう感じですかね
00:43:50	だから子供の教育もやっぱり詰め込みだけじゃダメなんだっていう、ダメなんだということですね
00:43:55	そうだね、いろんなことやらせないといけないということですね
00:43:58	だからボーイスカウトやっぱり行かないと
00:43:59	ダメです
00:44:00	ボーイスカウト行かせないと、外出していろんなことやらせないと、失敗したり
00:44:04	失敗が大事だとか言うじゃないですか、やっぱりあれにもなんか通じますよね
00:44:10	確かに、だからマジで人間なんですよね
00:44:12	本当そうだね、うまく失敗するのが
00:44:16	企業とかの文脈でも大事だとか言っているけど
00:44:19	あれも一個の報酬関数ですもんね
00:44:21	一回やってみて
00:44:23	あれも強化学習
00:44:24	でかい強化学習みたいなもんじゃないですか
00:44:26	そうだね
00:44:27	本当に未知の、いろんな新しいことがあると
00:44:31	それがすごく成長に寄与する、強化学習といわれるAIの訓練手法の一つのテクニックっぽい感じがするけど
00:44:41	実際にこのフィードバックモデル、フィードバックによる
00:44:44	その学習モデルっていう感じを感じたんだと、より
00:44:48	広い教育部分の物事が強化学習として言えるというか
00:44:56	人間も強化学習してるなみたいな
00:44:58	これ面白いね
00:44:59	やっぱね、人間の脳の仕組みを模してるから
00:45:02	ニューラルネットっていうのは、そうですね
00:45:04	同じなんですよね、言われてみれば
00:45:07	そうかって思うような発見だったりしますけど
00:45:10	アウトプットはインプットの母みたいな感じで言ってやってるじゃないですか
00:45:17	技術系の勉強するのにも、インプットだけじゃなくてアウトプットして
00:45:21	記事とか書いてさ、技術記事とか書いて
00:45:24	それがどうかとかで
00:45:25	学習の効率が変わるみたいなのあるけど
00:45:29	あれもなんか、こうアウトプットすることで
00:45:32	報酬関数に欠けてるところがあるじゃん、いっぱいいいねもらえたとか、ツイートされたとか
00:45:38	だと報酬関数プラスでフィードバックがあるけど
00:45:42	あんまりバズんなかったらマイナスみたいな
00:45:44	それによってアウトプットの方向を変えたり、内容を変えたりとかってやると思うんですけど
00:45:49	あれもう一個の強化学習かもしれないですね
00:45:52	人間の行動自体が強化学習に基づいている
00:46:03	そんな感じで強化学習によってこのAIの能力がさらに成長エンジンとなって
00:46:10	強化学習が次のAIの成長のフロンティアを開拓しているという
00:46:14	このAIトレーニングのトレンドについて話していきましたと
00:46:18	今回の動画がためになったという方は
00:46:20	高評価、チャンネル登録もお願いしますと
00:46:23	現在チャンネル登録者数880人ということで引き続き
00:46:30	900人に向けてやっておりますので
00:46:32	次の動画も見逃さないためにも
00:46:34	チャンネル登録の方お願いします
00:46:36	ではまた次回お会いしましょう
00:46:38	さよなら、さよなら