summary:
その発展は,ルールベース推論から統計的推論を基盤とした生成モデル[Transformer LLM],CoT・ToTによる推論の強化,そして,自己反映・因果推論の統合という流れを辿った.
LLMが登場する以前,AIの推論モデルはルールベース[Expert Systems]や確率モデル[ベイジアンネットワーク]を中心としていた.しかし,これらは事前に設計されたルールに基づくため,汎用性や適応力に欠けるという課題があった.この時代には,記号論理に基づく推論システム[PROLOG,LISP]やファジィ論理,ニューラルネットワークの初期モデルも開発されたが,柔軟な自然言語理解や常識的推論の実現には至らなかった.
2017年,Vaswani et al. によって発表されたTransformerアーキテクチャ["Attention is All You Need"]が,LLMの基盤を築いた.この時点では,LLMは大規模なコーパスを学習し,統計的パターンに基づく「推論」に相当する処理を行うものの,明示的な論理推論や因果推論はできなかった.2018年のBERT,2019年のGPT-2,2020年のGPT-3など,言語モデルの大規模化により,暗黙的に推論能力が向上するものの,複雑な推論タスクでは一貫性に欠けるという問題が残った.
2022年,Googleの研究者らによってChain of Thought[思考の連鎖]が提案された.従来のLLMでは1回の入力に対して直接出力を生成するだけだったが,CoTにより,ステップバイステップで推論を展開することで複雑な問題に対応できるようになった.この手法により,数学問題や論理的推論の精度が向上した.特にWei et al.のChain-of-Thought Prompting Elicits Reasoning in Large Language Models 論文が大きな影響を与え,後にZero-shot CoTやSelf-consistencyなど,CoTを拡張する手法も開発された.
2023年にはTree of Thoughts[思考の木]が提案され,探索的な推論が可能になった.ToTでは,複数の思考パスを並列的に探索し,最適な解を選択できるようになった.また,自己反映[Self-Reflection]という手法も登場し,LLMが自らの出力を見直し,推論の誤りを修正することが可能になった.この時期には,AnthropicのConstitutional AIやGoogleのBardなど,自己批判や自己修正機能を組み込んだモデルが登場し,推論の質が向上した.さらに,ReAct[Reasoning + Acting]のような,推論と行動を組み合わせたアプローチも開発された.
テキストに加えて画像・音声・動画を統合し,マルチモーダル推論を行う研究が進められた.GPT-4V,Gemini,Claude 3など,視覚的入力を理解し推論できるモデルが登場した.また,単なる統計的相関ではなく,因果関係に基づく推論[Causal Reasoning]を可能にする技術が開発されつつある.さらに,Reasoning via Planning[RAP]やLeast-to-Most Promptingなど,複雑な問題を分解して解決する手法も提案されている.
2024年に入ると,推論能力に特化したReasoning Modelsが登場し始めた.特に数学的推論や論理的推論においてLLMの精度を向上させる手法として,拡張推論時間[Extended Reasoning Time]や思考検証[Thought Verification]などの技術が実装された.また,LLMと外部ツール[コードインタプリタ,知識検索エンジン,専門計算ツール]を連携させるツール使用型推論[Tool-augmented Reasoning]」が実用化され,事実に基づいた正確な推論を可能なものとしていった.さらに,脳の認知プロセスにヒントを得た神経記号アーキテクチャ[Neuro-symbolic Architecture]や,メタ認知能力[Metacognition]の実装によって,より人間に近い推論能力の獲得が目指された.
Mathematics is the language with which God has written the universe.