STaR:推論によるブートストラップ推論

Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodmanによる2022年3月28日の論文.

この論文は,OpenAIが2024年9月12日に発表した,従来のLLMにおいては不得手だった複雑な学術タスクや推論を得意とするo1の理論的根拠となった論文の一つだとされている.

STaR: Bootstrapping Reasoning With Reasoning

段階的な連鎖的思考[chain-of-thought]の根拠を生成すると,数学や常識的な質問への回答などの複雑な推論タスクにおける言語モデルのパフォーマンスが向上する.しかし,そのためには,大規模な推論データセットを構築するか,少数の推論に頼ることで精度を犠牲にする必要がある.

この問題を解決するため,少数の推論を含まない大規模なデータセットを繰り返し活用することによって,連続的に複雑な推論を実行する能力をブートストラップする手法[Self-Taught Reasoner;STaR]を提示.

STaRは,少数の推論例を用いて多数の質問に対して推論を生成し,生成された答えが間違っていた場合は,正しい答えをもとに再度推論を生成しようと試み,最終的に正解に至ったすべての推論を基に微調整を行い,このプロセスを繰り返すというシンプルなループからなる.

STaRは,強化学習[RL]スタイルの方策勾配目的の近似とみなすことができる.

arXiv:2203.14465 [cs.LG]


INDEX