Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodmanによる2022年3月28日の論文.
この論文は,OpenAIが2024年9月12日に発表した,従来のLLMにおいては不得手だった複雑な学術タスクや推論を得意とするo1の理論的根拠となった論文の一つだとされている.
STaR: Bootstrapping Reasoning With Reasoning
この問題を解決するため,少数の推論を含まない大規模なデータセットを繰り返し活用することによって,連続的に複雑な推論を実行する能力をブートストラップする手法[Self-Taught Reasoner;STaR]を提示.
STaRは,少数の推論例を用いて多数の質問に対して推論を生成し,生成された答えが間違っていた場合は,正しい答えをもとに再度推論を生成しようと試み,最終的に正解に至ったすべての推論を基に微調整を行い,このプロセスを繰り返すというシンプルなループからなる.
STaRは,強化学習[RL]スタイルの方策勾配目的の近似とみなすことができる.
arXiv:2203.14465 [cs.LG]