summary:
これらのモデルは,自己教師あり学習や教師なし学習を活用し,大規模なパラメータを持つニューラルネットワークとして構築される.基盤モデルの特徴は,一度の学習によって得られた知識を様々な下流タスクに転用できる点にあり,特定の用途に微調整[ファインチューニング]することで,多様な分野で高い性能を発揮する.
基盤モデルの概念は,2010年代後半における深層学習の進展と,大規模データセットおよび計算資源の発展に伴い確立された.その起源は,2017年に提案されたTransformerアーキテクチャ[Vaswani et al., 2017]に遡る.このアーキテクチャに基づき,Googleが2018年に発表したBERT[Bidirectional Encoder Representations from Transformers]が,事前学習モデルの有用性を示し,自然言語処理[NLP]の分野で広く採用されるようになった.
その後,OpenAIが2019年にGPT-2[Generative Pre-trained Transformer 2]を発表し,基盤モデルのスケールアップが可能であることを示した.さらに2020年には,GPT-3が登場し,1,750億のパラメータを持つ大規模モデルとして注目を集めた.これにより,事前学習された汎用モデルが,ファインチューニングなしでも様々なタスクに適用できる可能性が示された.
2021年には,スタンフォード大学の研究者らがFoundation Modelsという用語を提唱し,大規模事前学習モデルがAI研究の基盤となることを指摘した[Bommasani et al., 2021].以降,基盤モデルの研究は加速し,言語モデル[GPT,PaLM,LLaMAなど]にとどまらず,画像・動画[DALL·E,Stable Diffusion]やマルチモーダルAI[GPT-4V,Gemini]へと応用範囲を広げた.
その後,基盤モデルは,検索,対話型AI,コード生成,医療診断,科学研究など,多岐にわたる分野で活用され,AI技術の発展を支える重要な要素となっていった.
2022年,Meta AI[旧Facebook AI Research]によるLLaMAシリーズの公開や,AnthropicのClaude,GoogleのPaLM 2に基づくBard[後のGemini]など,競争が激化していった.2023年には,OpenAIがマルチモーダル能力を持つGPT-4を発表し,テキストだけでなく画像理解も可能なモデルへと進化した.
また,基盤モデルのオープンソース化も進み,Hugging Faceが主導し約1,000人の研究者が参加したBigScienceが開発したBLOOMやMistral AIのMistralなど,商用利用可能な基盤モデルが増加しいった.さらに,モデルの軽量化技術の進展により,スマートフォンなどのエッジデバイスでも基盤モデルを実行できるようになり,プライバシーを考慮したローカルAIの実現も進展した.
Mathematics is the language with which God has written the universe.