BPEトークナイザー
summary:
BPEトークナイザー[Byte Pair Encoding tokenizer]とは,テキストをサブワード単位に分割するための方法である.
主に語彙のサイズを縮小し,効率的なトークン化を実現するために使用される.この方法の基本的な考え方は,頻出する文字ペア[バイトペア]を繰り返し統合していくことである.これにより未知語の問題を軽減し,言語モデルの学習と推論において語彙の爆発を防ぐことができる.
BPEトークナイザーは,1994年にフィリップ・ゲイジ[Philip Gage]によって提案されたアルゴリズムに基づいている.BPEのアイデア自体は,データ圧縮の技術として生まれたが,自然言語処理[NLP]においては,サブワード単位でのトークン化に使用されるようになった.
参照
- Gage, P.(1994). How to compress text. Proceedings of the IEEE International Symposium on Information Theory. IEEE, 1994, 102-106.
- Sennrich, R., Haddow, B., & Birch, A.(2016). Neural machine translation of rare words with subword units. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(ACL 2016), 1715-1725.
Mathematics is the language with which God has written the universe.