BPEトークナイザー

summary:

BPEトークナイザー[Byte Pair Encoding tokenizer]とは,テキストをサブワード単位に分割するための方法である.

主に語彙のサイズを縮小し,効率的なトークン化を実現するために使用される.この方法の基本的な考え方は,頻出する文字ペア[バイトペア]を繰り返し統合していくことである.これにより未知語の問題を軽減し,言語モデルの学習と推論において語彙の爆発を防ぐことができる.

BPEトークナイザーは,1994年にフィリップ・ゲイジ[Philip Gage]によって提案されたアルゴリズムに基づいている.BPEのアイデア自体は,データ圧縮の技術として生まれたが,自然言語処理[NLP]においては,サブワード単位でのトークン化に使用されるようになった.

参照

  1. Gage, P.(1994). How to compress text. Proceedings of the IEEE International Symposium on Information Theory. IEEE, 1994, 102-106.
  2. Sennrich, R., Haddow, B., & Birch, A.(2016). Neural machine translation of rare words with subword units. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics(ACL 2016), 1715-1725.

Mathematics is the language with which God has written the universe.





















BPEトークナイザー fork Paxos マスタースレーブ プライマリ・バックアップ チェーンレプリケーション