BitNet b1.58

1ビットで推論するLLM.同じモデルサイズとトレーニングトークンの従来の16ビットモデルと比較して,同等かそれ以上の性能を実現するものとしている.

このモデルは,各パラメータが三値 $(-1, 0, 1)$ を取る1.58ビットのLLMである.従来から,BitNetは知られていたが,この論文ではBitNetのパラメータに特徴フィルタリングを可能とする $0$ を導入し性能を向上させている.

なお,各パラメータが三値 $(-1, 0, 1)$ を取る場合,必要な bit数は,\[\log_{2}3=\frac{\log_{10}3}{\log_{10}2}=1.5835...\]となる.


出典:arXiv:2402.17764v1 [cs.CL]

Mathematics is the language with which God has written the universe.





















view関数 要素毎の計算 正弦関数と余弦関数のプロット p値関数 2層のニューラルネット ポワソン損失関数