summary:
GPUの計算能力[compute bandwidth]をメモリ帯域幅[memory bandwidth]で割ることで計算される.
ops:byte比 := 計算帯域幅[FLOPS] / メモリ帯域幅[バイト/秒]
ops:byte比は,LLM推論がメモリバウンドであるか計算バウンドであるかを判断するために使用される.推論処理において,ops:byte比よりも少ない演算回数しか実行できていない場合,その推論はメモリバウンドであると言える.すなわち,メモリからデータを読み込む速度がボトルネックとなり,GPUの計算能力が十分に活かされていない状態ということになる.1トークンを生成するのにかかる時間は,
時間/トークン = モデルの重みの総バイト数 / アクセラレータのメモリ帯域幅
と表すことが出来る.すなわち,メモリ帯域幅が高いほど,同じ量のデータをより短い時間で転送できるため,トークン生成にかかる時間を短縮し,推論速度を向上させることが可能となる.
逆に,ops:byte比よりも多くの演算回数を必要とする場合,その推論は計算バウンドであると言える.この場合は,GPUの計算ユニットの数が性能の制約となる.
Mathematics is the language with which God has written the universe.