AIBrix

summary:

AIBrixは,高密度なLoRA管理[Low-Rank Adaptation],効率的なルーティング,オートスケーリング,分散推論などの機能を備えた,Kubernetes上でスケーラブルな大規模言語モデル[LLM]の推論インフラストラクチャを構築するための基盤である.

また,分散型KVキャッシュ機能異種混在GPU環境における最適化により,コスト効率の高いLLM推論環境を実現できる.

AIBrixは,ByteDanceによって開発されたオープンソースプロジェクトである.2025年2月19日にバージョン0.2.0が公開された.

AIBrixは,コントロール・プレーンデータ・プレーンの2つのコンポーネントからなる.コントロール・プレーンは,モデル・メタデータの登録,自動スケーリング,モデル・アダプタの登録を管理し,各種ののポリシーの適用を行う.一方,データ・プレーンは,推論リクエストのディスパッチ,スケジュール設定,および処理のための構成可能なコンポーネントを提供し,柔軟で高性能なモデル実行を可能にするものである.具体的には,データ・プレーンリクエスト・ルーター分散KVキャッシュランタイムから構成される.

関連するプロジェクトとして,vLLMをクラスタ全体でシームレスに動作させることを目的として,LMCacheチームとvLLMチームによって共同開発されたリファレンス実装であるvLLM Production Stackがある.

参照

  1. Welcome to AIBrix
  2. AIBrix

Mathematics is the language with which God has written the universe.





















Paxos SIMH Helm ファイルシステム X.500 ディレクトリサービス