シャーディング

summary:

シャーディング[Sharding]とは,大量のデータを水平方向[水平分割]に分割し,複数のデータベースサーバー[ノード]に分散して格納・管理するデータベーススケーリング手法である.水平分割[Horizontal Partitioning]とは,データを行単位で分割し,それぞれを異なるノードに格納することを意味する.例えば,ユーザーテーブルを「ユーザーIDが1-1000のグループ」と「1001-2000のグループ」に分けるような方法である.

$S(k)$ をキー $k$ が割り当てられるシャードのID,$k$ をシャーディングキー[Sharding Key]とすると,シャードを決定する関数であるシャーディング関数は,\[S(k) = \text{shard_id}\]

と定義される.

シャード数を $N$ とすると,範囲ベースシャーディング[Range-based]は,\[S(k) = i \quad \text{if} \quad a_i \leq k < a_{i+1}\]と表される.

ハッシュベースシャーディング[Hash-based]は,\[S(k) = \text{hash}(k) \mod N\]と表される.

地理・属性ベースシャーディング[Geo/Attribute-based]は,\[S(k) = \text{region}(k)\]と表される.

シャードに保存されるデータセットは,$D_i$ をシャード $i$ に格納されるデータ,$D$ を全データ集合,$d.k$ をデータ $d$ のキーとすると,データ格納関数\[D_i = \{ d \in D \mid S(d.k) = i \}\]

として定義できる.

シャーディングの定理

データ一貫性[Consistency]:データは1つのシャードにのみ存在する.\[\forall d \in D, \exists ! i, d \in D_i\]
分割完備性[Partition Completeness]:全データはどこかのシャードに存在する.\[\bigcup_{i=1}^{N} D_i = D\]
シャードの負荷均衡性[Load Balance]:各シャードのデータ量が均等であることが理想である.\[\left| D_i \right| \approx \frac{|D|}{N}\]

シャーディングは,1990年代後半からインターネット企業によって本格的に開発され,2000年代中盤にはGoogleやAmazonなどのテクノロジー企業が大規模データ処理のために本格的に実用化した革新的なアプローチである.

技術的には,各シャードは特定のデータのサブセットを保持し,クエリは最適化されたルーティングメカニズムによって適切なシャードに対して実行される.これにより,データベース全体の処理能力を水平方向に拡張することが可能となり,大量のデータを効率的に管理できるようになる.

歴史的には,シャーディングの概念は1990年代後半のインターネット revolutionと密接に関連している.当初,大規模なWebアプリケーションやクラウドベースのサービスが急速に成長する中で,従来の単一サーバーベースのデータベースシステムでは対応しきれない課題が顕在化した.2000年代初頭,GoogleのBigtableやAmazonのDynamoDBなどの分散データベースシステムが登場し,シャーディング技術の基礎が確立された.

2005年から2010年にかけて,MySQLやPostgreSQLなどの伝統的なリレーショナルデータベースでもシャーディングの実装が進み,同時にCassandraやMongoDB,HBaseなどのNoSQLデータベースが登場し,シャーディング技術は大きく進化した.これらのデータベースシステムは,大規模データ処理における水平スケーリングを可能にし,クラウドコンピューティングの発展に決定的な役割を果たした.

シャーディングは,リレーショナルデータベースとNoSQLデータベースの両方において広く採用され,大規模デジタルプラットフォーム,ソーシャルメディア,電子商取引,金融サービスなど,多様な産業分野で不可欠なデータ管理技術として確立されている.高度な分散処理能力,耐障害性,柔軟なスケーラビリティを提供するこの技術は,現代のデータインフラストラクチャーの根幹を支える重要な要素となっている.

Mathematics is the language with which God has written the universe.

サブワード BPEトークナイザー fork Paxos マスタースレーブプライマリ・バックアップ