Hadoop

summary:

Hadoopは,大量のデータを分散環境で効率的に処理するためのオープンソースソフトウェアフレームワーク.分散ストレージであるHDFS[Hadoop Distributed File System],リソース管理を担うYARN[Yet Another Resource Negotiator],並列処理を担うMapReduceといった主要コンポーネントからなる.

Hadoopの特性として,スケーラビリティ,耐障害性,コスト効率,柔軟性を備えていることが挙げられる.Spark,Hive,HBaseなどのエコシステムと組み合わせて使用されることが多く,単なるバッチ処理だけでなく,リアルタイム分析やSQL型クエリなど多様なデータ処理ニーズに対応している.

その起源は,Googleが発表したMapReduceという並列分散処理モデルとGoogle File System[GFS]にある.この2つの技術は,大量のデータを分散環境で効率的に処理するための基盤技術として注目され,オープンソースによる実装が求められるようになる.2004年頃からウェブ検索エンジンを開発するためのApache Nutchプロジェクトの一環として,ダグ・カッティング[Doug Cutting]とマイク・カファレラ[Mike Cafarella]によってオープンソース版のGFSとMapReduceの開発が開始される.2006年,ダグ・カッティングがYahoo!に移籍.Nutchの分散処理部分を独立させて新たなプロジェクトとして発展させたのがHadoopである.Hadoopという名前は,ダグ・カッティングの息子の黄色いおもちゃの象の名前に由来している.同年,HadoopはApache Software Foundationのプロジェクトとして正式に採用されオープンソースとして公開された.さらに,Yahoo!はHadoopの開発を積極的に進め,2008年にはHadoopクラスタを利用してウェブインデックスの処理に成功.こレニより,大規模データ処理の実用性を証明した.2008年6月にはHadoopを使った1PB規模のデータ処理を行い,Hadoopが一躍注目される契機となった.

2010年には,分散データベースであるHBase,データフロー処理言語であるPig,SQLライクなデータクエリシステムであるHive等の関連プロジェクトが次々と登場する.これを受けて,Cloudera,Hortonworks,MapRといった企業がHadoopを基盤としたビッグデータソリューションを提供するようになる.

2012年にはHadoop 2.0がリリース.新たにYARN[Yet Another Resource Negotiator]が導入された.YARNにより,HadoopはMapReduceのみならず,各種のの分散処理エンジンを実行できる汎用プラットフォームへと進化した.

参照

S. Ghemawat, H. Gobioff, and S.-T. Leung, “The Google file system,” in Proceedings of the 19th ACM Symposium on Operating Systems Principles, 2003, pp. 29–43.
J. Dean and S. Ghemawat, “MapReduce: Simplified data processing on large clusters,” in Proceedings of the 6th Symposium on Operating System Design and Implementation（OSDI）, 2004, pp. 137–150.

Mathematics is the language with which God has written the universe.

チェーンレプリケーション SPARC smallpond トークン SODAフレームワーク SDSコントローラ