Jeff Dean’s Keynote @ WSDM2009

Google FellowのJeff DeanさんがWSDM 2009で発表したキーノートの資料が公開されています。

Googleの中身が相当詳しく書かれています。色々参考になったけれど、70億文書っていう数字(70M x 100)が少し気になった。意外と少ないなと。

約70億文書という事は、検索するだけならSSD100台ぐらいあれば良い。8個SATAのポート有るマザボ使えば、Google規模の検索を大体12台ぐらいで実現できる。価格にすると1000万かからない。半年後には半額。

Sedue SSDを使えばキャッシュなし通常クエリで約100q/秒で、キャッシュ工夫すれば少なく見積もっても10倍は行く。1000qp/秒。これで25億クエリ/月。

Google100億クエリ/月らしいので、代替50台ぐらい? あればまあ検索裁ける。キャッシュ頑張ればもっと減ると思う。まあクローリング・フィルタリング(どの70億ページを選ぶ?)・即時インデクシング・ランキング、そして一番重要なユーザー様を集める所はもちろん考えないといけない訳ですが。

精度は置いといて規模のマネっこは簡単そうなので、JH大航海の50億をちょっと分けて欲しい感じですねw

皮算用 & 釣り記事でした。