機械学習の実践的な利用に適したMahout(マハウト)の解説書
まず、「Hadoop」とはApacheソフトウェア財団が開発した、大規模データの分散処理を行うのに適したオープンソースのミドルウェアです。Hadoop上では、ペタバイト(約1125兆バイト)のデータを処理することができます。1台のマシンではとても処理できないようなスケールのデータの分散処理を行うためのものです。
Mahoutとは、そのHadoop上で利用できる、オープンソースの機械学習ライブラリです。Mahoutには、レコメンデーションエンジン(協調フィルタリング)、クラスタリング、分類が主に実装されています。
レコメンデーションエンジンとは、たとえばAmazonで、過去の検索結果にもとづいて「おすすめ」をピックアップする技法。
クラスタリングは多数のデータを、何らかの共通点でクラスタ、つまりグループに分類する方法です。
分類は、ある物事が何らかのカテゴリに属するかを決定します。
こうした作業を行えるようにするライブラリが、Mahoutです。本書では、上記のレコメンデーション、クラスタリング、分類の3つについて、インストールされたMahoutの機能を使う方法を実践的に解説していきます。
原題 |
Mahout in Action |
著者 |
Sean Owen |
|
Robin Anil |
|
Ted Dunning、Ellen Friedman |
翻訳者 |
伊東 直子、真鍋 加奈子他 |
定価 |
¥ 4,400 |
発行形態 |
単行本(ソフトカバー) |
発行日 |
2012-10-26 |
発行所 |
オライリー・ジャパン |
発行元 |
オーム社 |
判型 |
23×18 |
ページ数 |
448 ページ |
ISBNコード(13桁) |
9784873115849 |