教師あり学習・教師なし学習 概要
教師なし学習
消費インテリジェンスの観点から言うと教師なし学習のほうが大事
クラスタリング
イメージ
新宿や渋谷、早稲田など駅のクラスタリング
使われ方
顧客購買履歴データを用いた、顧客セグメンテーション
マーケティングへの応用、広告配信
顧客のセグメンテーション
・やりくり上手層
・価格志向層
・贅沢ブランド層
・伝統保守層
とか
たとえばfbの日本人の音楽のlikeとかを分析すると、17のセグメンテーションが可能らしい
設計時の論点
各データをどのようにベクトルとして表現するか
教師あり学習
多クラス分類
多次元空間にデータを配置
境界平面を引く
未知データを投入=>自動判定
分類の数だけベクトルがある
アルゴリズムの工夫のほとんどは計算量をおさえるための工夫
どのようにデータを表現するか?:テキストデータ
形態素分析
・形態素にわける
・辞書
・Chasen, Mecab
どのようにわけるか?
選択するアルゴリズムにより分類、回帰制度が異なる
機械学習器構築において、チューニングする箇所は多く存在
まずは手を動かし、自ら組んでみることが大事
始め方の案
1 すべてスクラッチでプログラミング
2 機械学習ライブラリ scikit-learnなどを使いプログラミング
3 統計解析ソフトウェアをつかう
機械学習における7つの基本動作になれることが大事
1.データの入手
2. データ前処理
3. 手法の選択
4. パラメータの選択
5. モデルの学習
6. モデルの評価
7. チューニング 3から6を繰り返す