【メルマガコラム】機械学習にも目標は大事

メールマガジン2015年6月24日号より　a2i代表大内範行

今回は機械学習について書いてみたいと思います。先日出版した「新しいアナリティクスの教科書」では、少しだけ触れましたが、ここ最近興味を持って考えているテーマです。とはいえ、私の経験と知識は限られていますので、細かな点での齟齬はご容赦ください。
機械学習やAIは、ホットなテーマになっています。実用化のスピードが増し、今後数年で、その適用範囲は広がっていくでしょう。以下のエリアが特に期待できると考えられます。
・レコメンデーションなどサイト内の最適化
・広告予算やターゲットの自動化（アトリビューションや配信リスト作成）
・異常値の告知や原因分析
・改善ポイントのアドバイス
・アクセス数やコンバージョン、売上などの予測

機械学習といっても、それがうまく機能するためには、いくつか押さえておくべきポイントがあると思います。
– 何に活用するかアクションが明確である
– 成果判断の目標値が明確である
– 評価指標のデータが十分に整備されている

特に重要なのは、機械学習の成果を何で評価するか？その目標値の設定です。
たとえば、先日もアマゾンが、商品レビューの並び順など表示の最適化を機械学習をもとに行う、という話がニュースになっていました。
その小さなニュースから私が考えたのは、その場合の「ユーザーにとってよいレビュー」は何を目標データに決めるのか、という点です。それは、閲覧データなのか、「いいね」などクリックのデータなのか？　売上げデータなのか？　売上げデータだとして、それは商品ごとの売上指標なのか、それともレビューを見たユーザーごとの売上なのか？　という点です。

ユーザーの心理から読み解いてみましょう。
「レビューのおかげで無駄な買い物をしなくてすんだ。アマゾンはネガティブなレビューもちゃんと掲載してくれるので信頼できる」
無駄な買い物を避けるため、点数の低いレビューから確認する行動のユーザーもいるでしょう。果たして、こういったユーザー心理をうまく反映できるでしょうか？単純に商品ごとの売上を目標においてしまった場合、ネガティブなレビューがより見えにくくなるように働くことも考えられます。

次に、この機械学習にどんな判断指標を食べさせるのだろうか、という点です。
本当に買った人だけのレビューを判断できるのか？　いたずらやステマのレビューを除外できるのか？レビューの「文字数」という要素を加味するのか？（詳しいレビューは役立つ）レビューの中のキーワードのあるなしを加味するのか？（「コスパ」あるいは、ファッションで「サイズ」という言葉など）
これらのデータの選び方によって、結果は変わってくるでしょう。

もちろん、アマゾンは一つの例です。私の考えるようなレベルで、アマゾンが間違いを犯すと言いたいわけではなく、機械学習を導入して活用するためには、皆さんの立場でそういった判断を事前にする必要がある、ということです。（たとえば除外データを機械学習が自分で判断することもありますが、何も決めなくてよい、という機械学習は、まだないと思います）

機械学習の難しい点は、結果が出ても、その理由がブラックボックスで、誰も原因を説明できない、そして、結果を保証できないという点です。過去にデータがない、あるいは不完全なデータによって、不本意な結果も出るでしょう。人間にとって7割8割の満足度の結果であっても、学習の改善を続ける、という姿勢が必要です。

日本のバズワードに対する過去の対応を振り返った時、利用する側の準備が不十分にもかかわらず、結果に完璧を求めて、「使えない」というレッテルを貼ってしまう恐れがあります。また、学習の期間を待てずに、カスタマイズを過度に要求し、人間が細かなルールを設定して、機械学習の意味がなくなる、といった事態も予想されます。
機械学習の活用で、日本が遅れを取らないためには、利用する側の姿勢が何よりも求められると思います。

参考記事 :
「Amazonが機械学習を導入しレビューの表示順番や星の数の信頼性を向上させる試み」

★メールマガジンのバックナンバーはこちら

一つ前のページに戻る

【メルマガコラム】機械学習にも目標は大事

セミナー・イベント予定

コラムバックナンバー