コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2019年12月11日号より
■「決定木とは何か」復習
前回のコラムではクロス集計の正しい方法と決定木分析という手法を紹介しました。クロス集計では全体に対する貢献度インパクトを重視する。それは平均的なCVRの場合と比較してどれだけコンバージョンを上乗せしたか、その上乗せ分をインパクトとして考える。
決定木分析はそれを多変量に対して総当たりで同時に行い、最もインパクトのある変数と閾値(分割のルール)を提案する。一度分けたら次に分けられた対象をさらに分割していく。それを繰り返して濃い(コンバージョンしやすい)セグメントと薄いセグメントを分けていく手法です。
■決定木の分岐を決める指標
決定木の分岐のルール、どのように分割させたら最もインパクトの大きな分割になるのかはどのように導出されるのでしょうか。アルゴリズムは複数あるのですが、いずれも先の「インパクト」の大きさを表す指標が使われます。
この指標には大きく2種類あり、Gini係数というものとエントロピーという指標です。Gini係数とはGoogleで検索してみるとわかりますが「不平等さ」を測る指標と言われているものです。エントロピーは情報量の指標と言われています。なおGini係数を使った決定木のアルゴリズムをCARTといい、エントロピーを使ったアルゴリズムがID3、C4.5、C5.0です(前から順に進化)。
面白いのは「不平等さ」と「情報量」が同じ意味で使われるところです。「情報量」はわかりやすく言うと意味の大きさですかね。確かに全員が平均であればそこに情報はないですよね。特定のページを見た人がコンバージョンしやすいなど、平均とのかい離が発生するからそれが情報になるわけです。かい離の度合いが大きいほど情報量が大きい、より大きな意味を見いだせるということなのです。
実はクロス集計の例で紹介したインパクトの計算式はGini係数そのものです。エントロピーは計算式は異なるのですが、同じような意味の指標です(Gini係数を使った決定木では計算に時間がかかるが、エントロピーを使った手法は計算が高速なので便利)
■決定木分析のメリット
決定木は数多くの手法の中で最もアウトプットが便利で、覚えておくと便利な手法です。ある変数(「CVするかどうか」など)に対してどんな変数が大きく貢献しているのかを自動で割り出す、つまり意味のある変数を割り出してくれる手法です。アウトプットが分割のルールになるため、そのアウトプットをクロス集計表に落とし込めば誰にでも理解できるものになります。予測ではなく理解・知見を得ることが目的(つまり分析)の場合、最も使いやすい手法です。
機械学習の代表的な手法であるランダムフォレストやXGBoostなどの勾配ブースティング木というのは決定木の応用です。そのような意味でも決定木は大変重要な手法なのです。なおランダムフォレストやXGBoostと決定木分析そのものとの違いは、前者では対象(コンバージョンするかどうか)を予測するために決定木を大量に生成する。それによって高精度な予測を実現できるようにした手法です。目的が予測の場合にはランダムフォレストやXGBoostを使い、目的が分析の場合は決定木を使うということになります。
データマイニングや機械学習の手法で何か一つだけ覚えるのだとしたら、私は決定木をお勧めします。実際に使ってみたいということであれば以下にまとめているので実践してみてください。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2024/07/24(水)
オンラインセミナー「GTMでSPAの計測を行うために必要な基礎知識 ~よくある問題と解決策~」|2024/7/24(水)
Webサイトで提供する機能の高度化に伴い、Webサーバの処理軽減や高速化を目的として、JavaScriptフレームワークを利用したSPA ( …
2024/07/10(水)
オンラインセミナー「GA4エキスパートのイチオシ分析手法解説 ~ 柳井さん直伝 AIと広告連携 ~」|2024/7/10(水)
今回のGA4イチオシ分析手法では、実際の企業事例を取り上げます。 最初の問い合わせがオンラインで発生し、最後の成約はオフラインになるケースで …
2024/06/26(水)
オンラインセミナー「【スタートアップと地方企業のCRM活用事例】測りすぎ?測れてない?どっちでもいいからデータを使って売上アップを!」|2024/6/26(水)
■□ お知らせ □■ 一般の方も無料となりました 当セミナーは、当初一般の方は有料でしたが、無料でご参加いただけることとなりました。 データ …
ある日、運営堂の森野さんから下記のメールが届きました。 「a2iでコラムをお願いできないでしょうか? という連絡です。代表の大内さんからの依 …
少し前、a2iの「ひとこと茸」で、デジタルマーケティングのダッシュボードについて取り上げました。続いて書かれた渋谷さんのコラムも併せて、じっ …
株式会社ナンバーの渋谷と申します。アナリティクスアソシエーションの運営を担当しており、今回のメルマガを担当いたします。 先日a2iのミニコン …