コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2019年12月11日号より
■「決定木とは何か」復習
前回のコラムではクロス集計の正しい方法と決定木分析という手法を紹介しました。クロス集計では全体に対する貢献度インパクトを重視する。それは平均的なCVRの場合と比較してどれだけコンバージョンを上乗せしたか、その上乗せ分をインパクトとして考える。
決定木分析はそれを多変量に対して総当たりで同時に行い、最もインパクトのある変数と閾値(分割のルール)を提案する。一度分けたら次に分けられた対象をさらに分割していく。それを繰り返して濃い(コンバージョンしやすい)セグメントと薄いセグメントを分けていく手法です。
■決定木の分岐を決める指標
決定木の分岐のルール、どのように分割させたら最もインパクトの大きな分割になるのかはどのように導出されるのでしょうか。アルゴリズムは複数あるのですが、いずれも先の「インパクト」の大きさを表す指標が使われます。
この指標には大きく2種類あり、Gini係数というものとエントロピーという指標です。Gini係数とはGoogleで検索してみるとわかりますが「不平等さ」を測る指標と言われているものです。エントロピーは情報量の指標と言われています。なおGini係数を使った決定木のアルゴリズムをCARTといい、エントロピーを使ったアルゴリズムがID3、C4.5、C5.0です(前から順に進化)。
面白いのは「不平等さ」と「情報量」が同じ意味で使われるところです。「情報量」はわかりやすく言うと意味の大きさですかね。確かに全員が平均であればそこに情報はないですよね。特定のページを見た人がコンバージョンしやすいなど、平均とのかい離が発生するからそれが情報になるわけです。かい離の度合いが大きいほど情報量が大きい、より大きな意味を見いだせるということなのです。
実はクロス集計の例で紹介したインパクトの計算式はGini係数そのものです。エントロピーは計算式は異なるのですが、同じような意味の指標です(Gini係数を使った決定木では計算に時間がかかるが、エントロピーを使った手法は計算が高速なので便利)
■決定木分析のメリット
決定木は数多くの手法の中で最もアウトプットが便利で、覚えておくと便利な手法です。ある変数(「CVするかどうか」など)に対してどんな変数が大きく貢献しているのかを自動で割り出す、つまり意味のある変数を割り出してくれる手法です。アウトプットが分割のルールになるため、そのアウトプットをクロス集計表に落とし込めば誰にでも理解できるものになります。予測ではなく理解・知見を得ることが目的(つまり分析)の場合、最も使いやすい手法です。
機械学習の代表的な手法であるランダムフォレストやXGBoostなどの勾配ブースティング木というのは決定木の応用です。そのような意味でも決定木は大変重要な手法なのです。なおランダムフォレストやXGBoostと決定木分析そのものとの違いは、前者では対象(コンバージョンするかどうか)を予測するために決定木を大量に生成する。それによって高精度な予測を実現できるようにした手法です。目的が予測の場合にはランダムフォレストやXGBoostを使い、目的が分析の場合は決定木を使うということになります。
データマイニングや機械学習の手法で何か一つだけ覚えるのだとしたら、私は決定木をお勧めします。実際に使ってみたいということであれば以下にまとめているので実践してみてください。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2026/05/20(水)
セミナー「事故から学ぶ理想のGoogle タグ マネージャー運用 ― 計測トラブルを防ぐルール設計と運用の現実解」 【a2i DEEP Connection】|2026/5/20(水)
誰も全体を管理していない、複数の支援会社がそれぞれのルールで触っている、気付かないまま計測トラブルが起きている。そんなGoogle タグ マ …
2026/04/22(水)
オンラインセミナー「「AIで分析」と聞いて身構えるみなさんへ。コード不要で進める時短ウェブサイト改善」|2026/4/22(水)
「AIで分析」と聞いて身構えていませんか?まずは30秒で内容をご確認ください 「AIで分析」と聞いた瞬間、急にハードルが跳ね上がる感覚はあり …
2026/03/18(水)
オンラインセミナー「GA4×生成AIで改善提案の精度を高める ― AIから「使える施策」を引き出す実践アプローチ ―」|2026/3/18(水)
GA4によるサイト改善は、生成AIと組み合わせることで新しい段階に入りつつあります。 しかし一方で、「AIに分析させても表面的なコメントしか …
【コラム】AIで支援会社の仕事はどう変わる?──意思決定支援の超伴走型へ
アナリティクスアソシエーション 大内 範行支援会社はお役御免になるのか? 「生成AIがすごすぎて私の仕事がなくなるか不安です」 支援会社やコンサルティングのそんな声を、よく耳にするよ …
【コラム】生成AI時代だからこそ、私はペルソナを大切にしたい
株式会社A-can 白砂 ゆき子「ペルソナなんて、いらないのでは?」 最近、そんな声を聞く機会が増えました。 私がペルソナの要・不要を改めて考えるきっかけとなったのは、最近 …
【コラム】「生成AIで人員を減らせる」は本当?─デジタルマーケティング組織はむしろ強化すべき
アナリティクスアソシエーション 大内 範行デジタルマーケティングやデータ分析の仕事がどう変わるか、というのが私の今年のテーマです。それは事業会社と支援会社の関係の変化につながり、「支 …