コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2019年12月11日号より
■「決定木とは何か」復習
前回のコラムではクロス集計の正しい方法と決定木分析という手法を紹介しました。クロス集計では全体に対する貢献度インパクトを重視する。それは平均的なCVRの場合と比較してどれだけコンバージョンを上乗せしたか、その上乗せ分をインパクトとして考える。
決定木分析はそれを多変量に対して総当たりで同時に行い、最もインパクトのある変数と閾値(分割のルール)を提案する。一度分けたら次に分けられた対象をさらに分割していく。それを繰り返して濃い(コンバージョンしやすい)セグメントと薄いセグメントを分けていく手法です。
■決定木の分岐を決める指標
決定木の分岐のルール、どのように分割させたら最もインパクトの大きな分割になるのかはどのように導出されるのでしょうか。アルゴリズムは複数あるのですが、いずれも先の「インパクト」の大きさを表す指標が使われます。
この指標には大きく2種類あり、Gini係数というものとエントロピーという指標です。Gini係数とはGoogleで検索してみるとわかりますが「不平等さ」を測る指標と言われているものです。エントロピーは情報量の指標と言われています。なおGini係数を使った決定木のアルゴリズムをCARTといい、エントロピーを使ったアルゴリズムがID3、C4.5、C5.0です(前から順に進化)。
面白いのは「不平等さ」と「情報量」が同じ意味で使われるところです。「情報量」はわかりやすく言うと意味の大きさですかね。確かに全員が平均であればそこに情報はないですよね。特定のページを見た人がコンバージョンしやすいなど、平均とのかい離が発生するからそれが情報になるわけです。かい離の度合いが大きいほど情報量が大きい、より大きな意味を見いだせるということなのです。
実はクロス集計の例で紹介したインパクトの計算式はGini係数そのものです。エントロピーは計算式は異なるのですが、同じような意味の指標です(Gini係数を使った決定木では計算に時間がかかるが、エントロピーを使った手法は計算が高速なので便利)
■決定木分析のメリット
決定木は数多くの手法の中で最もアウトプットが便利で、覚えておくと便利な手法です。ある変数(「CVするかどうか」など)に対してどんな変数が大きく貢献しているのかを自動で割り出す、つまり意味のある変数を割り出してくれる手法です。アウトプットが分割のルールになるため、そのアウトプットをクロス集計表に落とし込めば誰にでも理解できるものになります。予測ではなく理解・知見を得ることが目的(つまり分析)の場合、最も使いやすい手法です。
機械学習の代表的な手法であるランダムフォレストやXGBoostなどの勾配ブースティング木というのは決定木の応用です。そのような意味でも決定木は大変重要な手法なのです。なおランダムフォレストやXGBoostと決定木分析そのものとの違いは、前者では対象(コンバージョンするかどうか)を予測するために決定木を大量に生成する。それによって高精度な予測を実現できるようにした手法です。目的が予測の場合にはランダムフォレストやXGBoostを使い、目的が分析の場合は決定木を使うということになります。
データマイニングや機械学習の手法で何か一つだけ覚えるのだとしたら、私は決定木をお勧めします。実際に使ってみたいということであれば以下にまとめているので実践してみてください。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2024/04/11(木)
オンラインセミナー「GA4レベルアップ!「探索」徹底解説と「BigQuery」活用法」|2024/4/11(木)
本ウェビナーは「GA4には少し慣れてきたが、まだまだ活用できていない」「探索を使いこなしたり、BigQueryとの連携活用にもチャレンジして …
2024/03/14(木)
オンラインセミナー「なぜ私たちは自ら生み出したKPIに追われるのか?」|2024/3/14(木)
本ウェビナーでは、マーケター、データ分析者、事業の意思決定者ら、専門家にとって有益な場となるよう、名著「測りすぎ――なぜパフォーマンス評価は …
2024/02/21(水)
オンラインセミナー「生成AI時代到来 今後のSEOのポイントを考える」|2024/2/21(水)
2023年は生成AI・SGE(Google Search Generative Experience)・Bardの登場、Bingの躍進など、 …
今回のテーマは、「【コラム】ポストCookie時代、AI時代? その前に、2024年は顧客理解の再定義を」の続きです。顧客理解を深めることで …
【コラム】わからないなか、わからないなりに、わかるものをつくろうとする構想力について
アユダンテ株式会社 寳 洋平ヘルプをちゃんと読むこと このコラムを読んでいる方は、デジタルマーケティングに深く携わっている人が多いと想像する。そんなあなたなら、先輩から …
【コラム】GA4を超えて:個票分析のための理想のツールについて考える
アナリティクスアソシエーション 大内 範行前回書いた年初のコラム「顧客行動の再定義」の続きです。 【コラム】ポストCookie時代、AI時代? その前に、2024年は顧客理解の再定義 …