コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2019年12月11日号より
■「決定木とは何か」復習
前回のコラムではクロス集計の正しい方法と決定木分析という手法を紹介しました。クロス集計では全体に対する貢献度インパクトを重視する。それは平均的なCVRの場合と比較してどれだけコンバージョンを上乗せしたか、その上乗せ分をインパクトとして考える。
決定木分析はそれを多変量に対して総当たりで同時に行い、最もインパクトのある変数と閾値(分割のルール)を提案する。一度分けたら次に分けられた対象をさらに分割していく。それを繰り返して濃い(コンバージョンしやすい)セグメントと薄いセグメントを分けていく手法です。
■決定木の分岐を決める指標
決定木の分岐のルール、どのように分割させたら最もインパクトの大きな分割になるのかはどのように導出されるのでしょうか。アルゴリズムは複数あるのですが、いずれも先の「インパクト」の大きさを表す指標が使われます。
この指標には大きく2種類あり、Gini係数というものとエントロピーという指標です。Gini係数とはGoogleで検索してみるとわかりますが「不平等さ」を測る指標と言われているものです。エントロピーは情報量の指標と言われています。なおGini係数を使った決定木のアルゴリズムをCARTといい、エントロピーを使ったアルゴリズムがID3、C4.5、C5.0です(前から順に進化)。
面白いのは「不平等さ」と「情報量」が同じ意味で使われるところです。「情報量」はわかりやすく言うと意味の大きさですかね。確かに全員が平均であればそこに情報はないですよね。特定のページを見た人がコンバージョンしやすいなど、平均とのかい離が発生するからそれが情報になるわけです。かい離の度合いが大きいほど情報量が大きい、より大きな意味を見いだせるということなのです。
実はクロス集計の例で紹介したインパクトの計算式はGini係数そのものです。エントロピーは計算式は異なるのですが、同じような意味の指標です(Gini係数を使った決定木では計算に時間がかかるが、エントロピーを使った手法は計算が高速なので便利)
■決定木分析のメリット
決定木は数多くの手法の中で最もアウトプットが便利で、覚えておくと便利な手法です。ある変数(「CVするかどうか」など)に対してどんな変数が大きく貢献しているのかを自動で割り出す、つまり意味のある変数を割り出してくれる手法です。アウトプットが分割のルールになるため、そのアウトプットをクロス集計表に落とし込めば誰にでも理解できるものになります。予測ではなく理解・知見を得ることが目的(つまり分析)の場合、最も使いやすい手法です。
機械学習の代表的な手法であるランダムフォレストやXGBoostなどの勾配ブースティング木というのは決定木の応用です。そのような意味でも決定木は大変重要な手法なのです。なおランダムフォレストやXGBoostと決定木分析そのものとの違いは、前者では対象(コンバージョンするかどうか)を予測するために決定木を大量に生成する。それによって高精度な予測を実現できるようにした手法です。目的が予測の場合にはランダムフォレストやXGBoostを使い、目的が分析の場合は決定木を使うということになります。
データマイニングや機械学習の手法で何か一つだけ覚えるのだとしたら、私は決定木をお勧めします。実際に使ってみたいということであれば以下にまとめているので実践してみてください。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2024/12/10(火)
オンラインセミナー「【GA4導入・活用術】事業会社と自社サービス担当者が語る!」|2024/12/10(火)
GA4を導入したいけれど、チーム内の理解を得られずに進められない、または導入はしたものの活用しきれていない――そんなお悩みはありませんか? …
2024/11/13(水)
オンラインセミナー「参加無料!超初心者向け!GA4にログインはできた。その次に何をすればいいかわからない人のためのセミナー。サイト改善の知恵袋付きです。」|2024/11/13(水)
GA4にログインしても何が何だかさっぱりわからないことは多いですよね。でも、Webサイトのことは知りたいし、できれば改善点も知りたい…。そん …
2024/10/30(水)
オンラインセミナー「コンテンツのKPIと評価~GA4を使った効果分析~」|2024/10/30(水)
オウンドメディアを運営し、コンテンツマーケティングに取り組む企業が増えていますが、「どのように評価すればよいかわからない」「コンバージョンが …
みなさんこんにちは。渋谷にある大学、日本経済大学で教員をしております、金谷武明と申します。以前はGoogleという会社でYouTubeで検索 …
衆議院選挙が終わりました。選挙のたびに開票の時刻と同時に当選確実が出る「出口調査」の予測が話題になります。 今回、開票と同時に出した主要メデ …
【コラム】最終的に固有名詞で指名検索されるにはどのようなコンテンツマーケティングに取り組むべきか、と考える
株式会社真摯 いちしま 泰樹生成AIの急速な展開にやや戸惑い気味です。普段の業務や調べ物に生成AIを利用する機会が増えましたが、コンテンツ制作やアウトプットの課程が変わ …