コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2019年2月13日号より
昨今AIがもてはやされる中、AIはブラックボックスなのが難点だといわれることがよくあります。
一般に統計的手法である回帰分析はメカニズムが人間にも理解しやすく、アウトプットとなる回帰係数やその信頼区間は誰が見てもわかるものです。一方で手法としては簡単に扱いにくい、予測精度を高めるのが大変という弱点はあります。機械学習手法、SVMやアンサンブルやニューラルネットワークはブラックボックスでアウトプットの説明が困難なのは事実です。とはいえ回帰分析に比べて使いやすい上に簡単に精度の高い結果が出ることも多く、精度をとるか説明可能性をとるかが悩みのタネになることがあります。
ところが最近このような機械学習モデルを解釈、説明しようとする研究が行われているのです。
1. モデル全体(マクロな視点)における説明変数に対する目的変数の挙動から、変数の重要度や影響の仕方を知る
1.1. Permutation Importance
特定の説明変数の値を入れ替えたときに予測結果の精度がどれだけ変わるのか。それを全ての説明変数について調べて、結果の精度へのインパクトの大きな変数を重要な変数とみなす方法です。
※説明変数とは入力、要因となる変数のことで、目的変数とは予測される変数、説明される変数のこと
1.2. Partial Dependence Plot
重要度の高い変数について、その値を変化させていったときに予測結果がどのように変わるのかに着目します。その変数の影響の仕方を見ていくのです。
2. Shapley Value
モデル全体ではなく個々の予測(ミクロな視点)において各変数がどれだけ影響しているのか。予測結果を要因分解するアプローチです。各変数の影響度は特殊な計算によって求めます。この計算方法はGoogleのデータドリブンアトリビューションでも使われているものです。実際に機械学習手法の結果に納得がいかないとき、不正確な予測が出るときに、なぜそのような予測になるのかを検証するときに使うことがあります。
これらはいずれもモデルそのものに着目するのではなく、モデルから生み出される予測の過程に着目することで、どの変数がどれだけ影響するのかを再現しようとする試みです。説明変数が数多くある中で、どの変数を動かしたら予測結果が変わりやすいのか、どの変数をどの程度動かしたら予測結果が変わるのかに着目するのです。たとえばある要因Aがある(A=YESの)場合とない(A=NOの)場合とでの予測の違いを比較する。その違いが要因Aの大きさですよね。
技術的詳細は以下のリンクをご参考に。
機械学習の判断根拠情報
「SAS Viya: ディープラーニングと機械学習の判断根拠情報」
詳細は英語になりますが
「Machine Learning Explainability」
このページを日本語で説明したもの
「機械学習モデルと予測結果を解釈する: kaggle講座「Use Cases for Model Insights」をやってみる」
学習モデルの解釈におけるShapley Valueの使い方
「Interpreting complex models with SHAP values」
Shapley Valueとデータドリブンアトリビューション(キャンペーン=変数ととらえれば同じことになります)
「Google アドワーズのデータドリブンアトリビューション(DDA)について理解してみる」
機械学習手法でもこういった試みで解釈可能性を上げようという努力は行われているのです。それと同時にこういった手法を使うライブラリもRやPythonで使えるようになっており、誰でも簡単に扱えます。
https://github.com/pbiecek/DALEX
GDPRの要請でデータ処理プロセスの透明化が求められ、AIを使う分野によってはその挙動を説明する義務が発生するようになりました。その影響もあり、世界的にもこのような動きがより盛んになりつつあるのです。そんなことを知っておくと、機械学習はブラックボックスだからと敬遠しなくてもよくなるかもしれません。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2024/07/24(水)
オンラインセミナー「GTMでSPAの計測を行うために必要な基礎知識 ~よくある問題と解決策~」|2024/7/24(水)
Webサイトで提供する機能の高度化に伴い、Webサーバの処理軽減や高速化を目的として、JavaScriptフレームワークを利用したSPA ( …
2024/07/10(水)
オンラインセミナー「GA4エキスパートのイチオシ分析手法解説 ~ 柳井さん直伝 AIと広告連携 ~」|2024/7/10(水)
今回のGA4イチオシ分析手法では、実際の企業事例を取り上げます。 最初の問い合わせがオンラインで発生し、最後の成約はオフラインになるケースで …
2024/06/26(水)
オンラインセミナー「【スタートアップと地方企業のCRM活用事例】測りすぎ?測れてない?どっちでもいいからデータを使って売上アップを!」|2024/6/26(水)
■□ お知らせ □■ 一般の方も無料となりました 当セミナーは、当初一般の方は有料でしたが、無料でご参加いただけることとなりました。 データ …
ある日、運営堂の森野さんから下記のメールが届きました。 「a2iでコラムをお願いできないでしょうか? という連絡です。代表の大内さんからの依 …
少し前、a2iの「ひとこと茸」で、デジタルマーケティングのダッシュボードについて取り上げました。続いて書かれた渋谷さんのコラムも併せて、じっ …
株式会社ナンバーの渋谷と申します。アナリティクスアソシエーションの運営を担当しており、今回のメルマガを担当いたします。 先日a2iのミニコン …