コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2019年2月13日号より
昨今AIがもてはやされる中、AIはブラックボックスなのが難点だといわれることがよくあります。
一般に統計的手法である回帰分析はメカニズムが人間にも理解しやすく、アウトプットとなる回帰係数やその信頼区間は誰が見てもわかるものです。一方で手法としては簡単に扱いにくい、予測精度を高めるのが大変という弱点はあります。機械学習手法、SVMやアンサンブルやニューラルネットワークはブラックボックスでアウトプットの説明が困難なのは事実です。とはいえ回帰分析に比べて使いやすい上に簡単に精度の高い結果が出ることも多く、精度をとるか説明可能性をとるかが悩みのタネになることがあります。
ところが最近このような機械学習モデルを解釈、説明しようとする研究が行われているのです。
1. モデル全体(マクロな視点)における説明変数に対する目的変数の挙動から、変数の重要度や影響の仕方を知る
1.1. Permutation Importance
特定の説明変数の値を入れ替えたときに予測結果の精度がどれだけ変わるのか。それを全ての説明変数について調べて、結果の精度へのインパクトの大きな変数を重要な変数とみなす方法です。
※説明変数とは入力、要因となる変数のことで、目的変数とは予測される変数、説明される変数のこと
1.2. Partial Dependence Plot
重要度の高い変数について、その値を変化させていったときに予測結果がどのように変わるのかに着目します。その変数の影響の仕方を見ていくのです。
2. Shapley Value
モデル全体ではなく個々の予測(ミクロな視点)において各変数がどれだけ影響しているのか。予測結果を要因分解するアプローチです。各変数の影響度は特殊な計算によって求めます。この計算方法はGoogleのデータドリブンアトリビューションでも使われているものです。実際に機械学習手法の結果に納得がいかないとき、不正確な予測が出るときに、なぜそのような予測になるのかを検証するときに使うことがあります。
これらはいずれもモデルそのものに着目するのではなく、モデルから生み出される予測の過程に着目することで、どの変数がどれだけ影響するのかを再現しようとする試みです。説明変数が数多くある中で、どの変数を動かしたら予測結果が変わりやすいのか、どの変数をどの程度動かしたら予測結果が変わるのかに着目するのです。たとえばある要因Aがある(A=YESの)場合とない(A=NOの)場合とでの予測の違いを比較する。その違いが要因Aの大きさですよね。
技術的詳細は以下のリンクをご参考に。
機械学習の判断根拠情報
「SAS Viya: ディープラーニングと機械学習の判断根拠情報」
詳細は英語になりますが
「Machine Learning Explainability」
このページを日本語で説明したもの
「機械学習モデルと予測結果を解釈する: kaggle講座「Use Cases for Model Insights」をやってみる」
学習モデルの解釈におけるShapley Valueの使い方
「Interpreting complex models with SHAP values」
Shapley Valueとデータドリブンアトリビューション(キャンペーン=変数ととらえれば同じことになります)
「Google アドワーズのデータドリブンアトリビューション(DDA)について理解してみる」
機械学習手法でもこういった試みで解釈可能性を上げようという努力は行われているのです。それと同時にこういった手法を使うライブラリもRやPythonで使えるようになっており、誰でも簡単に扱えます。
https://github.com/pbiecek/DALEX
GDPRの要請でデータ処理プロセスの透明化が求められ、AIを使う分野によってはその挙動を説明する義務が発生するようになりました。その影響もあり、世界的にもこのような動きがより盛んになりつつあるのです。そんなことを知っておくと、機械学習はブラックボックスだからと敬遠しなくてもよくなるかもしれません。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2024/12/10(火)
オンラインセミナー「【GA4導入・活用術】事業会社と自社サービス担当者が語る!」|2024/12/10(火)
GA4を導入したいけれど、チーム内の理解を得られずに進められない、または導入はしたものの活用しきれていない――そんなお悩みはありませんか? …
2024/11/13(水)
オンラインセミナー「参加無料!超初心者向け!GA4にログインはできた。その次に何をすればいいかわからない人のためのセミナー。サイト改善の知恵袋付きです。」|2024/11/13(水)
GA4にログインしても何が何だかさっぱりわからないことは多いですよね。でも、Webサイトのことは知りたいし、できれば改善点も知りたい…。そん …
2024/10/30(水)
オンラインセミナー「コンテンツのKPIと評価~GA4を使った効果分析~」|2024/10/30(水)
オウンドメディアを運営し、コンテンツマーケティングに取り組む企業が増えていますが、「どのように評価すればよいかわからない」「コンバージョンが …
みなさんこんにちは。渋谷にある大学、日本経済大学で教員をしております、金谷武明と申します。以前はGoogleという会社でYouTubeで検索 …
衆議院選挙が終わりました。選挙のたびに開票の時刻と同時に当選確実が出る「出口調査」の予測が話題になります。 今回、開票と同時に出した主要メデ …
【コラム】最終的に固有名詞で指名検索されるにはどのようなコンテンツマーケティングに取り組むべきか、と考える
株式会社真摯 いちしま 泰樹生成AIの急速な展開にやや戸惑い気味です。普段の業務や調べ物に生成AIを利用する機会が増えましたが、コンテンツ制作やアウトプットの課程が変わ …