コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2019年2月13日号より
昨今AIがもてはやされる中、AIはブラックボックスなのが難点だといわれることがよくあります。
一般に統計的手法である回帰分析はメカニズムが人間にも理解しやすく、アウトプットとなる回帰係数やその信頼区間は誰が見てもわかるものです。一方で手法としては簡単に扱いにくい、予測精度を高めるのが大変という弱点はあります。機械学習手法、SVMやアンサンブルやニューラルネットワークはブラックボックスでアウトプットの説明が困難なのは事実です。とはいえ回帰分析に比べて使いやすい上に簡単に精度の高い結果が出ることも多く、精度をとるか説明可能性をとるかが悩みのタネになることがあります。
ところが最近このような機械学習モデルを解釈、説明しようとする研究が行われているのです。
1. モデル全体(マクロな視点)における説明変数に対する目的変数の挙動から、変数の重要度や影響の仕方を知る
1.1. Permutation Importance
特定の説明変数の値を入れ替えたときに予測結果の精度がどれだけ変わるのか。それを全ての説明変数について調べて、結果の精度へのインパクトの大きな変数を重要な変数とみなす方法です。
※説明変数とは入力、要因となる変数のことで、目的変数とは予測される変数、説明される変数のこと
1.2. Partial Dependence Plot
重要度の高い変数について、その値を変化させていったときに予測結果がどのように変わるのかに着目します。その変数の影響の仕方を見ていくのです。
2. Shapley Value
モデル全体ではなく個々の予測(ミクロな視点)において各変数がどれだけ影響しているのか。予測結果を要因分解するアプローチです。各変数の影響度は特殊な計算によって求めます。この計算方法はGoogleのデータドリブンアトリビューションでも使われているものです。実際に機械学習手法の結果に納得がいかないとき、不正確な予測が出るときに、なぜそのような予測になるのかを検証するときに使うことがあります。
これらはいずれもモデルそのものに着目するのではなく、モデルから生み出される予測の過程に着目することで、どの変数がどれだけ影響するのかを再現しようとする試みです。説明変数が数多くある中で、どの変数を動かしたら予測結果が変わりやすいのか、どの変数をどの程度動かしたら予測結果が変わるのかに着目するのです。たとえばある要因Aがある(A=YESの)場合とない(A=NOの)場合とでの予測の違いを比較する。その違いが要因Aの大きさですよね。
技術的詳細は以下のリンクをご参考に。
機械学習の判断根拠情報
「SAS Viya: ディープラーニングと機械学習の判断根拠情報」
詳細は英語になりますが
「Machine Learning Explainability」
このページを日本語で説明したもの
「機械学習モデルと予測結果を解釈する: kaggle講座「Use Cases for Model Insights」をやってみる」
学習モデルの解釈におけるShapley Valueの使い方
「Interpreting complex models with SHAP values」
Shapley Valueとデータドリブンアトリビューション(キャンペーン=変数ととらえれば同じことになります)
「Google アドワーズのデータドリブンアトリビューション(DDA)について理解してみる」
機械学習手法でもこういった試みで解釈可能性を上げようという努力は行われているのです。それと同時にこういった手法を使うライブラリもRやPythonで使えるようになっており、誰でも簡単に扱えます。
https://github.com/pbiecek/DALEX
GDPRの要請でデータ処理プロセスの透明化が求められ、AIを使う分野によってはその挙動を説明する義務が発生するようになりました。その影響もあり、世界的にもこのような動きがより盛んになりつつあるのです。そんなことを知っておくと、機械学習はブラックボックスだからと敬遠しなくてもよくなるかもしれません。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2025/01/30(木)
オンラインセミナー「JADE presents:GA4と「Amethyst」でここまでできるユーザー分析」|2025/1/30(木)
「Googleアナリティクス 4(GA4)は見たいデータをなかなか見られない、使いにくい」という声をよく耳にします。また「ユーザー軸のツール …
2024/12/10(火)
オンラインセミナー「【GA4導入・活用術】事業会社と自社サービス担当者が語る!」|2024/12/10(火)
GA4を導入したいけれど、チーム内の理解を得られずに進められない、または導入はしたものの活用しきれていない――そんなお悩みはありませんか? …
2024/11/13(水)
オンラインセミナー「参加無料!超初心者向け!GA4にログインはできた。その次に何をすればいいかわからない人のためのセミナー。サイト改善の知恵袋付きです。」|2024/11/13(水)
GA4にログインしても何が何だかさっぱりわからないことは多いですよね。でも、Webサイトのことは知りたいし、できれば改善点も知りたい…。そん …
2025年がはじまりました。あけましておめでとうございます。 この2025年は特別な意味をこめてよろしくお願いします。 2025年 a2iは …
【コラム】2025年 デジマの「めんどうくさい」をチャンスに変えられるか?
アナリティクスアソシエーション 大内 範行今年最後のコラムです。9連休をゆっくりお過ごしの方も多いでしょう。気軽に読んでいただければと思います。 2024年の皆さんのお仕事はいかがで …
【コラム】新しい生成AI検索サービス 効率的な答えが見つかることは本当に幸せか?
アナリティクスアソシエーション 大内 範行ChatGPT searchが、一部のユーザーにリリースされています。 私はTeamsプランで契約があるためChromeのデフォルトサーチに …