コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2019年3月13日号より
データを扱う仕事の中で、データに基づいて将来の数値を予測することはよくあります。その際過去のデータに基づいて予測を行うわけですが、過去データの扱い方で気を付けなければならないことを紹介します。
1. データに不備がある
データの誤りは気づきやすいのですが、意外と盲点になるのがデータが一部欠損している(行が欠損している)ケースです。
人間が入力しているデータで、気まぐれで入力されていないケースもありますし、入力しないインセンティブ(不利な結果を入力すると担当者の評価が下がるなど)がはたらいているケースもあります。
またわれわれ分析者は分析用データの抽出を依頼することもあるわけですが、データ抽出条件の誤りにより特定の条件に当てはまるデータだけが抜け落ちるなどのケースもあります。
欠損がランダムに発生する場合は悪影響は小さいのですが、このような場合は欠損の発生に偏り(特定の条件でデータが欠損する)があるため、その後の分析に悪影響を及ぼします。
2. 前提条件が変わる
過去どのくらいの期間のデータに基づいて予測をすればいいのでしょうか。
これをよく感じるのは競馬です。過去のデータから勝ち馬を予想する人は多いものです。昔からのデータから示すとおり長期休養明けは不利だとか、テン乗り(それまで騎乗したことのない騎手に乗り替わる)は不利だとか、よく言われています。たしかに馬が走るための調整が不十分だったり、騎手が馬の特徴を知らなかったりするなど、このデータをサポートする理論はあるのです。
しかし直近では休養中もトレーニングを積む設備ができ、調整が十分にできるようになった。また日本人より騎乗技術が圧倒的に優れている外国人騎手が多く乗るようになったことで、そのような条件でも勝つケースが多くなっています。つまりデータに反する結果がよく現れるようになってきているのです。
過去のデータの前提になっている環境が今では崩れてきている。だから過去のデータを使って予想すること自体がナンセンスになっているわけです。
データといっても直近のデータしか意味をなさないわけですが、競馬の場合は同条件のサンプルサイズ(行われたレースの数)が小さすぎて予想に不足するので、結局データが役に立つとは言いにくいのです。
私もデータを仕事としているわけですが、競馬で過去のデータばかり主張する人はセンスが悪いと思うわけです。
環境が変わることで過去のデータが役に立たなくなる例は実際のビジネスの世界でもあるわけで、現在の環境が有効となるデータの期間にも気を使う必要があります。
3. 1回しか発生したことのないイベントが要因になっている
データの期間中、1回しか起こらなかったイベントが目的変数に影響を及ぼす場合の扱いです。
たとえばB2C分野での今年の売上を予測する場合、消費税増税の影響は免れないでしょう。ではその影響の大きさはどの程度なのでしょうか。その大きさを見積もれないと売上の精度の高い予測はできません。
ところが過去のデータでその影響の大きさがわかるのは2014年のデータだけで、その1回を根拠に影響の大きさを見積もる必要があるわけです。影響の大きさを算出する根拠がたった1回のデータなのです。
過去のデータで何度か発生するイベントはその影響の大きさを見積もることはできますが、一度しか発生しなかったものを根拠にせざるを得ないというのは苦しいですよね。
ところがデータにはこういった事象もつきものなのです。
どんなにイケてるアルゴリズムを使ったところで、分析・予測のアルゴリズムはデータを反映するものでしかないわけです。もしデータがポンコツであれば、データがポンコツであることを示すのがアルゴリズムです。アルゴリズムはデータに正直です。データが悩ましいものである場合は、予測の結果も悩ましさを含んでしまう、それがデータドリブンなのです。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2025/04/16(水)
オンラインセミナー「【GA4&GTM完全攻略】それ計測したかった!を叶えよう」|2025/4/16(水)
GA4とGTMの正しい設定方法を基礎から実践まで徹底解説します。 GA4導入時に押さえておくべきポイントや、イベント設定・カスタムディメンシ …
2025/03/26(水)
オンラインセミナー「GA4はもう難しくない!最新機能と改善ポイントを徹底解説」|2025/3/26(水)
「GA4は使いにくい」と思っていませんか? それはもう過去の話!最新アップデートで、GA4はより直感的で便利な解析ツールへ進化し、ユーザーの …
2025/03/05(水)
オンラインセミナー「あの会社はこんなに伸びた!新規受注額2倍&年間受注額3倍の刃物メーカー、平均受注金額5倍のウェブ制作会社の事例」|2025/3/5(水)
2021年は刃物メーカーの1人担当者さん、2022年には小さな制作会社さんの事例を紹介しました。あれから2~3年たっても着実に成長されていま …
【コラム】SEOの辻正浩さんにインタビューしたらその使命感に圧倒された
アナリティクスアソシエーション 大内 範行アナリティクスアソシエーションでは、不定期に話題になったこと、人についてインタビューを行っていきます。第二回は、SEOの第一人者 Faber …
【コラム】電通の「日本の広告費」レポートに見る、デジタル認知広告の時代と効果測定の新しいカタチ
アナリティクスアソシエーション 大内 範行電通が今年2月末に恒例の「2024年 日本の広告費」を発表しました。皆さんにとっては、予想した驚きのないレポートかもしれません。 ただ、私は …
今回はタイトルの通りですが、GTM(Googleタグマネージャー)のあるあるを言っていきたいと思います。 前提として「どんな人が言っているの …