コラムバックナンバー

先週大内さんが「統計をこれから学ぶ際の「出口戦略」」というコラムでしたので、それに続く少し具体的な話をさせて頂こうと思います。というのも、定期的に私が実施している「アクセス解析ゼミナール」という講座を先日実施したのですが、やはり質問の中に統計の話があり、同じような悩みや誤解がみて取れるからです。一つ目は「因果と相関」の話です。単なる相関関係を因果関係と解釈しがちな落とし穴ですね。アクセス解析的な観点で言えば、あまり相関や因果に拘るのでなく、どのように活用できるかを考えるのがよいと考えています。具体的に言えば、結果として相関関係が強ければ、予測に使えないかと考えましょう。

イメージとしては下記のビデオリサーチの「CM投下量とブランド認知率の関係」の相関曲線のようなものを引き、こういったものをベンチマークに使うということです。
TV-CM KARTE Special report 【図表1】 CM投下量とブランド認知率の関係

私の以前のコラムでも取り上げていますので、こちらもご参照頂ければと思います。
単なる相関関係を因果関係と取り違えないように

二つ目は「アクセス解析で何かに偏差値を使えませんか」という話です。これは私が『「平均値」だけ見ていると危ないから分布をみましょう』という話をするので、そこで必ず出てくる話です。分布と言えば、平均を50とした偏差値ですよね。

しかしアクセス解析ツールで「偏差値」表示をみたことありますか?バランスよく数値がばらついていれば(正規分布に近ければ)、偏差値50を平均(中心)として数値もほどよくばらついて直感的にも利用しやすいです。しかしウェブの利用行動の多くは、べき分布(指数関数的な極端な分布)を示します。

例えば検索クエリ別の検索回数分布データから各検索クエリに偏差値を割振っても、50を超えるのが僅かで、殆どが50未満になります。このように実は多くの分析軸で偏差値を算出しても、殆ど使い物になりません(全部が無意味とはいいませんが)。だから偏差値は使われていないのです。使ってもいいですが、極端なバラつきを持つデータの特性に十分留意が必要なのです。

ぴったりと嵌る話ではありませんが、古いですが下記のミツエーリンクスのブログもよかったらどうぞ。
ロングテールをWebサイトのアクセスログから検証する

最後はA/Bテストです。統計的に言うと「検定」ですが、AとBで統計的に違うと言えるかどうかを判定する統計手法です。よくある質問は、何日やれば十分なのかといった話です。コンバージョン率で検定するのであれば、ABそれぞれの分母と分子で決まりますので、統計的に言えば分母の量が増えれば、優劣の判定は出やすくなる。そういう関係性があるので、量が多ければ検定は早く結論がでるし、量が少なければ時間が掛かるだけのことです。なので統計的に言えば、何日やればいいという問い自体が不適切な問なのです。

しかし一方で平日と土日でユーザー属性が異なれば、どちらでもテストをすべきだ、という統計とは関係ない判断も必要になります。量が多くてあっという間に結果が出たとしても、私なら最低1週間はテストしなさいと答えるでしょう。

また統計的な信頼性についても90%を使うという人もいれば、95%という人もいます。これらの変数を変えてしまえば、当然テスト結果も変わってきます。個人的には95%を適用しますが、何故という根拠は説明できません。つまりその時々のケースに応じて、さまざまな知識と判断力を総動員する力も必要だったりします。大内さんの出口戦略で言えば、ここはビジネスクラスに足を突っ込んだレベルだと思います。

なおそれぞれが分かりやすく書いたので、多少正確性に欠ける話になっている部分があろうかと思いますが、そこはご承知おきください。

★メールマガジンのバックナンバーはこちら

一つ前のページに戻る

a2i セミナー風景イメージ

あなたも参加しませんか?

「アナリティクス アソシエーション」は、アナリティクスに取り組む皆さまの活躍をサポートします。会員登録いただいた方には、セミナー・イベント情報や業界の関連ニュースをいち早くお届けしています。

セミナー・イベント予定

予定一覧へ

コラムバックナンバー

バックナンバー一覧へ