【メルマガコラム】元データが汚れていることを前提に集計データをみよう

メールマガジン2013年9月3日号より　衣袋宏美

特定の課題に対して行う単発の調査を「アドホック調査」と言います。調査の内容、実査、集計などの作業は定型化できないので、回収した調査票のチェック、一次集計のチェック、など集計データを読む前にやらなければならない工程があります。

例えば集計時には、前後の質問の答に矛盾がないかの論理チェックを行ない集計します。矛盾があれば、何らかの判断をして元データを修正します。

そして一旦質問ごとに単純集計を行います。そこで平均値や分布を見て、はずれ値がないかを確認し、それが誤りなのか、正しいのか、正しいとしてもそのまま集計すべきか、集計から外すべきかを判断します。

普通の調査会社なら、クライアントへ調査結果の報告時に、あるいは事前に、これら前工程の処理について、クライアントへ相談や説明を行います。

調査結果はこのようにデータをきれいにするプロセスを経て作るものなのです。そしてこちらにもかなりの神経と時間を費やします。何故なら、ここでデータの質が決まってしまうからです。

アクセス解析データも同じです。有料のツールであれば、ツール提供会社の方が、ヒアリングに来て、適切な設定をしてくれる場合もあるでしょう。

そうでない場合は、見ようみまねで、自分で初期設定をしなければなりませんが、この初期設定が、自動的にデータをある程度きれいにするプロセスを兼ねているので、大変重要です。データの質を決めるのですから。

初期設定に関わっていない人はもちろんのこと、設定を行った当人でも、それ以降は自動的に正しいデータが集計されてくるという前提で見てしまいがちだと思うのですが、場合によってはデータは少し汚れたまま集計されているのかもしれないし、途中で少しずつ汚くなってしまうこともあるのだという前提で見ていた方がよいと思っています。

サーバーログ解析ツールであれば、機械的なアクセスを排除するためのロボット定義などをしたつもりでも、どんどん新しいロボットは出てきます。

JavaScriptのビーコン型でも、いつJavaScriptまでご丁寧に実行する機械的なアクセスによるデータが入り込んでくるかはわかりません（今のところ殆どそういうことはないと思いますが、皆無とは言い切れません）。

実際にベンダー側にいたことがありますが、短い時間で極端に多数のアクセスがあった場合に、ある一定のルールでそのデータを集計から外す処理を行っていました。

このように良かれと思ってベンダーが行っている処理は、ユーザー側にはブラックボックスになっているものも多数あります。わざわざ知らせる程のことでもないという判断があるからですし、ベンダーとしての一種のノウハウでもあるので、積極的には開示しないのです。

データを利用するだけの立場だと、どうしても出てきたものが100％正しいという前提になりがちですが、元データが完璧ということは考えにくいです。同じ指標でもツールが異なれば集計も別のロジックで実行されているかもしれません。

でも多少汚れているデータだからといって活用できないと嘆く必要はありません。時系列でみたり、比較してみたり、相関をみてみたり、幾らでもそういったデータから役に立つことを引き出すことはできます。

皆さんも、普段は細部を気にせず、実際にそのように活用されていると思いますが、時間があったら、細部にこだわって徹底的に設定を改めて見て、なぜこのような設定をしているのか、どういう役割を果たしているのかを理解することをお薦めします。

★メールマガジンのバックナンバーはこちら

一つ前のページに戻る

【メルマガコラム】元データが汚れていることを前提に集計データをみよう

セミナー・イベント予定

コラムバックナンバー