コラムバックナンバー

定型文と化したかのような記事やメルマガに囲まれ、さながら「オンライン疲れ」の方も多いのではないでしょうか。こんなに沢山の統計(的)情報、それも共通のテーマに触れる日々も一生のうちで今が一番のときかもしれません。

統計データの取得方法やデータの可視化方法、相関と因果についてなど、日々多くの方から「このデータはどのように見るのが正しいのか」と問い合わせを受けます。今だからこそ統計やデータについて学びたいという声も多く寄せられています。また「分析者として注目していることは何ですか?」という質問もよく受けており、これについては他でも語ってみたいと思いますが、いま私自身が「このタイミングでよく学んでおかなくては」と思っているのは「異常値・外れ値・欠損値」への対処方法です。

私が分析者として自分の心に刻んでいる標語のひとつは「外れ値こそ観測せよ」です。尊敬する分析者の方から授かった言葉ですが、いままさに「外れ値こそ観測」しなければならない状況ですし、欠損値には「”データがない”という事実がある」と思って対処をするようにしています。機械的に外れ値や異常値、欠損値を処理するのではなく、そのデータが発生した理由を考え抜き、「なぜそのようなデータになって手元にやってきたのか」こそを観察し、考え抜いて分析したいと思っています。

ビジネス、とりわけマーケティングシーンで分析者が対峙するデータは「時系列データ」であることが多いと思います。これまで数多くの時系列データ、特に未来の数量を予測するプロジェクトを多く手掛けてきました。時系列データでは、時系列で可視化し、データの構造を見て長期的な傾向、季節や曜日などの周期性を読み取り、ビジネスドメイン特有の商習慣などを考慮し、何かを予測したり施策に活かすことを検討します。それらのデータを扱う際に必ず気をつけなければならないのが「異常値・外れ値・欠損値」の対処で、こういったデータが頻発した際に第一に考えることは「災害」です。2011年の東日本大震災、2016年の熊本地震、2018年の7月西日本豪雨、昨年の台風など枚挙に暇がありませんが、災害があると過去に分析して策定した予測モデルは使い物にならなくなります。

今後私達が分析するデータ、とりわけコロナ・ショック中に取得されるデータは異常値・外れ値が頻発し、そして欠損も多いデータになることは明白です。本来入るべきではないデータが混入する、代表値からかけ離れたデータが存在する、あるべきはずのデータが存在しない、そしてそれが長期間に渡って記録されるデータが手元にやってくることになります。

今回のことで学術分野では欠損値処理の領域がより進むのではないかと期待しています。自分もその一端を担えると良いなと思っています。

コラム担当スタッフ

菅 由紀子

株式会社Rejoui
代表取締役

株式会社サイバーエージェント、株式会社ALBERTを経て、2016年に株式会社Rejouiを設立。DX推進支援、データ分析・利活用コンサルティング、データサイエンス教育事業などを展開。
統計ソフトRやPythonを活用した分析入門講座をはじめ、学生、企業、官公庁へ向けた統計・データサイエンス学習講座を提供。日本行動計量学会、WiDS TOKYO @ YCU、日本RNAi研究会等、数々の学会およびシンポジウムに登壇。自身がアンバサダーを務める人材育成の活動(WiDS HIROSHIMA)が評価を受け、2021年度日本統計学会統計教育賞受賞。

一つ前のページに戻る

a2i セミナー風景イメージ

あなたも参加しませんか?

「アナリティクス アソシエーション」は、アナリティクスに取り組む皆さまの活躍をサポートします。会員登録いただいた方には、セミナー・イベント情報や業界の関連ニュースをいち早くお届けしています。

セミナー・イベント予定

予定一覧へ

コラムバックナンバー

バックナンバー一覧へ