コラムバックナンバー

2019年12月に世界で初めて新型コロナウイルスの感染者が報告されてから2年8ヶ月が経過しました。先日、WHOのテドロス事務局長がこのパンデミックの状況について「まだ到達していないが、終わりが視野に入ってきた」と発言したこともあり、様々なことが動き始める機運が高まっています。社会の変化に伴って分析するデータにも変化が現れることが予見されます。そして「コロナ禍」と位置づけられる期間のデータの振る舞いを、今後は考慮して分析に臨まなくてはなりません。

入るはずのない値の混入、代表値からかけ離れたデータ、あるいはデータが存在しない、さらにそれが「長期間」もしくは「何度も繰り返す」といった状況は、皆様が解析されるデータの殆どで起きているのではないかと思います。

コロナ禍以外にも、時系列データの解析において押さえておくべき要因は多数ありますが、下記のようなスタンダードなものは(分析する対象のテーマにもよりますが)まず最初に考慮を検討するべき要因です。

・曜日、週、月、祝祭日、季節
・五十日、月末月初、月内最終金曜日
・イベント(ライブやコンサートの開催、バレンタイン、クリスマスなど)
・降水量や日照時間、気温・湿度などの天候
・人流

これらに加えて(もちろん、どちらがトリガーかというよりは互いに影響しあっているケースがほとんどですが)、コロナの陽性者数の推移や、各地域・自治体の単位で行われた行動制限を伴う感染症対策の施策の実施についても、時系列データの要因把握には基本的な分析として保持しておいて良いと考えています。コロナの陽性者数のデータは世界中の数値が公開されており容易に入手できますので、上記のスタンダードなもの以外に継続取得して要因特定に役立てるという体制は整えておくことをオススメします。

そのほかにも時系列データを扱う際に気に留めておきたいのが災害や通信障害、システム障害など「何らかのトラブル」の記録です。これらには曜日やイベントと違って規則性が無いことが多く、また発生も稀であることから継続して記録され、蓄積されている情報はあまり多くありません。災害がいつ起きたか、その被害がどの程度であったかということは災害事例データベースに約6万件のデータが存在していますが、今後は災害時の人の行動履歴や位置情報なども集約されるようになることを期待しています。データの粒度は細かく、リアルタイム性を保持して記録されていくと、なお活用に広がりがもたらされると思います。

コロナや災害等のデータは公開される情報である程度データが揃いそうですが、事業者は可能であれば自社にとってネガティブなことが起きた情報を1st Partyデータとして記録しておくと良いと私は考えています。クレームやSNSの炎上、通信障害やシステム障害などの記録です。一方、システム障害真っ最中はその記録が出来ませんので、それ自体に備える必要もあります。

データは何かが起きた結果として分析者の手元にやって来ます。何かが「起きていない」結果でもあります。「いつ・なにが・どこで起きたか」の把握は時系列データ分析の基本ですが、分析対象への理解と世の中のあらゆる事象の概要を知っておくことが求められます。結局のところ、分析者、データサイエンティストは「イケてるビジネスパーソン」であることに他ならないのかもしれません。

コラム担当スタッフ

菅 由紀子

株式会社Rejoui
代表取締役

株式会社サイバーエージェント、株式会社ALBERTを経て、2016年に株式会社Rejouiを設立。DX推進支援、データ分析・利活用コンサルティング、データサイエンス教育事業などを展開。
統計ソフトRやPythonを活用した分析入門講座をはじめ、学生、企業、官公庁へ向けた統計・データサイエンス学習講座を提供。日本行動計量学会、WiDS TOKYO @ YCU、日本RNAi研究会等、数々の学会およびシンポジウムに登壇。自身がアンバサダーを務める人材育成の活動(WiDS HIROSHIMA)が評価を受け、2021年度日本統計学会統計教育賞受賞。

一つ前のページに戻る

a2i セミナー風景イメージ

あなたも参加しませんか?

「アナリティクス アソシエーション」は、アナリティクスに取り組む皆さまの活躍をサポートします。会員登録いただいた方には、セミナー・イベント情報や業界の関連ニュースをいち早くお届けしています。

セミナー・イベント予定

予定一覧へ

コラムバックナンバー

バックナンバー一覧へ