コラムバックナンバー
株式会社Rejoui 菅 由紀子
発信元:メールマガジン2020年12月9日号より
2020年もあと20日ほどを残すのみとなりました。2020年、データを扱う者として最も楽しみにしていたのは5Gのサービス開始でしたが、開始された4月は緊急事態宣言発令のため全く話題にならず、ようやく11月に入ってから iPhoneの新機種発売や各携帯キャリアの値下げのニュースなどで目にするようになってきました。そして2020年は毎日新型コロナウィルスの統計情報に触れ「こんなにも情報リテラシーとデータリテラシーが問われる日々はなかった」と感じています。そんな2020年の殆どの期間、私が気にかけていたことについて今回は書いてみたいと思います。それは「異常値・外れ値・欠損値」の処理についてです。5月も「外れ値こそ観測を」というタイトルで寄稿いたしました。今回はもう少し具体的な処理方法と、気をつけるべきポイントを記載したいと思います。
過去のコラム:「外れ値こそ観測を」
・外れ値と異常値
外れ値とは文字通り「他のデータと比べて極端に離れた値」のことを指します。他と比べて極端に小さな値、あるいは極端に大きな値を言います。それら「外れ値」の中でも、外れている理由が判明しているものが「異常値」です。たとえば保育園の園児たちの身長を測ったデータセットに、160cmというデータが含まれていたときのことを考えてみましょう。他のデータは50cm~113cmの範囲で、160cmは明らかに離れています。そこでデータを確認したら、160cmは園児たちの測定値ではなく、保育士さんの測定値が誤って入ってしまっていた。これが異常値で、もし分析の目的が園児たちの身長の把握であるならば、保育士さんのデータは分析対象外とする、という対処を取ることになります。しかし、もしこのデータの取得背景がわからなければ(今回のケースではありえないですが)慎重に扱う必要があります。また、身長のデータの中に、数字ではなく文字列や記号などが入っているケースもあるでしょう。これらは異常値とは呼ばず、ノイズと呼びます。外れ値と異常値はこのように異なるものですが、英語では同じ「outlier」と言います。
・外れ値の確認方法
外れ値の確認方法はいくつかあります。最も入門的で親しみやすいものは、標準偏差を用いたもの(平均から±3σより外れたものを外れ値とみなす)、箱ひげ図と四分位数(四分位偏差)を用いたものなどが挙げられます。標準偏差と平均を用いる場合、そもそも平均値が外れ値に引っ張られてしまいますので注意が必要です。また、十分なサンプルサイズが必要な方法でもあります。箱ひげ図・四分位数を用いるケースでは、中央値が基点となるためこれを回避できますが、計算過程は標準偏差を用いたものに比べると少し手数は多いかもしれません。その他の方法として、スミルノフ・グラブス検定を用いる方法、クラスター分析を用いて検出する方法などもあります。
・二変量でなければ見つけられない外れ値もある
外れ値の検出方法は様々ありますが、特に注意しなければならないのは「二変量」でデータ同士の関係性を把握してみて初めて外れ値となるケースで、それぞれ単変量で基本統計量を確認しているときには外れ値とは認められない値が、散布図を描くことによりX軸では外れていないが、X軸とY軸の組み合わせで見ると外れている、というものです。これは大変重要な確認方法で、本来ならば相関しているデータ同士を外れ値が存在するが故に相関係数の絶対値が小さくなるケースの発見にもつながります。そのため、分析の基本分析フェーズにおいては二変量でのデータの関係性把握、散布図の描画は不可欠なのです。
・データの取得背景を把握することの重要性
5月のコラムでも触れたことですが、外れ値にしても異常値にしても「なぜそのようなデータが含まれているのか」を把握することが分析者に最も求められる資質です。データは何かが起こった結果であり、異常値も外れ値も「何かが起きた」という情報が現れた結果なのです。取得がうまく行かなかったのか、適切に取得できてなおその値なのか。背景によって対処する方法も異なります。これは欠損値についても同じことですが、欠損値はなおその扱いが(とくに今年2020年のデータの場合は)センシティブであると思っています。欠損値については、次回のコラムで思う所を記載したいと思います。
株式会社サイバーエージェント、株式会社ALBERTを経て、2016年に株式会社Rejouiを設立。DX推進支援、データ分析・利活用コンサルティング、データサイエンス教育事業などを展開。
統計ソフトRやPythonを活用した分析入門講座をはじめ、学生、企業、官公庁へ向けた統計・データサイエンス学習講座を提供。日本行動計量学会、WiDS TOKYO @ YCU、日本RNAi研究会等、数々の学会およびシンポジウムに登壇。自身がアンバサダーを務める人材育成の活動(WiDS HIROSHIMA)が評価を受け、2021年度日本統計学会統計教育賞受賞。
2024/04/11(木)
オンラインセミナー「GA4レベルアップ!「探索」徹底解説と「BigQuery」活用法」|2024/4/11(木)
本ウェビナーは「GA4には少し慣れてきたが、まだまだ活用できていない」「探索を使いこなしたり、BigQueryとの連携活用にもチャレンジして …
2024/03/14(木)
オンラインセミナー「なぜ私たちは自ら生み出したKPIに追われるのか?」|2024/3/14(木)
本ウェビナーでは、マーケター、データ分析者、事業の意思決定者ら、専門家にとって有益な場となるよう、名著「測りすぎ――なぜパフォーマンス評価は …
2024/02/21(水)
オンラインセミナー「生成AI時代到来 今後のSEOのポイントを考える」|2024/2/21(水)
2023年は生成AI・SGE(Google Search Generative Experience)・Bardの登場、Bingの躍進など、 …
今回のテーマは、「【コラム】ポストCookie時代、AI時代? その前に、2024年は顧客理解の再定義を」の続きです。顧客理解を深めることで …
【コラム】わからないなか、わからないなりに、わかるものをつくろうとする構想力について
アユダンテ株式会社 寳 洋平ヘルプをちゃんと読むこと このコラムを読んでいる方は、デジタルマーケティングに深く携わっている人が多いと想像する。そんなあなたなら、先輩から …
【コラム】GA4を超えて:個票分析のための理想のツールについて考える
アナリティクスアソシエーション 大内 範行前回書いた年初のコラム「顧客行動の再定義」の続きです。 【コラム】ポストCookie時代、AI時代? その前に、2024年は顧客理解の再定義 …