コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2022年9月7日号より
今回はデータ分析の際の基本のおさらいです。
データの中の変数には人数、年齢のような量を表す変数と、居住地域、性別のような質を表す変数があります。分析を行う際の扱い方が当然異なります。BIツールを使うときも量的変数は指標にできますが、質的変数はディメンションにしかならないですよね。
さらに細かく分類すると、
名義尺度 順序尺度 間隔尺度 比例尺度
に分類されます。尺度というのは値の違いが何を意味するのか、たとえば体重という変数の50と60の違いが何を意味するのか、銀行コードの0001と0002の違いが何を意味するのかという、目盛りのようなものです。タイプによってデータ処理の際に扱い方が異なり、4分類あります。
名義尺度はラベルとしての意味しか持たないものです。たとえば性別やブランド名、都道府県名、デバイス名など、分類としての意味しかありません。はい/いいえのような2値変数の場合もあれば多値変数の場合もあります。
性別の
男性/女性
という名前もそうですが、
1=男性/2=女性
としたときの1と2も同様です。一見数値ですが、これは足すことも引くこともできません。数値が大きいからといって優れているとか、そういう意味もありません。単なる男性と女性の違いでしかないのです。あと名義尺度は平均を取る意味がありません。名義尺度である変数は多いです。応用編なのでいつか取り上げますが、回帰分析などモデリングの際は数値化するための特殊な扱いが必要になります。
順序尺度は値の大小に意味があるが、足し引きに意味がない変数です。順序に意味のある分類ということもできます。たとえばアンケート調査の1~5のリッカート尺度もこれにあたります。「5=とても満足」と「3=まあまあ」との間で引いて2にしたり足して8にしたりする意味はないですよね。データ処理の際には名義尺度的な扱いもできますし、より幅広い選択肢があります。簡便的に後述する間隔尺度と同様の処理をすることもあります。
ここまでが分類を表す変数で、質的変数になります。以下が量的変数にあたるものです。
間隔尺度は足し引きに意味があるが、割り算に意味がない変数です。0という値に特別な意味がない変数でもあります。普段われわれが用いる温度はそうですよね。摂氏10度と摂氏20度の違いは摂氏20度と摂氏30度の違いと同じ大きさです。一方で0度には特別な意味はありません。「気温が2倍になった」とかいうのはナンセンス。「気温の差が倍になった」には意味がありますが。そもそも摂氏の0度と華氏の0度は温度が違います。日付などもこれに含まれます。日付にゼロという概念がありません。間隔尺度では算術平均や分散に意味があります。
比例尺度は足し引きにも意味があり、割り算にも意味がある。言い換えると0という値が原点になる変数です。人数やPV数など、数のカウントは全て比例尺度ですし、年齢や身長も0から始まる変数なので比例尺度です。
間隔尺度の変数の値の差は比例尺度になります。日付は間隔尺度なのですが、日付の差をとった年齢という変数が比例尺度です。間隔尺度と比例尺度の違いは微妙に感じるかもしれませんが、0の意味を考えること。「半分になった」「2倍になった」などと言うのに意味があるかということです。「偏差値が倍になった」とか、言わないですよね。
割り算や掛け算の概念がない以外は間隔尺度と比例尺度は同じように扱っていいことが多いです。そのためこの2種類は量的変数として括られることが多いです。掛け算や割り算は主に変数の加工の時に意識するくらいですかね。ただしグラフを描画する際には、比例尺度の変数はゼロから表示するのが本来正しい。間隔尺度の場合は途中からでも問題ありません。
これらは分析の際には必須となる考え方ですので、復習しておくことをお勧めします。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2023/06/15(木)
オンラインセミナー「【基礎と応用】Google タグマネージャーでGA4のタグを設定してみよう」|2023/6/15(木)
ユニバーサルアナリティクスの計測停止を目前にしてGA4への移行がまったなしとなりました。移行を機にGoogle タグマネージャーでのタグ管理 …
2023/06/07(水)
【ランチタイム開催】「クラシコムにおける「データ」とは?データ基盤の立ち上げと活用について」|2023/6/7(水)
セミナー・イベント名 【ランチタイム開催】「クラシコムにおける「データ」とは?データ基盤の立ち上げと活用について」 セミナー・イベント内容 …
2023/05/17(水)
オンラインセミナー「注目 Microsoft 広告とAI~デジタルマーケティングはどう変わるのか?」|2023/5/17(水)
2022年5月末に日本市場でローンチされたMicrosoft 広告が急速に浸透しています。 また、Microsoftは対話型AIを搭載した検 …
2015年3月から執筆しましたアナリティクスアソシエーションのメルマガコラム、今後のコラムのあり方が見直しされるということで、私の執筆は今回 …
【コラム】BardとGPTに聞くAI時代のSEO 長尾キーワードが鍵?
アナリティクスアソシエーション 大内 範行前回の大内のコラムは、要点を伝えてChatGPTに書いてもらいました。今回はGoogle BardとChatGPTの両方の助けを借りながら書 …
a2iでのコラム連載が最後になるのですが、意外と忘れられがちな、でもデータの分析や活用のために重要な視点をおさらいします。普遍的なことから、 …