コラムバックナンバー

今回はデータ分析の際の基本のおさらいです。

データの中の変数には人数、年齢のような量を表す変数と、居住地域、性別のような質を表す変数があります。分析を行う際の扱い方が当然異なります。BIツールを使うときも量的変数は指標にできますが、質的変数はディメンションにしかならないですよね。

さらに細かく分類すると、

名義尺度 順序尺度 間隔尺度 比例尺度

に分類されます。尺度というのは値の違いが何を意味するのか、たとえば体重という変数の50と60の違いが何を意味するのか、銀行コードの0001と0002の違いが何を意味するのかという、目盛りのようなものです。タイプによってデータ処理の際に扱い方が異なり、4分類あります。

名義尺度はラベルとしての意味しか持たないものです。たとえば性別やブランド名、都道府県名、デバイス名など、分類としての意味しかありません。はい/いいえのような2値変数の場合もあれば多値変数の場合もあります。

性別の

男性/女性

という名前もそうですが、

1=男性/2=女性

としたときの1と2も同様です。一見数値ですが、これは足すことも引くこともできません。数値が大きいからといって優れているとか、そういう意味もありません。単なる男性と女性の違いでしかないのです。あと名義尺度は平均を取る意味がありません。名義尺度である変数は多いです。応用編なのでいつか取り上げますが、回帰分析などモデリングの際は数値化するための特殊な扱いが必要になります。

順序尺度は値の大小に意味があるが、足し引きに意味がない変数です。順序に意味のある分類ということもできます。たとえばアンケート調査の1~5のリッカート尺度もこれにあたります。「5=とても満足」と「3=まあまあ」との間で引いて2にしたり足して8にしたりする意味はないですよね。データ処理の際には名義尺度的な扱いもできますし、より幅広い選択肢があります。簡便的に後述する間隔尺度と同様の処理をすることもあります。

ここまでが分類を表す変数で、質的変数になります。以下が量的変数にあたるものです。

間隔尺度は足し引きに意味があるが、割り算に意味がない変数です。0という値に特別な意味がない変数でもあります。普段われわれが用いる温度はそうですよね。摂氏10度と摂氏20度の違いは摂氏20度と摂氏30度の違いと同じ大きさです。一方で0度には特別な意味はありません。「気温が2倍になった」とかいうのはナンセンス。「気温の差が倍になった」には意味がありますが。そもそも摂氏の0度と華氏の0度は温度が違います。日付などもこれに含まれます。日付にゼロという概念がありません。間隔尺度では算術平均や分散に意味があります。

比例尺度は足し引きにも意味があり、割り算にも意味がある。言い換えると0という値が原点になる変数です。人数やPV数など、数のカウントは全て比例尺度ですし、年齢や身長も0から始まる変数なので比例尺度です。

間隔尺度の変数の値の差は比例尺度になります。日付は間隔尺度なのですが、日付の差をとった年齢という変数が比例尺度です。間隔尺度と比例尺度の違いは微妙に感じるかもしれませんが、0の意味を考えること。「半分になった」「2倍になった」などと言うのに意味があるかということです。「偏差値が倍になった」とか、言わないですよね。

割り算や掛け算の概念がない以外は間隔尺度と比例尺度は同じように扱っていいことが多いです。そのためこの2種類は量的変数として括られることが多いです。掛け算や割り算は主に変数の加工の時に意識するくらいですかね。ただしグラフを描画する際には、比例尺度の変数はゼロから表示するのが本来正しい。間隔尺度の場合は途中からでも問題ありません。

これらは分析の際には必須となる考え方ですので、復習しておくことをお勧めします。

コラム担当スタッフ

柳井 隆道

Option合同会社
代表社員
マーケティングテクノロジスト
marketechlabo

東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。

一つ前のページに戻る

a2i セミナー風景イメージ

あなたも参加しませんか?

「アナリティクス アソシエーション」は、アナリティクスに取り組む皆さまの活躍をサポートします。会員登録いただいた方には、セミナー・イベント情報や業界の関連ニュースをいち早くお届けしています。

セミナー・イベント予定

予定一覧へ

コラムバックナンバー

  • 【コラム】時系列データ解析のための「コロナ禍のデータ」

    株式会社Rejoui 菅 由紀子
    発信元:メールマガジン2022年9月21日号より

    2019年12月に世界で初めて新型コロナウイルスの感染者が報告されてから2年8ヶ月が経過しました。先日、WHOのテドロス事務局長がこのパンデ …

  • 【コラム】接点を。もっと接点を

    株式会社真摯 いちしま 泰樹
    発信元:メールマガジン2022年9月14日号より

    あるBtoCのWebサイトの状況を分析していたとき、全体的にモバイルのトラフィックのコンバージョンの状況が非常に良いことに気が付きました。ど …

  • 【コラム】データの見方のおさらい~変数の4つの尺度

    Option合同会社 柳井 隆道
    発信元:メールマガジン2022年9月7日号より

    今回はデータ分析の際の基本のおさらいです。 データの中の変数には人数、年齢のような量を表す変数と、居住地域、性別のような質を表す変数がありま …

バックナンバー一覧へ