コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2022年10月5日号より
前回は変数の4つの尺度について解説しましたが、今回はその中でも名義尺度の変数の扱い方を深掘りします、まず名義尺度とは何か。前回の復習ですが、
> 名義尺度はラベルとしての意味しか持たないものです。たとえば性別やブランド名、都道府県名、デバイス名など、分類としての意味しかありません。はい/いいえのような2値変数の場合もあれば多値変数の場合もあります。
名義尺度の変数に関する分析を行う際のアプローチです。都道府県名という例を挙げましたが、都道府県に限らず地域という情報は名義尺度になります。細かい括りの市町村もそうですし、大きな括りの東北、関東などの地方区分などもそうです。アイデアとしては地域別に目的変数(売上など)の値を見るという本質的な方向性は変わらなくても、計算処理上は都道府県別に売上を見る、地方区分別に売上を見る、市町村別に売上を見るのとでは扱いが全然変わります。
機械学習や統計モデルを適用する際、名義尺度変数はそのままモデルに入れることができません。たとえば都道府県の「東京都」という値を数式の中でそのまま扱うことはできないのです。そこでデータの前処理で名義尺度変数に対してはコーディングという処理を行います。代表的なものがダミーコーディングという方法で、たとえば都道府県のラベルとして{東京都、神奈川県、埼玉県}という3つの都県がデータに含まれ、この3都県の情報をコーディングするケースを考えます。
都道府県を表す変数を2つ用意します。
– 変数x1: 東京都だったら1、それ以外なら0
– 変数x2: 神奈川県だったら1、それ以外なら0
x1の値が1の場合、必然的にx2は0になります(東京都)。上にない千葉県の場合、x1もx2も0になります。つまり都道府県を表す際、
– x1=1, x2=0
– x1=0, x2=1
– x1=0, x2=0
という3パターンが存在し、3つの都県に該当するのです。変数をN個用意すればN+1個のバリエーションを表現できます。
もともと都道府県という1個の変数だったものが、機械学習や統計モデルで扱うためには2個の変数を用意するということになります。身長という変数であればそのまま1個の変数で扱うことができます。連続量でない、カテゴリ変数の場合にはこのようなところが大きな違いになるのです。ラベルのバリエーションが増えたらどうなるでしょうか?すべての都道府県がデータに含まれる場合は47のバリエーションがあり、用意する変数は46個になります。バリエーションが1000とかあると、変数の数も1000個近く用意する必要があります。これは大変ですよね。回帰分析の際には、それぞれの変数に対して回帰係数を推定する必要がある。データの行数に対して推定すべきパラメータが多いとモデル自体が不健全です。
何らかの方法でカテゴリ分類を再構成することになります。似たカテゴリ(近い都道府県?)は同じグループにまとめる。出現頻度の小さなカテゴリは無視する。目的変数に対する重要度の高いカテゴリのみ扱う。など、いろいろ方法はあります。コーディングの手法はダミーコーディングに限らずいろいろあるのですが、何らかの形で情報を削減することが多くなります。
情報を削減するというのはむやみにやると分析自体のイシューが抜け落ちることになるので、削ってはならない情報を削らないように気を付けて進める必要があります。そこには計算処理の知識(統計手法によって適した削減方法も異なる)とドメイン知識の両方が求められる、実は高度な仕事になるのです。名義尺度変数は扱うのが、特に前処理が大変です。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2023/04/20(木)
オンラインセミナー「GA4活用、分析改善と広告運用の現場から」|2023/4/20(木)
Google アナリティクス 4(GA4)の本格的な利用が始まる2023年です。ユニバーサル アナリティクスとは異なる仕様が多く、従来は容易 …
2023/03/16(木)
オンラインセミナー「ウェブ/アプリのUX戦略 データ分析と定性分析の絶妙なバランスは?」|2023/3/16(木)
データ分析をするとき「肌感」は重要なポイントです。 あなたがGA4などアクセス解析のデータを読み解きするとき、 対象のウェブ/アプリについて …
2023/03/10(金)
【ランチタイム開催】「2023年デジマ予測 キーワードマーケティング滝井さんに聞く 今後、検索はどうなるの? 」|2023/3/10(金)
セミナー・イベント名 【ランチタイム開催】「2023年デジマ予測 キーワードマーケティング滝井さんに聞く 今後、検索はどうなるの? 」 セミ …
【コラム】人間の思考はAIに置き換えられるのか、どのような思考が人間の価値として残るのか
株式会社真摯 いちしま 泰樹AI関連の技術的なトレンドの変化が大きく、もしかしたら私たちの思考の一部は価値を失うのかもしれないと思ったりもします。何について考えるのが人 …
知的な仕事において情報の収集は大切です。当然ですが正しい情報を収集することが必要で、誤った情報は掴まないようにしなくてはなりません。おそらく …
あるツイートに目が留まりました。つぶやいた主は、企業に向けたコンテンツ作成をビジネスにしている人のようです。 「品質の高いコンテンツを時間を …