コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2022年10月5日号より
前回は変数の4つの尺度について解説しましたが、今回はその中でも名義尺度の変数の扱い方を深掘りします、まず名義尺度とは何か。前回の復習ですが、
> 名義尺度はラベルとしての意味しか持たないものです。たとえば性別やブランド名、都道府県名、デバイス名など、分類としての意味しかありません。はい/いいえのような2値変数の場合もあれば多値変数の場合もあります。
名義尺度の変数に関する分析を行う際のアプローチです。都道府県名という例を挙げましたが、都道府県に限らず地域という情報は名義尺度になります。細かい括りの市町村もそうですし、大きな括りの東北、関東などの地方区分などもそうです。アイデアとしては地域別に目的変数(売上など)の値を見るという本質的な方向性は変わらなくても、計算処理上は都道府県別に売上を見る、地方区分別に売上を見る、市町村別に売上を見るのとでは扱いが全然変わります。
機械学習や統計モデルを適用する際、名義尺度変数はそのままモデルに入れることができません。たとえば都道府県の「東京都」という値を数式の中でそのまま扱うことはできないのです。そこでデータの前処理で名義尺度変数に対してはコーディングという処理を行います。代表的なものがダミーコーディングという方法で、たとえば都道府県のラベルとして{東京都、神奈川県、埼玉県}という3つの都県がデータに含まれ、この3都県の情報をコーディングするケースを考えます。
都道府県を表す変数を2つ用意します。
– 変数x1: 東京都だったら1、それ以外なら0
– 変数x2: 神奈川県だったら1、それ以外なら0
x1の値が1の場合、必然的にx2は0になります(東京都)。上にない千葉県の場合、x1もx2も0になります。つまり都道府県を表す際、
– x1=1, x2=0
– x1=0, x2=1
– x1=0, x2=0
という3パターンが存在し、3つの都県に該当するのです。変数をN個用意すればN+1個のバリエーションを表現できます。
もともと都道府県という1個の変数だったものが、機械学習や統計モデルで扱うためには2個の変数を用意するということになります。身長という変数であればそのまま1個の変数で扱うことができます。連続量でない、カテゴリ変数の場合にはこのようなところが大きな違いになるのです。ラベルのバリエーションが増えたらどうなるでしょうか?すべての都道府県がデータに含まれる場合は47のバリエーションがあり、用意する変数は46個になります。バリエーションが1000とかあると、変数の数も1000個近く用意する必要があります。これは大変ですよね。回帰分析の際には、それぞれの変数に対して回帰係数を推定する必要がある。データの行数に対して推定すべきパラメータが多いとモデル自体が不健全です。
何らかの方法でカテゴリ分類を再構成することになります。似たカテゴリ(近い都道府県?)は同じグループにまとめる。出現頻度の小さなカテゴリは無視する。目的変数に対する重要度の高いカテゴリのみ扱う。など、いろいろ方法はあります。コーディングの手法はダミーコーディングに限らずいろいろあるのですが、何らかの形で情報を削減することが多くなります。
情報を削減するというのはむやみにやると分析自体のイシューが抜け落ちることになるので、削ってはならない情報を削らないように気を付けて進める必要があります。そこには計算処理の知識(統計手法によって適した削減方法も異なる)とドメイン知識の両方が求められる、実は高度な仕事になるのです。名義尺度変数は扱うのが、特に前処理が大変です。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2024/10/30(水)
オンラインセミナー「コンテンツのKPIと評価~GA4を使った効果分析~」|2024/10/30(水)
オウンドメディアを運営し、コンテンツマーケティングに取り組む企業が増えていますが、「どのように評価すればよいかわからない」「コンバージョンが …
2024/10/10(木)
オンラインセミナー「GA4でアプリ計測の基本 アクセス解析担当者向け」|2024/10/10(木)
GA4導入が進み、WebサイトをGA4で分析することに慣れてきた方が多いのではないでしょうか。 しかしアプリについては「まだ手を付けられてい …
2024/09/25(水)
オンラインセミナー「Microsoft Clarityで深める真のユーザー理解」|2024/9/25(水)
Microsoft Clarityを使っていますか? データ計測がこれまでより不十分になることが懸念されるなか、ユーザー理解に活用できるMi …
【コラム】最終的に固有名詞で指名検索されるにはどのようなコンテンツマーケティングに取り組むべきか、と考える
株式会社真摯 いちしま 泰樹生成AIの急速な展開にやや戸惑い気味です。普段の業務や調べ物に生成AIを利用する機会が増えましたが、コンテンツ制作やアウトプットの課程が変わ …
【コラム】ブラッド・ピットと阿部慎之助監督 どちらのデータ改善策が勝負強いのか?
アナリティクスアソシエーション 大内 範行巨人がリーグ優勝を果たしました。巨人は今年から阿部慎之助が原監督に代わって20代目の監督になりました。監督の最初のシーズンで、阿部慎之助監督 …
【コラム】ダッシュボード依存症からの脱却:データ活用で本当の価値を生み出す方法
Option合同会社 柳井 隆道データ基盤やCDP(顧客データプラットフォーム)を導入したものの、ダッシュボードを作るまで、データを見るだけで満足してしまう、燃え尽きてしま …