コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2022年10月5日号より
前回は変数の4つの尺度について解説しましたが、今回はその中でも名義尺度の変数の扱い方を深掘りします、まず名義尺度とは何か。前回の復習ですが、
> 名義尺度はラベルとしての意味しか持たないものです。たとえば性別やブランド名、都道府県名、デバイス名など、分類としての意味しかありません。はい/いいえのような2値変数の場合もあれば多値変数の場合もあります。
名義尺度の変数に関する分析を行う際のアプローチです。都道府県名という例を挙げましたが、都道府県に限らず地域という情報は名義尺度になります。細かい括りの市町村もそうですし、大きな括りの東北、関東などの地方区分などもそうです。アイデアとしては地域別に目的変数(売上など)の値を見るという本質的な方向性は変わらなくても、計算処理上は都道府県別に売上を見る、地方区分別に売上を見る、市町村別に売上を見るのとでは扱いが全然変わります。
機械学習や統計モデルを適用する際、名義尺度変数はそのままモデルに入れることができません。たとえば都道府県の「東京都」という値を数式の中でそのまま扱うことはできないのです。そこでデータの前処理で名義尺度変数に対してはコーディングという処理を行います。代表的なものがダミーコーディングという方法で、たとえば都道府県のラベルとして{東京都、神奈川県、埼玉県}という3つの都県がデータに含まれ、この3都県の情報をコーディングするケースを考えます。
都道府県を表す変数を2つ用意します。
– 変数x1: 東京都だったら1、それ以外なら0
– 変数x2: 神奈川県だったら1、それ以外なら0
x1の値が1の場合、必然的にx2は0になります(東京都)。上にない千葉県の場合、x1もx2も0になります。つまり都道府県を表す際、
– x1=1, x2=0
– x1=0, x2=1
– x1=0, x2=0
という3パターンが存在し、3つの都県に該当するのです。変数をN個用意すればN+1個のバリエーションを表現できます。
もともと都道府県という1個の変数だったものが、機械学習や統計モデルで扱うためには2個の変数を用意するということになります。身長という変数であればそのまま1個の変数で扱うことができます。連続量でない、カテゴリ変数の場合にはこのようなところが大きな違いになるのです。ラベルのバリエーションが増えたらどうなるでしょうか?すべての都道府県がデータに含まれる場合は47のバリエーションがあり、用意する変数は46個になります。バリエーションが1000とかあると、変数の数も1000個近く用意する必要があります。これは大変ですよね。回帰分析の際には、それぞれの変数に対して回帰係数を推定する必要がある。データの行数に対して推定すべきパラメータが多いとモデル自体が不健全です。
何らかの方法でカテゴリ分類を再構成することになります。似たカテゴリ(近い都道府県?)は同じグループにまとめる。出現頻度の小さなカテゴリは無視する。目的変数に対する重要度の高いカテゴリのみ扱う。など、いろいろ方法はあります。コーディングの手法はダミーコーディングに限らずいろいろあるのですが、何らかの形で情報を削減することが多くなります。
情報を削減するというのはむやみにやると分析自体のイシューが抜け落ちることになるので、削ってはならない情報を削らないように気を付けて進める必要があります。そこには計算処理の知識(統計手法によって適した削減方法も異なる)とドメイン知識の両方が求められる、実は高度な仕事になるのです。名義尺度変数は扱うのが、特に前処理が大変です。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2025/04/16(水)
オンラインセミナー「【GA4&GTM完全攻略】それ計測したかった!を叶えよう」|2025/4/16(水)
GA4とGTMの正しい設定方法を基礎から実践まで徹底解説します。 GA4導入時に押さえておくべきポイントや、イベント設定・カスタムディメンシ …
2025/03/26(水)
オンラインセミナー「GA4はもう難しくない!最新機能と改善ポイントを徹底解説」|2025/3/26(水)
「GA4は使いにくい」と思っていませんか? それはもう過去の話!最新アップデートで、GA4はより直感的で便利な解析ツールへ進化し、ユーザーの …
2025/03/05(水)
オンラインセミナー「あの会社はこんなに伸びた!新規受注額2倍&年間受注額3倍の刃物メーカー、平均受注金額5倍のウェブ制作会社の事例」|2025/3/5(水)
2021年は刃物メーカーの1人担当者さん、2022年には小さな制作会社さんの事例を紹介しました。あれから2~3年たっても着実に成長されていま …
【コラム】電通の「日本の広告費」レポートに見る、デジタル認知広告の時代と効果測定の新しいカタチ
アナリティクスアソシエーション 大内 範行電通が今年2月末に恒例の「2024年 日本の広告費」を発表しました。皆さんにとっては、予想した驚きのないレポートかもしれません。 ただ、私は …
今回はタイトルの通りですが、GTM(Googleタグマネージャー)のあるあるを言っていきたいと思います。 前提として「どんな人が言っているの …
【コラム】プライバシー保護と法律 この山は面倒ですが登り始めましょう
アナリティクスアソシエーション 大内 範行ここ数年で個人情報保護などプライバシー保護の法律面の理解を深めて、いくつかのプロジェクトに関わるようになりました。 今では法律理解は、マーケ …