コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2022年10月5日号より
前回は変数の4つの尺度について解説しましたが、今回はその中でも名義尺度の変数の扱い方を深掘りします、まず名義尺度とは何か。前回の復習ですが、
> 名義尺度はラベルとしての意味しか持たないものです。たとえば性別やブランド名、都道府県名、デバイス名など、分類としての意味しかありません。はい/いいえのような2値変数の場合もあれば多値変数の場合もあります。
名義尺度の変数に関する分析を行う際のアプローチです。都道府県名という例を挙げましたが、都道府県に限らず地域という情報は名義尺度になります。細かい括りの市町村もそうですし、大きな括りの東北、関東などの地方区分などもそうです。アイデアとしては地域別に目的変数(売上など)の値を見るという本質的な方向性は変わらなくても、計算処理上は都道府県別に売上を見る、地方区分別に売上を見る、市町村別に売上を見るのとでは扱いが全然変わります。
機械学習や統計モデルを適用する際、名義尺度変数はそのままモデルに入れることができません。たとえば都道府県の「東京都」という値を数式の中でそのまま扱うことはできないのです。そこでデータの前処理で名義尺度変数に対してはコーディングという処理を行います。代表的なものがダミーコーディングという方法で、たとえば都道府県のラベルとして{東京都、神奈川県、埼玉県}という3つの都県がデータに含まれ、この3都県の情報をコーディングするケースを考えます。
都道府県を表す変数を2つ用意します。
– 変数x1: 東京都だったら1、それ以外なら0
– 変数x2: 神奈川県だったら1、それ以外なら0
x1の値が1の場合、必然的にx2は0になります(東京都)。上にない千葉県の場合、x1もx2も0になります。つまり都道府県を表す際、
– x1=1, x2=0
– x1=0, x2=1
– x1=0, x2=0
という3パターンが存在し、3つの都県に該当するのです。変数をN個用意すればN+1個のバリエーションを表現できます。
もともと都道府県という1個の変数だったものが、機械学習や統計モデルで扱うためには2個の変数を用意するということになります。身長という変数であればそのまま1個の変数で扱うことができます。連続量でない、カテゴリ変数の場合にはこのようなところが大きな違いになるのです。ラベルのバリエーションが増えたらどうなるでしょうか?すべての都道府県がデータに含まれる場合は47のバリエーションがあり、用意する変数は46個になります。バリエーションが1000とかあると、変数の数も1000個近く用意する必要があります。これは大変ですよね。回帰分析の際には、それぞれの変数に対して回帰係数を推定する必要がある。データの行数に対して推定すべきパラメータが多いとモデル自体が不健全です。
何らかの方法でカテゴリ分類を再構成することになります。似たカテゴリ(近い都道府県?)は同じグループにまとめる。出現頻度の小さなカテゴリは無視する。目的変数に対する重要度の高いカテゴリのみ扱う。など、いろいろ方法はあります。コーディングの手法はダミーコーディングに限らずいろいろあるのですが、何らかの形で情報を削減することが多くなります。
情報を削減するというのはむやみにやると分析自体のイシューが抜け落ちることになるので、削ってはならない情報を削らないように気を付けて進める必要があります。そこには計算処理の知識(統計手法によって適した削減方法も異なる)とドメイン知識の両方が求められる、実は高度な仕事になるのです。名義尺度変数は扱うのが、特に前処理が大変です。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2025/07/16(水)
オンラインセミナー「【Canva入門 for マーケ担当者】広告・解析レポートをサクッと伝わるデザインにしてみよう!」|2025/7/16(水)
2025年スタートの新企画「ツール研究会」の第一弾は、「Canva」を取りあげます。 急なバナー作成やCTA差し込み、レポート用スライド作成 …
2025/06/26(木)
オンラインセミナー「サイトユーザーについて知りたいことをGA4で見る方法 ~アクセス解析の基本思考とレポート活用~」|2025/6/26(木)
このセミナーでは、「アクセス解析において持つべき視点」と、Google アナリティクス 4(GA4)の基礎を学びます。対象は初級者です。 企 …
2025/06/12(木)
【a2i交流会2025】デジタルマーケター大集合!a2i 5年ぶりの交流会|2025/6/12(木)
【追加分満員御礼】【5席追加】追加で5名の申込を受け付けます。定員になり次第受付終了いたします。(2025/6/9) 【満員御礼】増席を検討 …
6月12日にa2iの交流会を開催し、多くの方とお話しする機会がありました。 また、5月30日にはWeb担当者Forum ミーティング 202 …
【コラム】生成AI浸透のカギは「組織のキャラクター」 アナグラム中島匠さんに聞きました
アナリティクスアソシエーション 大内 範行アナリティクスアソシエーションでは、不定期にインタビューを行っています。 第三回は、5月22日木曜日に行われた a2iのセミナー「生成AI活 …
【コラム】生成AI検索時代のマーケティングこそ王道マーケティング
アナリティクスアソシエーション 大内 範行生成AI検索が俄かに話題になっています。それに合わせて、LLMOだとか、AIO、GEOと新たな用語が飛び交っています。でも、発売したばかりの …