コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2022年10月5日号より
前回は変数の4つの尺度について解説しましたが、今回はその中でも名義尺度の変数の扱い方を深掘りします、まず名義尺度とは何か。前回の復習ですが、
> 名義尺度はラベルとしての意味しか持たないものです。たとえば性別やブランド名、都道府県名、デバイス名など、分類としての意味しかありません。はい/いいえのような2値変数の場合もあれば多値変数の場合もあります。
名義尺度の変数に関する分析を行う際のアプローチです。都道府県名という例を挙げましたが、都道府県に限らず地域という情報は名義尺度になります。細かい括りの市町村もそうですし、大きな括りの東北、関東などの地方区分などもそうです。アイデアとしては地域別に目的変数(売上など)の値を見るという本質的な方向性は変わらなくても、計算処理上は都道府県別に売上を見る、地方区分別に売上を見る、市町村別に売上を見るのとでは扱いが全然変わります。
機械学習や統計モデルを適用する際、名義尺度変数はそのままモデルに入れることができません。たとえば都道府県の「東京都」という値を数式の中でそのまま扱うことはできないのです。そこでデータの前処理で名義尺度変数に対してはコーディングという処理を行います。代表的なものがダミーコーディングという方法で、たとえば都道府県のラベルとして{東京都、神奈川県、埼玉県}という3つの都県がデータに含まれ、この3都県の情報をコーディングするケースを考えます。
都道府県を表す変数を2つ用意します。
– 変数x1: 東京都だったら1、それ以外なら0
– 変数x2: 神奈川県だったら1、それ以外なら0
x1の値が1の場合、必然的にx2は0になります(東京都)。上にない千葉県の場合、x1もx2も0になります。つまり都道府県を表す際、
– x1=1, x2=0
– x1=0, x2=1
– x1=0, x2=0
という3パターンが存在し、3つの都県に該当するのです。変数をN個用意すればN+1個のバリエーションを表現できます。
もともと都道府県という1個の変数だったものが、機械学習や統計モデルで扱うためには2個の変数を用意するということになります。身長という変数であればそのまま1個の変数で扱うことができます。連続量でない、カテゴリ変数の場合にはこのようなところが大きな違いになるのです。ラベルのバリエーションが増えたらどうなるでしょうか?すべての都道府県がデータに含まれる場合は47のバリエーションがあり、用意する変数は46個になります。バリエーションが1000とかあると、変数の数も1000個近く用意する必要があります。これは大変ですよね。回帰分析の際には、それぞれの変数に対して回帰係数を推定する必要がある。データの行数に対して推定すべきパラメータが多いとモデル自体が不健全です。
何らかの方法でカテゴリ分類を再構成することになります。似たカテゴリ(近い都道府県?)は同じグループにまとめる。出現頻度の小さなカテゴリは無視する。目的変数に対する重要度の高いカテゴリのみ扱う。など、いろいろ方法はあります。コーディングの手法はダミーコーディングに限らずいろいろあるのですが、何らかの形で情報を削減することが多くなります。
情報を削減するというのはむやみにやると分析自体のイシューが抜け落ちることになるので、削ってはならない情報を削らないように気を付けて進める必要があります。そこには計算処理の知識(統計手法によって適した削減方法も異なる)とドメイン知識の両方が求められる、実は高度な仕事になるのです。名義尺度変数は扱うのが、特に前処理が大変です。
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2025/01/30(木)
オンラインセミナー「JADE presents:GA4と「Amethyst」でここまでできるユーザー分析」|2025/1/30(木)
「Googleアナリティクス 4(GA4)は見たいデータをなかなか見られない、使いにくい」という声をよく耳にします。また「ユーザー軸のツール …
2024/12/10(火)
オンラインセミナー「【GA4導入・活用術】事業会社と自社サービス担当者が語る!」|2024/12/10(火)
GA4を導入したいけれど、チーム内の理解を得られずに進められない、または導入はしたものの活用しきれていない――そんなお悩みはありませんか? …
2024/11/13(水)
オンラインセミナー「参加無料!超初心者向け!GA4にログインはできた。その次に何をすればいいかわからない人のためのセミナー。サイト改善の知恵袋付きです。」|2024/11/13(水)
GA4にログインしても何が何だかさっぱりわからないことは多いですよね。でも、Webサイトのことは知りたいし、できれば改善点も知りたい…。そん …
【コラム】新しい生成AI検索サービス 効率的な答えが見つかることは本当に幸せか?
アナリティクスアソシエーション 大内 範行ChatGPT searchが、一部のユーザーにリリースされています。 私はTeamsプランで契約があるためChromeのデフォルトサーチに …
みなさんこんにちは。渋谷にある大学、日本経済大学で教員をしております、金谷武明と申します。以前はGoogleという会社でYouTubeで検索 …
衆議院選挙が終わりました。選挙のたびに開票の時刻と同時に当選確実が出る「出口調査」の予測が話題になります。 今回、開票と同時に出した主要メデ …