アナリティクスアソシエーション (a2i) > 活動報告 > オンライン >
活動報告
会場 | オンラインセミナー |
---|
2023年2月15日にオンラインセミナー「エクセルを使ったはじめての統計解析」を開催いたしました。ご参加いただいた皆様、ありがとうございました。
セミナーでは榊 裕次郎氏(Transparently)から、統計学の分析手法を用いて、Excelでデータ分析を行う方法について解説していただきました。
レポート執筆
株式会社菊原web解析事務所
第一部では、データ分析における基本的な考え方と、Excelのピボットテーブルを使った分析方法を中心に解説していただきました。
はじめに、榊氏から「データ分析では知りたい情報を明確にするために、まず『目的』を持つ必要がある」というお話がありました。
「目的を設定し、仮説を立てる」というのがデータ分析の基本的なフローであり、目的を決めないまま、データ分析を行うと失敗するケースが多いといいます。
では、データ分析における「目的」と「仮説」とは、どのようなものなのでしょうか。
たとえば、「会員・非会員の顧客単価調査」として、会員・非会員(合計100人)の購入金額を調査したデータがあるとします。
この場合、目的や仮説の例として、以下のようなものが挙げられます。
【目的】会員の平均顧客単価は1600円を超えたかどうか
【仮説】会員のほうが顧客単価が高い
設定された仮説を検証する際、仮説における「データの性質」に着目することも重要です。
具体的には、仮説にあるデータを「原因」と「結果」という視点で見ていくことがポイントです。
たとえば、前述した仮説「会員のほうが顧客単価が高い」を例に説明すると、会員が「原因」、顧客単価が「結果」となります。
性別や購入金額などデータにはさまざまな種類がありますが、統計学では「質的変数」と「量的変数」の大きく2つに分けることができます。
「原因と結果」や「質的変数と量的変数」について理解したところで、次に「仮説のタイプ」を確認します。
仮説のタイプは、以下の4つに分類されます。
※ 4(原因)量的変数 → (結果)質的変数は、今回のセミナーでは割愛
では、前述した仮説「会員のほうが顧客単価が高い」は、どのタイプになるのでしょうか。
「会員」は質的変数、「顧客単価」は量的変数にあたるため、
仮説のタイプは
1.(原因)質的変数→(結果)量的変数
になります。
続いて、Excelのピボットテーブルを使って、実際にデータを集計・分析します。
※ピボットテーブル…大量のデータを集計・分析できる機能
前述のデータをもとにピボットテーブルを使って、会員・非会員それぞれの「平均購入金額」を算出します。その結果によって、「会員のほうが顧客単価が高い」という仮説が正しいか検証することができます。
榊 裕次郎氏(Transparently)
また、売上データの量的変数を、Excelの関数「IFS関数」を使って「A・B・C・D」のランク分けを行い、
仮説のタイプ2.(原因)質的変数→(結果)質的変数 の分析も行いました。
ランク分け後、ピボットテーブルからピボットグラフを用いて、ランクごとの割合も確認しました。
第二部では、仮説のタイプ3.(原因)量的変数 → (結果)量的変数の分析です。
散布図でグラフを表示し、回帰分析を使って予測値を出す方法を中心に解説していただきました。
統計学の「回帰分析」を使えば、過去のデータをもとに今後の「予測値」を出すことができます。
受講者も、用意されたサンプルデータを使い、回帰分析の演習を行います。
各病院で検出された「細菌数」と「入院平均日数」を調査したデータから予測値を出していきます。具体的には、A病院の細菌数:5000個、入院平均日数:5日……といったデータです。
このとき、「細菌数が1000個の場合、入院平均日数は何日になるのか」といった予測値を出すのに使用するのが回帰分析です。
回帰分析を行う際は、まずExcelで散布図を作成します。
「細菌数と入院平均日数」を調査したデータを使って散布図を作り、近似曲線を表示させます。
※近似曲線…散布図で表示された複数のデータ(点)から、なるべく近いところ(ズレの少ないところ)を通って引かれた線。これによって、データのおおまかな推移・傾向がつかめる。
続いて、「相関係数」を出します。
相関係数とは簡単にいえば、2つのデータの関係性の度合いを示すものです。
相関係数は「-1~1」までの間の数値で表され、「正の場合(0~1)」と「負の場合(-1~0)」があります。
【正の場合(0~1)=正の相関関係】
例)気温が上がれば、清涼飲料水の売上が伸びる
【負の場合(-1~0)=負の相関関係】
例)気温が下がれば、ダウンジャケットの売上が伸びる
相関係数はExcelの「CORREL関数」で求められます。
「細菌数」と「入院平均日数」のデータをCORREL関数にあてはめると、相関係数を算出することができます。
ただし、相関係数は2つのデータの関係性を示すものであり、かつ、「順序尺度(テストの順位など)」であるため単純計算はできず、あくまで参考程度にとどめておくという注意がありました。
作成した散布図に「数式を表示させる」設定をすると、回帰分析で使う数式(回帰式)が表示されます。
回帰分析では一次関数の式「y=ax+b」が使われます。
a:傾き(xからyへの影響の度合い)
b:切片(基準点)
x:原因となる数(原因系変数)…細菌数
y:結果となる値(結果系変数)…入院平均日数
今回は、「y=0.0003x+2.9037」という回帰式になりました。
回帰式を使えば、過去のデータから「予測値」を出すことができます。
たとえば、「細菌数が1000個の場合、入院平均日数は何日になるのか」という予測値を出す場合、散布図に表示された回帰式「y=0.0003x+2.9037」の「x(エックス)」の部分に、「1000」などの細菌数を入れて計算すると、その個数に応じた「入院平均日数の予測値」が算出できます。
回帰分析はWebサイトのアクセス解析にも活用できます。
たとえば、サイトにタグが正しく設置できていなかったなどの理由で、その期間のデータがGoogleアナリティクスで計測できなかった場合に、過去のデータを使って回帰分析を行えば、計測できなかった期間のデータの予測値が出せるというわけです。
クライアントにレポートを提出する際など、データが計測できなかった期間をそのままにするのではなく、その期間の予測値を出してあげたほうが相手にとってもよいのでは、と榊氏は語ります。
このほかにも、セミナーではExcelでできるさまざまな分析手法と、そのために用いる関数が紹介されました。
最後に、榊氏は「データ分析をする際、画面上のデータだけにとらわれると、ずっと『木』ばかり見ている状態になってしまう。だから『森』も見なければいけない。でも『森』ばかり見ていると『木』を見失ってしまう。バランスよくデータ全体を見ることが重要」と、さまざまな粒度・視点からデータを分析することの重要性について述べ、セミナーを締めくくりました。
2023/06/15(木)
オンラインセミナー「【基礎と応用】Google タグマネージャーでGA4のタグを設定してみよう」|2023/6/15(木)
ユニバーサルアナリティクスの計測停止を目前にしてGA4への移行がまったなしとなりました。移行を機にGoogle タグマネージャーでのタグ管理 …
2023/06/07(水)
【ランチタイム開催】「クラシコムにおける「データ」とは?データ基盤の立ち上げと活用について」|2023/6/7(水)
セミナー・イベント名 【ランチタイム開催】「クラシコムにおける「データ」とは?データ基盤の立ち上げと活用について」 セミナー・イベント内容 …
2023/05/17(水)
オンラインセミナー「注目 Microsoft 広告とAI~デジタルマーケティングはどう変わるのか?」|2023/5/17(水)
2022年5月末に日本市場でローンチされたMicrosoft 広告が急速に浸透しています。 また、Microsoftは対話型AIを搭載した検 …
2015年3月から執筆しましたアナリティクスアソシエーションのメルマガコラム、今後のコラムのあり方が見直しされるということで、私の執筆は今回 …
【コラム】BardとGPTに聞くAI時代のSEO 長尾キーワードが鍵?
アナリティクスアソシエーション 大内 範行前回の大内のコラムは、要点を伝えてChatGPTに書いてもらいました。今回はGoogle BardとChatGPTの両方の助けを借りながら書 …
a2iでのコラム連載が最後になるのですが、意外と忘れられがちな、でもデータの分析や活用のために重要な視点をおさらいします。普遍的なことから、 …