活動報告

開催日時 2023/02/15(水)
会場 オンラインセミナー

2023年2月15日にオンラインセミナー「エクセルを使ったはじめての統計解析」を開催いたしました。ご参加いただいた皆様、ありがとうございました。

セミナーでは榊 裕次郎氏(Transparently)から、統計学の分析手法を用いて、Excelでデータ分析を行う方法について解説していただきました。

レポート執筆
株式会社菊原web解析事務所

第一部:ピボットテーブルを使ったデータ分析手法の基本を押さえよう!

第一部では、データ分析における基本的な考え方と、Excelのピボットテーブルを使った分析方法を中心に解説していただきました。

「目的」と「仮説」を設定する

はじめに、榊氏から「データ分析では知りたい情報を明確にするために、まず『目的』を持つ必要がある」というお話がありました。

「目的を設定し、仮説を立てる」というのがデータ分析の基本的なフローであり、目的を決めないまま、データ分析を行うと失敗するケースが多いといいます。

では、データ分析における「目的」と「仮説」とは、どのようなものなのでしょうか。

たとえば、「会員・非会員の顧客単価調査」として、会員・非会員(合計100人)の購入金額を調査したデータがあるとします。

この場合、目的や仮説の例として、以下のようなものが挙げられます。

【目的】会員の平均顧客単価は1600円を超えたかどうか
【仮説】会員のほうが顧客単価が高い

データは「原因」と「結果」で見る

設定された仮説を検証する際、仮説における「データの性質」に着目することも重要です。
具体的には、仮説にあるデータを「原因」と「結果」という視点で見ていくことがポイントです。

たとえば、前述した仮説「会員のほうが顧客単価が高い」を例に説明すると、会員が「原因」、顧客単価が「結果」となります。

「質的変数」と「量的変数」

性別や購入金額などデータにはさまざまな種類がありますが、統計学では「質的変数」と「量的変数」の大きく2つに分けることができます。

質的変数

  • 「男性か女性か」「会員か非会員か」など、数や量で測ることができないデータのこと。
  • たとえば、「男性=1、女性=2」のように数値で置き換えることもできるが、「1+2」を計算しても意味がない。

量的変数

  • 注文数や売上金額など、数や量で測ることができるデータのこと。
  • たとえば、「売上金額800円×2」のように計算でき、数値として意味がある。

仮説のタイプ4つ

「原因と結果」や「質的変数と量的変数」について理解したところで、次に「仮説のタイプ」を確認します。
仮説のタイプは、以下の4つに分類されます。

  1. (原因)質的変数 → (結果)量的変数
  2. (原因)質的変数 → (結果)質的変数
  3. (原因)量的変数 → (結果)量的変数
  4. (原因)量的変数 → (結果)質的変数
  5.  
    ※ 4(原因)量的変数 → (結果)質的変数は、今回のセミナーでは割愛

 
では、前述した仮説「会員のほうが顧客単価が高い」は、どのタイプになるのでしょうか。
「会員」は質的変数、「顧客単価」は量的変数にあたるため、
仮説のタイプは
1.(原因)質的変数→(結果)量的変数
になります。

ピボットテーブルを使って分析する

続いて、Excelのピボットテーブルを使って、実際にデータを集計・分析します。
※ピボットテーブル…大量のデータを集計・分析できる機能

前述のデータをもとにピボットテーブルを使って、会員・非会員それぞれの「平均購入金額」を算出します。その結果によって、「会員のほうが顧客単価が高い」という仮説が正しいか検証することができます。

榊 裕次郎氏(Transparently)

また、売上データの量的変数を、Excelの関数「IFS関数」を使って「A・B・C・D」のランク分けを行い、
仮説のタイプ2.(原因)質的変数→(結果)質的変数 の分析も行いました。

ランク分け後、ピボットテーブルからピボットグラフを用いて、ランクごとの割合も確認しました。

第二部:エクセルを使った未来予測、回帰分析に挑戦してみよう!

第二部では、仮説のタイプ3.(原因)量的変数 → (結果)量的変数の分析です。
散布図でグラフを表示し、回帰分析を使って予測値を出す方法を中心に解説していただきました。

回帰分析を使って「予測値」を出す方法

回帰分析とは

統計学の「回帰分析」を使えば、過去のデータをもとに今後の「予測値」を出すことができます。

受講者も、用意されたサンプルデータを使い、回帰分析の演習を行います。
各病院で検出された「細菌数」と「入院平均日数」を調査したデータから予測値を出していきます。具体的には、A病院の細菌数:5000個、入院平均日数:5日……といったデータです。

このとき、「細菌数が1000個の場合、入院平均日数は何日になるのか」といった予測値を出すのに使用するのが回帰分析です。

散布図を作成する

回帰分析を行う際は、まずExcelで散布図を作成します。
「細菌数と入院平均日数」を調査したデータを使って散布図を作り、近似曲線を表示させます。
※近似曲線…散布図で表示された複数のデータ(点)から、なるべく近いところ(ズレの少ないところ)を通って引かれた線。これによって、データのおおまかな推移・傾向がつかめる。

相関係数とは

続いて、「相関係数」を出します。

相関係数とは簡単にいえば、2つのデータの関係性の度合いを示すものです。
相関係数は「-1~1」までの間の数値で表され、「正の場合(0~1)」と「負の場合(-1~0)」があります。

【正の場合(0~1)=正の相関関係】
例)気温が上がれば、清涼飲料水の売上が伸びる

【負の場合(-1~0)=負の相関関係】
例)気温が下がれば、ダウンジャケットの売上が伸びる

相関係数はExcelの「CORREL関数」で求められます。
「細菌数」と「入院平均日数」のデータをCORREL関数にあてはめると、相関係数を算出することができます。

ただし、相関係数は2つのデータの関係性を示すものであり、かつ、「順序尺度(テストの順位など)」であるため単純計算はできず、あくまで参考程度にとどめておくという注意がありました。

散布図に回帰式を表示させる

作成した散布図に「数式を表示させる」設定をすると、回帰分析で使う数式(回帰式)が表示されます。

回帰分析では一次関数の式「y=ax+b」が使われます。
a:傾き(xからyへの影響の度合い)
b:切片(基準点)
x:原因となる数(原因系変数)…細菌数
y:結果となる値(結果系変数)…入院平均日数

今回は、「y=0.0003x+2.9037」という回帰式になりました。

予測値を出す

回帰式を使えば、過去のデータから「予測値」を出すことができます。
たとえば、「細菌数が1000個の場合、入院平均日数は何日になるのか」という予測値を出す場合、散布図に表示された回帰式「y=0.0003x+2.9037」の「x(エックス)」の部分に、「1000」などの細菌数を入れて計算すると、その個数に応じた「入院平均日数の予測値」が算出できます。

回帰分析はサイトのアクセス解析にも活用できる

回帰分析はWebサイトのアクセス解析にも活用できます。

たとえば、サイトにタグが正しく設置できていなかったなどの理由で、その期間のデータがGoogleアナリティクスで計測できなかった場合に、過去のデータを使って回帰分析を行えば、計測できなかった期間のデータの予測値が出せるというわけです。

クライアントにレポートを提出する際など、データが計測できなかった期間をそのままにするのではなく、その期間の予測値を出してあげたほうが相手にとってもよいのでは、と榊氏は語ります。

データ全体をバランスよく見て分析することが重要

このほかにも、セミナーではExcelでできるさまざまな分析手法と、そのために用いる関数が紹介されました。

最後に、榊氏は「データ分析をする際、画面上のデータだけにとらわれると、ずっと『木』ばかり見ている状態になってしまう。だから『森』も見なければいけない。でも『森』ばかり見ていると『木』を見失ってしまう。バランスよくデータ全体を見ることが重要」と、さまざまな粒度・視点からデータを分析することの重要性について述べ、セミナーを締めくくりました。

出演講師

一つ前のページに戻る

a2i セミナー風景イメージ

あなたも参加しませんか?

「アナリティクス アソシエーション」は、アナリティクスに取り組む皆さまの活躍をサポートします。会員登録いただいた方には、セミナー・イベント情報や業界の関連ニュースをいち早くお届けしています。

セミナー・イベント予定

予定一覧へ

コラムバックナンバー

バックナンバー一覧へ