コラムバックナンバー
Option合同会社 柳井 隆道
発信元:メールマガジン2021年11月10日号より
仮説検定における第1種の過誤と第2種の過誤について、第1種の過誤は本来誤っていることを正しいとみなす過誤ということで偽陽性、第2種の過誤は本来正しいことを誤っているとみなす過誤ということで偽陰性といいます。
医療の世界における検査も似たような考え方ですよね。本来疾患があるときに疾患があると判定することと、本来疾患がないときに疾患がないと判定することの両方が求められます。本来疾患がないのに疾患があると判定してしまうのが偽陽性、疾患があるのに疾患がないと判定してしまうのが偽陰性です。
PCR検査で話題になった「感度」(Sensitivity)というのはウイルスを保有している人を陽性と判定する確率です。感度を上げるということは偽陰性を少なくすることにつながります。疾患がある人を正しく疾患ありと診断できるかを表す指標で、感度が高い検査は除外診断に有用です。感度は「再現率」(Recall)ということもあります。
一方で「特異度」(Specificity)はウイルスを保有していない人に対して正しく陰性と判定する確率です。特異度を上げることは偽陽性を少なくすることにつながります。疾患がない人を正しく健康と診断できるかを表す指標で、特異度が高い検査は確定診断に有用です。感度と特異度はトレードオフの関係にあります。偽陽性を減らそうとすれば陰性診断が増え、偽陰性が増える、逆もまたしかりです。
仮説検定の話題に戻りますが、ネイマン・ピアソン流の仮説検定ではまずサンプルサイズを決定します。これは実験を開始する前に行うもので、実験を開始してデータが集まってから変えるなどというものではありません。というのもサンプルサイズによって仮説が棄却されるかされないかが変わるためです。そのため実験を開始して間もないうちは有意ではないが、時間が経過すると有意になるというということはあります。たとえばクリック率を検定する場合、表示回数100回では有意ではないが表示回数10000回では有意に出ることはあるのです。サンプルサイズを事後的に決めてしまうと結論を変えることができるため、事前に決めておくのです。
そして有意かどうかの判定では、違いの有無を判定することはできますが、違いに実質的な意味があるか(効果があるか、インパクトがあるか)は教えてくれません。たとえば学校である群に補習を行った結果を100点満点のテストで評価するとき、その補習しなかった群と違いはあったが1点しか変わらなかったということであれば、その施策に意味があるのでしょうか?当然人数が多ければ有意には出ます。
だから単純にp値※だけに着目して有意かどうかを見るだけでは不十分で、サンプルサイズに影響されない違いの大きさ、効果の大きさを表す効果量(effect size)という指標を導入します。この効果量というのは、その検定で何を比較したいのか(相関係数なのか、平均値の差なのか→t検定、比率の差なのか→カイ2乗検定、…)ごとに決まったものがあります。興味のある方は以下のリンクを参照するといいです。
またp値と有意水準だけを見ても第1種の過誤については語ってくれます(間違って「AはBより優れている」とは言わない)が、第2種の過誤については教えてくれません。つまり「Aのほうが優れているときにAを優れている」と判定できるかは別問題です。この「Aが優れているときにAを優れていると判定できる確率を検出力(Power)といいます。
先ほど「感度と特異度はトレードオフの関係にあります」と言いました。つまり有意水準と検出力がトレードオフの関係にあるということですが、これはサンプルサイズが一定の時で、実際には希望する有意水準と検出力を担保するためにサンプルサイズを決定するという手順があるのです。そして効果量(サンプルサイズを無視した、2群の違いを表す指標)の閾値を設定し、それを加味してサンプルサイズが決定されます。有意水準、検出力、効果量(の閾値)、サンプルサイズの4つは、いずれか3つが与えられると残りの1つも定まります。他の変数を固定すると、有意水準が大きくなるとサンプルサイズは小さくなる。検出力が大きくなるとサンプルサイズは大きくなる。効果量が大きくなるとサンプルサイズは小さくなるという関係があります。
※p値:「AとBの間に差がない」と仮定したときに、今の結果が起こるのがどのくらいレアであるかを表す確率(前回のコラム参照)
東京大学を卒業後、webマーケティングやサービス企画、システム開発などに従事。
デジタルマーケティングの世界に落ち着き、事業会社、広告代理店を経て2014年に独立。
現在は大小さまざまの事業会社、広告代理店などに対して、テクノロジー観点からデジタルマーケティングの支援を行っている。データ計測の設計、実装から分析、マーケティングオートメーションや広告運用などの施策との連携まで扱う。
さまざまな規模の経験から、企業の身の丈にあったデジタルマーケティングの企画に強い。フリーランスで活動していたが、2017年から法人化。
2026/05/20(水)
セミナー「事故から学ぶ理想のGoogle タグ マネージャー運用 ― 計測トラブルを防ぐルール設計と運用の現実解」 【a2i DEEP Connection】|2026/5/20(水)
誰も全体を管理していない、複数の支援会社がそれぞれのルールで触っている、気付かないまま計測トラブルが起きている。そんなGoogle タグ マ …
2026/04/22(水)
オンラインセミナー「「AIで分析」と聞いて身構えるみなさんへ。コード不要で進める時短ウェブサイト改善」|2026/4/22(水)
「AIで分析」と聞いて身構えていませんか?まずは30秒で内容をご確認ください 「AIで分析」と聞いた瞬間、急にハードルが跳ね上がる感覚はあり …
2026/03/18(水)
オンラインセミナー「GA4×生成AIで改善提案の精度を高める ― AIから「使える施策」を引き出す実践アプローチ ―」|2026/3/18(水)
GA4によるサイト改善は、生成AIと組み合わせることで新しい段階に入りつつあります。 しかし一方で、「AIに分析させても表面的なコメントしか …
【コラム】「キバン」と「ヒョーバン」── GoogleのAI最適化ベストプラクティスから読み取る両端
アナリティクスアソシエーション 大内 範行GoogleがAIに選ばれるコンテンツのベストプラクティスを公開しました。 「ついにGoogleが公式な指針を出したのか!」と、生成AI最適 …
【コラム】AIで支援会社の仕事はどう変わる?──意思決定支援の超伴走型へ
アナリティクスアソシエーション 大内 範行支援会社はお役御免になるのか? 「生成AIがすごすぎて私の仕事がなくなるか不安です」 支援会社やコンサルティングのそんな声を、よく耳にするよ …
【コラム】生成AI時代だからこそ、私はペルソナを大切にしたい
株式会社A-can 白砂 ゆき子「ペルソナなんて、いらないのでは?」 最近、そんな声を聞く機会が増えました。 私がペルソナの要・不要を改めて考えるきっかけとなったのは、最近 …