うずまき2017 powered by Jun-Systems

耳管開放症, SAS, 統計解析, 人工知能, プログラミングそれに思考

*

ベイズ統計で考える世界: 感度・特異度・尤度比などなど

   

ベイズ統計の勉強がてら、思ったことなどをまとめてみた。
別にそう大したことは書いてないんだけど、まあ500円の価値ぐらいはあるような気がする。
 
「うちには99%の確率で戦闘機を検知できる超高性能レーダーがあります。
これなら確実に役に立ちますから、ぜひ買ってください!」

 
買ったレーダーは、99%の確率で戦闘機を検知できるはずなのに、なぜか2回に一回は誤報が鳴ってしまいます。
本当にそのレーダーは便利なのでしょうか。
 

問題の定義

【戦闘機】
毎日24時間、1時間に5%の確率で飛んでくる。
飛んできたら必ず街に大規模な被害が及ぶ。
 
ここでは、「戦闘機が飛んでくる」という事象をAとする。
 
【高性能レーダー】
戦闘機がやってきたら99.8%の確率で検知できる。
ただし、5%の確率で別のものに反応して誤報を発することがある。
 
ここでは、「レーダーが反応する」という事象をBとする。
 
P(X) [Probability of X]: Xという出来事が起きる確率
P(A) [戦闘機が飛んでくる確率] = 0.05 (=5%)
 
P(Xc) [Probability of NOT X]: Xという事象以外の確率
P(Ac) [戦闘機が飛んでこない確率] = 0.95 (=95%)
 

なぜ2回に1回は誤報なのか

戦闘機が来たら確かに99.8%の確率で教えてくれる。
レーダーが壊れているわけでもない。
なのに2回に1回は誤報。
 
これを通常の統計学とベイズ統計で考えてみる。
 
ベイズ統計1
 
通常の統計では、今までの話の通り、「戦闘機がやってきた時に、どの程度の確率で検知できるのか」を考える。
一方のベイズ統計では、「アラームが何かを検知した時に、『それが戦闘機である』という確率」を考える。
 
通常の統計とベイズ統計との最大の違いは、見方の方向が真逆であるという点。
通常の統計学が「原因から結果を考える」というコンセプトである一方、ベイズ統計は「結果から原因を考える」ことを目的としている。
 
ベイズ統計2
 
今回は、「アラームが鳴った」という結果と、「戦闘機がきた」という原因が存在する。
 
ベイズ統計3
つまり、「『戦闘機が来た』という条件下でアラームが正しく動作している確率」は確かに99.8%なのであるが、
「『アラームが鳴った』という条件下でそのアラームが正しく動作している確率」を見てみると、実は51.2%であり、
確かに2回に1回しか正しく動作していない事がわかる。
 

似たような話から一般化する

ベイズ統計がよく例に出されるのは、ある病に感染しているかを調べる検査だ。
 
先ほどと同じような表ができる。

 
ここで、同じくいくつかの確率を定義することができる。
そして実は、それぞれの確率には名前がついている。
 
感染した人を陽性と判別できる確率:感度
感染していない人を陰性だと判別できる確率:特異度
 
これらを使って、尤度(Likelihood)を計算することで、
その検査なり製品なりがどれほどの精度、パフォーマンスなのかを評価することができる。
 
陽性尤度比:陽性と判別された人の中で、どれだけの人が『本当に陽性』なのか
陰性尤度比:陰性と判別された人の中で、どれだけの人が『本当に陰性』なのか
 
「この検査薬は、病気にかかっている人に使うと99.9%判別することができます」
その考え方は確かに大事かもしれない。
しかしながら、その検査を行う人は「陽性かどうか(=結果)」ではなく、「病気なのかどうか(=原因)」を知るために検査を受ける。
 
そう考えると、病気にかかっている人を陽性と判別する(=感度が高い)のは当然として、
本当に必要なのは「その上で尤度比を高めていくこと」なのではないだろうか。
 
何が言いたいのかというと、甘い言葉を簡単に受け入れるなということです。
 

参考資料

 
MIT OpenCourseWare [Probabilistic Systems Analysis and Applied Probability, Fall 2010]
2. Conditioning and Bayes’ Rule


View the complete course: http://ocw.mit.edu/6-041F10
Instructor: John Tsitsiklis

License: Creative Commons BY-NC-SA


 - 統計学

Message

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

  関連記事

no image
データ分析の重要性とオープンデータ活用の潮流
no image
2014年IT関連まとめ
no image
Rの状態空間モデルdlmパッケージの使い方
no image
横行する似非統計の話