1回の検査では信用できない。では、何回検査すればよい?ベイズ更新【やさしい統計学12回】
ビジネスパーソンのためのやさしい統計「第12回目」
※YouTubeにて各シリーズ連載中
ビジネスパーソンのための優しい統計学第12回となります。今回は、前回に引き続いて、PCR検査の話題をもうちょっと続けたいと思います。
では何回検査すれば、あなたが本当に感染しているということがわかるのか、そんな話をしていきたいと思うんですけれども、それを解くことができるのも実はベイズの公式なんです。前回まで学んでいただいたベイズの公式で、それを応用してベイズの更新というすごい手法を皆さんに身につけてもらおうと思います。
前回の振り返り
ちなみに、今回だけ見ても、ベイズの公式から理解できると思いますから、心配いただかなくても大丈夫です。なんですけども、もっと詳しく正しく知りたいなと思った方は、前回も見てもらうと、完璧になると思います。パッと前回までのおさらい、前回どんなことやったかというと、「ウイルス検査をしてあなたが陽性の結果通知を見てしまったとする。これが偽陽性である確率でどれくらいなのか」というものです。
全国で毎日だいたい、国民の0.1%ぐらい、10万人ぐらいが感染しているとします。また、PCR検査は、ウイルスに感染したときに陽性と判定されるのは大体7割ぐらいで、感染していない人に対して実施したときには陽性と出てしまうのはわずかに1%。
しかしながら、これを計算すると驚くことがわかる。ベイズの公式というものを使うと、この横向き(行方向)に、こういう場合は何%・何%となっていたものが、縦向き(列方向)での確率に計算し直せる。めちゃくちゃ使いやすい公式なのですけど、その詳細は前回記事、ないしは後述の議論に回すとして、ここでは計算結果に飛びます。下図の通り。
なんと、検査結果が陽性だったとして、あなたがウイルスに感染している確率はわずかに6.55%しかありません。93.45%の人というのは先ほどの条件のもとで、偽陽性、本当は感染していないのに陽性と出てしまうんだということが、前回わかってきた驚きの結果だったわけです。
一方で、陰性だとすると99.97%の確率でウイルスに感染していないということで、陰性の証明はできるけれども、陽性だとして、あなたが本当に感染している確率というのは、予想以上に低いんだ、ということが前回までわかったことでした。
今回のテーマ:何回検査をしたら、信頼できるか
あなたが1回目の陽性だとして自分が本当に感染しているのか自覚症状もないなあ・・・というようなときに、ここからあと何回検査したら、「あなたはほぼ確実に感染している」、「いや、あなたは感染していないんだ」と言えるのか。
実はこれをやっていくにあたって、先ほどのベイズの公式がまた使えてしまうんだ、というのが今日の話のポイントです。実は第2回目も全く同じ要領で問題が解けちゃうんです。2回目の検査だとしてもPCR検査条件変わらないわけですよね。
先ほどご覧いただいたこのウイルスに感染しているなら、陽性が0.7。陰性は0.3の確率で生じます。ウイルスに感染しないときは0.010、0.99です、という検査の精度条件は全く変わらないんです。条件として変わっているのは、あなた自身を巡る確率です。あなた自身が今何%ぐらいの確率で感染しているのか、この情報が1回目の検査を経て更新されているわけです。それっていうのがこの上側ですよね。
あなたは陽性の結果を得たとしたならば、そのときあなたがウイルスに感染して確率は6.55%、感染していない確率は93.45%。この前提条件のもとで、もう1回PCR検査をしたとするなら、どうなるでしょうか。皆さんはここから驚きの展開を目の当たりにします。
起こりうる事象を4象限の確率に割り振る
ここからは、ベイズの公式の考え方の復習編でもあります。あるいはこの動画からご覧になられた方は、ここで初めてベイズの公式に触れますが、今回だけで完璧に理解できます。
ベイズの公式で何をやるのかといえば、起こり得る全事象を、この4象限の確率に割り振ってみるという作業です。
まずこの表の左側を見ていただきたい。ウイルスに感染しているか、感染していないかの確率をこの上下に割り振る必要があります。この、感染している確率が、1回目の検査の結果、更新されています。1回目の検査で陽性という反応を得た時、あなた自身が今現在ウイルスに感染している確率は6.55%、感染していない確率が93.45%です。
この前提条件のもとで、2回目の検査が、再び陽性になるのは、このうちの7割。一方、陰性の結果が出るのは、このうち3割です。掛け算をすれば、それぞれの事象が発生する確率が求まります。
下段も同様です。1回目で陽性だったとしても、あなたがウイルスに感染していない確率は93.45%。ふたたび2回目も陽性となるのは、この内のわずかに1%。残りの99%は陰性が出る。こちらも同様に掛け算をしてやればよいのです。
計算結果は、こんな風になるわけなんですけれども、この赤枠で囲ったこの4つの数字を出すと、合計で1になっていることがわかると思います。すなわち、全事象の起こる確率が配分されていることになります。
こちらの結果を、縦の比率として計算し直せば、2回目の検査結果が陽性/陰性だった場合の、本当に感染している確率がわかる!
計算した結果が下図。吟味していきましょう。
検査結果が陽性だったときはどうか、第2回目の検査結果が再び陽性、すなわち2回連続で陽性のときは、あなたがウイルスに感染している確率は83.07%となる。急激に、感染している可能性が高まったことがわかると思います。1回目はわずかに6.55%だったことを考えると、2回連続で陽性になると、一気に疑わしさが高まってくるんだ、ということが分かったんじゃないかと思います。
驚きでしょ?この手法、凄いんです!これはベイズ更新といって、ベイズの公式を何度も繰り返していく=検査を何度も実施することによって精度がどれくらい変わってくるのか、ということがわかってきちゃうわけなんです。
一方で、1回目が陽性という結果だったとして、2回目で陰性だったとするのはどうでしょうか?と・・・。
この時あなたは97.92%確率でウイルスに感染していない。かなり高い確率であなたは、未感染だということがわかるわけなんです。1回目で陽性だったとしても、もう1回検査して陰性だったとする。陽性・陰性と結果が二つに分かれたとして、これは半々だって意味じゃないんです。ベイズの公式から導かれる結論は、陽性・陰性が1回ずつ出たとき、っていうのは、なんと97.92%もの確率であなたは未感染なんです。
これはめちゃくちゃ大切な知識だと思います。
数学って大切。統計学って大切ですね。この手法を知ってるか、知らないかで、あなたはこの検査結果の読み方を読み間違えてしまう可能性があるわけなんです。
2回連続で陽性のとき、3回目の検査をしたら
いいですか?2回連続で陽性だったとして、まだ83%。ということは、それでもまだあなたがウイルスに感染しない確率が16.93%。6回に1回ぐらいはそんなことが起こってしまうんだってことがお分かりいただけたんじゃないかと思います。
まとめておきましょう。一般的に言って、病気の簡易検査というのは大体先ほど見たような検査の精度になっているんです。すなわち、多くの疾病において簡易検査というのは、陰性は信頼していいです。一度でも陰性が出たならばかなり信頼ができますが、陽性が2回出たところでも、まだまだ信頼には足りない、特に自覚症状がないような状況では陽性が2回簡易検査で出たとしても、まだまだ疑わしさが残る。それが病気の検査というものなんです。
だからこそ、科学的検査に加えて、自覚症状があなたはありますか?といったような情報も加味しなければ、本当に病気にかかっているか、ということは分からないんだということ。はたまた簡易検査だけでは駄目で、疑わしさが残ったときには、精密検査をしてみる。というふうにステップを進める。これが大切なことなんです。
ちなみに、簡易検査を3回やったらどうなるのか?っていうのをパッと結果だけをお見せしておこうと思います。興味がある方はぜひ計算、復習の為にやってみてもらってもいいと思いますが、3回やると、2回連続で陽性で3回やるとどうなのか、3回目を陽性が出たならば、あなたは99.7%感染していると言えるわけなんです。
で、一方この場合は、3度目に陰性という結果が出たとしても、陽性・陽性・陰性と2回陽性が出ているため、今度は陰性の方が信頼できなくなってくるんですね。なんと、陰性という結果が出ても59.79%であなたウイルスに感染している。
これが意味していることがわかるでしょうか?3回連続で陽性が出たら、今度は陽性という結果は信頼に至る。あなたは感染している!ということが証明できるのに、今度は陰性が証明できなくなるんですね。
3度目で陰性だという結果が出ても、いや・・・でも感染している可能性が高いんだ。ということが出たら、もうイタチごっこじゃないですか。
結論、簡易検査だけでは、結局、陽性・陰性と結果が揺れ続ける限りには、イタチごっこになってしまうわけなのです。明確な判定が得られるまで検査をしまくれ、は科学的には相当な暴論なのです。
ベイズ更新
さて、統計学の学びのまとめを、ここでやっておきたいと思います。今、皆さんに見ていただきました、ベイズの公式を使って何度も何度も確率を更新していくという手法のことをベイズ更新といいます。
最初に、確率として、あなたは何%の確率で感染していますよ、というものが与えられている。そして、検査の結果は一般的にこうなんですという条件があり、それを踏まえた上で検査結果を見たならば、あなたの感染確率はこう変わりますよ、ということが分かります。これを何度も何度も繰り返して、あなたの感染確率はどれくらいなのか?試行を繰り返すごとに更新していくというのが、ベイズ更新です。
ベイズ更新は、さまざまな分野で活用されている
実はこれは産業界においても非常によく使われています。
例えば、この発想が古来使われてきたものとしては、サンプリングに基づく不良品の判定ですね。製造業や小売業などで入荷しました。部品や材料や野菜とかそういうやつですね、そのうち抜き取り検査をするわけですね。
1回目で不良品が出たとして、それでもまだロット全体が不良品だと決めつけるわけにはいかない、ということで、確率が求まるわけですよね。1回目でアウトって判定が出たとするならば、ロット全体が疑わしい確率が何%出る、2回目サンプリングをする、2回目も不良品でした。
そうなってくると、かなり確率高いわけですね、このロットが信用ならないよね、という確率は90%。そういう確率は上がってくるわけで、何回抜き取り検査をすれば、概ねそのロットは信頼がおけるのは計算ができるわけです。
なので、20世紀から、製造業や小売業などでこのサンプリングにおいては、ベイズ更新の考え方が使われまして、こういう商品の場合だと、何回抜き取り検査をすればいいだろうか?抜き取り検査に基づいて、何回その中に不良品が出てきたらアウトなのか?ということが既に計算上わかっているので、これが産業界で応用されています。
あるいはですよ、数学を使わないにしてもこの発想自体が応用されているっていうものもあるんです。
例えば人事の採用面談。新卒の人とかって4回5回って何度も面談するじゃないですか。人事の担当者さん、人事部長さん執行役員さん最後は社長さんまで、という形で何度もチェックしますが、この理由、ベイズ更新を理解すれば、おわかりいただけますよね。
何度も検査方法変えて、1人目の人が、彼は良い人材だ。二人目の人も彼は良い人材だ、3人目の人も彼は良い人材だ、ということで、良い人材判定が2回3回と繰り返されたら、その人材が優秀な人材である可能性、ぐんぐんと伸びていくわけです。1回だけ見ただけだと、それだけではその人材の優秀さはわからないけれども、何度もやると一気にその人材の信頼性が高まっていく。そんな形でこのベイズ更新の考え方っていうのは、白黒つけなきゃいけない状態、良い悪いを判定しなきゃいけないような問題で、幅広く産業界で応用されています。
最後に。この発想、機械学習にめちゃくちゃ相性がいいわけです。データが入ってきました結果、白黒の確率が変わっていく。機械を使って厳密に白黒つけなきゃいけない状況って、例えばこんなものがあります。
このメールはスパムメールですか?違いますか?と、スパムメールは条件にこういうものがあります。ということで、最初の1回目の検査、まずここをチェックしてみましょう。「文章内にこういうワードありませんか、ありますね?」と、あるとスパムである確率がこのくらい、無いとこのくらいです。
次は、宛先を見てみましょう。こういうところが宛先になっていると確率はどうなりますか。3回目の検査、出し元のメールアドレスを出している人、メールアドレスにこういう文字が入ってとスパムになる確率が上がります。
このようにチェックポイントごとによって、どんどんどんどん判定をしていきます。そして、「これはスパムの確率が99.9%。いや違うこれはスパムの確率が低いんだ」という形で分類するものが、スパムメールの分類です。あるいは、スパムのみならず、最近だとメールのアドレスで、色々なところのフォルダに振り分けてくれるのがありますよね。
あれは、どストレートにベイズ更新をそのまま迷惑メール判定に使っています。ベイジアンフィルタと言われます。
はたまた、画像解析なんかでもそうです。男の人、女の人を判定する、あるいはこの人は誰々さんであるということを判定する、そんなときに、マシーンの中で行われているのも、様々な情報をポイントでチェックしていって、男性である確率・女性である確率というのを判定していきます。あるタイミングで閾値を超えて、99.9%この人は女性だな、となったら「この人は女性であろう」と、こんな感じでしょう。
このベイズの更新というのは、今この現代社会において中核部分となってきてすらいるわけなのです。そんなわけで、この現代における最重要技術の一つであって、そして皆さんにとっても、感染確率みたいなところで身近に大切になってくるのが、ベイズ更新の発想です。ぜひ学んでいただければと思います。
Comments