「One of DBD」Vol.6 わりと身近なベイズ推定

f:id:data-h-products:20210120151512p:plain

自己紹介

  • 初めまして。DBD事業本部入社3年目の荒牧です。主に広告/施策の貢献量把握や、予算配分の最適化、未来予測など、データ分析周りを手広く行なっております。

    今日はデータ分析を生業にしている方なら一度は耳にしたことがあるであろう、「ベイズ推定(統計学)」についてお話ししたいと思います。

    実はこれ、皆さんも日々知らず知らずのうちに活用しています。ベイズという言葉を初めて聞いたという方は、ぜひ一緒に考え方だけでも勉強してみましょう。

ベイズの定理とは

  • ベイズという名称はトーマス・ベイズという方の名前に由来しており、ベイズ推定の基となっているベイズの定理は以下の式で表されます。
f:id:data-h-products:20210120170207p:plain
  • 確率に関心がある方は理解できると思いますが、普段の生活では見かけない数式ですよね。

    数式の理解が目的ではないので説明は割愛しますが、この理論は以下のような場面で活用されています。

    • ネットの検索エンジンの予測変換
    • 迷惑メールのフィルタリング
    • ECサイトのレコメンド機能

    こう言われると我々の身近に存在する理論だということがお分かりいただけるかと思います。

PCR検査とベイズの推定

f:id:data-h-products:20210120152628p:plain
  • 最近では、PCR(Polymerase Chain Reaction)検査を受けた結果、陽性反応が得られたとき、その人がコロナウイルスに感染している確率はどのくらいか、といった話がネットの片隅で賑わっていましたが、ここでもベイズ推定が活用されていました。

    PCR検査の結果が陽性だったのであれば、感染しているであろうと判断されがちですが、この世に検査結果が100%正しい検査は存在せず、偽陽性(感染していないが、陽性反応が誤って出てしまう)だという可能性も少なからずあるため、100%感染しているとは言い切れないのです。(あくまで確率の話ですので、陽性の場合はそれに準じた対応が必要です。)

    長々と話してしまいましたが、ベイズ推定とは要は「ある行動(情報)が得られた時に、状態Aである確率を、行動(情報)を基に考え直すこと」と考えてもらえれば良いと思います。上記の例では、PCR検査で陽性反応という「情報」が得られたときに、その人が感染者である確率を算出し直すということです。

  • 上記の例を用いてベイズ推定の流れをお話しすると、順序としては以下になります。

    • ① 事前分布を設定。
    • ② 行動(情報)が得られる。
    • ③ 事後分布を推定し直す(算出し直す/考え直す)。

    分布の説明に入ってしまうと、ややこしくなってしまいますので、これも割愛させてください。①はPCR検査を受ける前に、ある人(Aさん)が感染している確率、②はPCR検査を受けた結果の情報(陽性or陰性)、③は検査結果を考慮して、Aさんが感染している確率を算出し直す、と考えることができます。

    Aさんの体調が悪かったとして、①の時点ではAさんがコロナウイルスに感染している可能性(確率)は、「体調が悪い」という情報しか根拠がないため、風邪やインフルエンザ等、様々な可能性が考えられます。しかしながら、PCR検査を受診することで、「体調が悪い」「PCR検査結果」という2つの情報が根拠となり、コロナウイルスに感染している確率をより高い精度で算出し直すことができるというわけです。

    ベイズ推定は③の結果を①に置き直すことで、①→③の流れを繰り返すことができ、より現実的な確率に近付けていくことが可能です。皆さんも日常生活において、「何かしらの情報を基に改善していく」といった行動はきっと行なっています。それと同じです。

ベイズ推定の応用

  • ベイズ推定は重回帰分析や、機械学習等、いろんな分析手法に絡めることができる理論であり、様々な場面で活用されています。実際に私も業務でこのベイズ推定を活用して、時系列分析やモデリング等を行なっております。

    今回お話ししたベイズ推定の順序例③において、「コロナウイルスに感染している確率を算出し直す」と記載していますが、詳細に述べると、「コロナウイルスに感染している確率分布の期待値を、分布を推定し直すことで、算出し直す」となります。また、確率の分布を扱えるところがベイズ推定の利点であったりもするのですが、これらの話はまたどこかでできればと思います。

 

※条件付確率(とある条件下での確率)とベイズの定理は混同されやすいですが、条件付確率は時間の流れに沿って「Aが起こったときの結果Bの確率」を求めるものです。ベイズの定理は条件付確率の逆確率であり、時間の流れに逆らって「結果Bを得たときのAの確率」を求めるものと考えられます。