はじめに
ベイズ定理を利用した分類機を、ナイーブベイズ分類器とよびます。スパムフィルターとして使われており、聞いたことがある人も少なくないと思います。ベイズ分類器は実装が簡単な上に、出力値が確率であるため扱いやすく、ポピュラーな学習モデルです。 当サイトでは長い理論説明はせず、必要最低限の数式をで説明していこうと思います。
具体的なベイズ定理
男性のタバコを吸う人が肺癌になる確率 を求めます。タバコを吸ったら肺がんになるという確率は普通はわかり得ません。ただこの確率が、世の中の肺がん率、喫煙率、肺癌患者の喫煙率が解れば、ベイズ推定で求めることができるのです。
ベイズ式は以下のように表されます。
Pr( A | B ) = Pr( B | A ) * Pr( A ) / Pr( B )
それぞれは次のとおり定義します。
- Pr( A ) = 肺癌率
- Pr( B ) = 喫煙率
- Pr( A | B ) = 喫煙者の人が肺癌になる確率
- Pr( B | A ) = 肺癌の人が喫煙者である確率
なお、サイトに寄っては次のようにも書かれたりしています。
P(A|B) =\frac{P(A \cap B )}{P(B)} = \frac{P(B|A)P(A)}{P(B)}罹患率等のデータの取得
実際に喫煙者の人が肺癌になる確率を求めます。喫煙率、肺がん率、肺癌患者の喫煙率を入手する必要があり、ネットで検索してみました。
男性の肺癌患者の30%はタバコによるガンだそうです[1]。そこで、式4. 喫煙者の人が肺癌になる確率は次のように定義できます。
4. Pr( B | A )=0.3 (喫煙者の人が肺癌になる確率)
続いて、肺癌率は男性の場合は7.4%[2], 男性の喫煙率は29.4%[3]なので, Pr(A), Pr(B)はそれぞれ次のように定義できます。
1. Pr(A) = 0.074(男性肺癌率)
2. Pr( B ) = 0.294 ( 男性喫煙率)
必要な確率は全て知り得たので、最終的なタバコを吸うと肺癌になる確率を求めます。最初の数式にそれぞれの確率を当てはめます。
Pr( A | B ) = 0.3 * 0.074 / 0.294 = 0.075
上記の通り、約7.5%の確率でタバコを吸うと肺癌になることが判明しました。通常、タバコを吸って肺癌になる確率は解るはずはありませんが、ベイズの定理を用いて求めることができるようになるのです。しかしながら、喫煙は8%弱肺癌に寄与するというのはなんとも面白い結果となりました。
ベイズ分類器
ベイズの定理を見たところで、実際にをどうやって分類器として力を発揮できるかを考えます。
ベイズ分類器では、左側のベイズ理論を右側のように仮定していきます。
P(Y|X) = \frac{P(X|Y) \times P(Y)}{P(X)}上記式は次のようにベイズ分類機では意味すると当てはめています。
Posterior = \frac{Likelifood \times prior }{ evidence }なお、Likefoodは尤度、Priorは事前分布、Evidenceは周辺尤度と呼ばれています。
尤度であるP(X|Y) 、それから事前分布であるP(Y)は学習データから入手します。今次のような学習データがあったとします。次の学習データセットはエジンバラ大学の教材[4]を参考にしました。以下の表は頻度表といわれます。
天気 | 気温 | 湿度 | 風速 | ゴルフ |
晴れ | 暑い | 高い | なし | NO |
晴れ | 暑い | 高い | あり | NO |
曇り | 暑い | 高い | なし | YES |
雨天 | 普通 | 高い | なし | YES |
雨天 | 寒い | 普通 | なし | YES |
雨天 | 寒い | 普通 | あり | NO |
曇り | 寒い | 普通 | あり | YES |
晴れ | 普通 | 高い | なし | NO |
晴れ | 寒い | 普通 | なし | YES |
雨天 | 普通 | 普通 | なし | YES |
晴れ | 普通 | 普通 | あり | YES |
曇り | 普通 | 高い | あり | YES |
曇り | 暑い | 普通 | なし | YES |
雨天 | 普通 | 高い | あり | NO |
ここで、X=( 天気、気温、湿度、風速), そしてY=( ゴルフ )となります。YのYESはゴルフした、Noはゴルフをしなかったという意味です
P( X | Y ) と P( Y )を上記の表から当てはめます。
P(Y=YES)=\frac{ YES 数}{ YES 数+NO数} = \frac{9}{14} P(X=晴れ|Y=Play) = \frac{ YES 数 \cap 晴れ数}{ YES 数} = \frac{2}{9}。
P(X|Y)のXは1つだけで説明しましたが、Xが複数条件の時も知りたくなるかもしれません例えば外が晴れ&寒い時にはゴルフするのかどうかなどです。一件わかりますが、寒い&晴れているなどのXの条件数が多くなるほど計算は複雑になります。状態数が多くなるためです。
そこでXの要素はすべて独立しているという仮定を置きます。そうすることで次のように書き換えることが可能となります。
P(X=晴れ,X=寒い| Y ) = P(X=晴れ|Y) P(X=寒い|Y)
独立という仮定をおくことで、分割することができるようになるのです。こうすることでパラメータ数は非常にが少なくなり(具体的には指数関数が線形になり)高次元のデータでも扱うことができるようになります。
データが独立という仮定を置かれている所以がナイーブ(雑)と言われている理由です。
迷惑メールフィルター実装例
実際にベイズ推定を用いた迷惑メールフィルターがどのように作られるのか説明します。
迷惑メール 30通中を受信したとします。迷惑メールの中で次の単語「バイアグラ」、「限定品」、「機械学習」という単語が含まれた表、頻度表を作成します。次のようになりました。
バイアグラ | 限定品 | 機械学習 | |
回数 | 7 | 17 | 0 |
迷惑メールが30通ですので、ここから尤度表を作成することができます。単に母数で除算するだけです。
バイアグラ | 限定品 | 機械学習 | |
YES | 7/30 | 17/30 | 0/30 |
NO | 23/30 | 13/30 | 30/30 |
尤度表から、例えば「バイアグラ」が入り、「限定品」が入っていない場合の迷惑メールの確率 P( 迷惑メール | バイアグラ ∧~限定品)を求めることができます。
\frac{P( バイアグラ \cap\lnot限定品 | 迷惑メール) P(迷惑メール)}{ P( バイアグラ\cap \lnot 限定品 )}さて、ここで∧の条件は独立である場合分解できるということを説明しました。そのため、上記式は次のように分解できます。
\frac{P( バイアグラ| 迷惑メール) P( \lnot 限定品 | 迷惑メール) P(迷惑メール)}{ P( バイアグラ ) P( \lnot 限定品 ) }続いて迷惑メールでない 正常なメール100通のうち、先程の単語についての尤度表を作成してみます。
バイアグラ | 限定品 | 機械学習 | |
YES | 1/100 | 1/100 | 7/100 |
NO | 99/100 | 29/100 | 23/100 |
ゆう土俵から、正常なメールの確率は次のとおりとなります。
\frac{P( バイアグラ| 正常メール) P( \lnot 限定品 | 正常メール) P( 正常 メール)}{ P( バイアグラ ) P( \lnot 限定品 ) }これで準備が整いました。メールに「バイアグラ」& NOT「限定品」 の条件 で迷惑メールと正常メールのどちらに分類されるかの確率を求めます。今、分母が共通していますので、分子の部分だけに着目して計算をします。(何故分母は無視したのかは後述します)
迷惑メールの尤度= P( バイアグラ| 迷惑メール) P( \lnot 限定品 | 迷惑メール) P(迷惑メール) = 7/30 * 13/30 * 30/130= 0.023
正常メールの尤度= P( バイアグラ| 正常 メール) P( \lnot 限定品 | 正常 メール) P( 正常 メール) = 1/100 * 29/100 * 100/130 = 0.0022
実はこれだけで、この種のメッセージが迷惑メールである確率をもとめることができます。次式で求まります。
0.023/(0.023 + 0.0022 )=0.912
よく見るとわかりますが、算出された合計の尤度で、該当尤度を除算するだけです。結果として、バイアグラを含み、限定品を含まないメールは、おおよそ91.2%が迷惑メールであるということがわかりました。このように尤度をすべて足しこんだ値を、該当の尤度で割ることで、それぞれのメールの確率がわかります。
分母を省略した理由ですが、分母が共通しています。確率を計算するときに打ち消し合って消えるので無視できるのです。
参考文献
- https://www.sankei.com/life/news/180104/lif1801040007-n1.html
- https://www.haigan.gr.jp/guideline/2018/1/1/180101000000.html
- https://ganjoho.jp/reg_stat/statistics/stat/smoking.html
- http://www.inf.ed.ac.uk/teaching/courses/inf2b/learnSlides/inf2b12-learnlec06.pdf