贝叶斯相关问题

阳性发病率问题

已知有一种疾病,发病率是0.1%。针对这种疾病的测试非常准确:

现在,如果一个人测试显示阳性,请问他患病的概率是多少?

用H表示患病,E表示测试为阳性,那么,我们要计算在测试为阳性的条件下,一个人患病的概率,就是计算P(H|E)。根据贝叶斯定理,计算如下:

P(H∣E)=P(E)P(E∣H)×P(H)​

P(H)表示患病的概率,根据发病率可知,P(H)=0.1%;

P(E|H)表示在患病的情况下,测试为阳性的概率,根据“如果有病,则准确率是99%”可知,P(E|H)=99%;

P(E)表示测试为阳性的概率。这个概率就稍微复杂点,因为它是指对所有人(包含病人和健康人)进行测试,结果阳性的概率。

我们可以把检测人数放大,例如放大到10万人,对10万人进行检测,根据发病率可知:

下图显示了检测为阳性的结果的分布:

           ┌───────┐
           │100000 │
           └───────┘
               │
       ┌───────┴───────┐
       ▼               ▼
   ┌───────┐       ┌───────┐
   │  100  │       │ 99900 │
   └───────┘       └───────┘
       │               │
   ┌───┴───┐       ┌───┴───┐
   ▼       ▼       ▼       ▼
┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐
│ 99  │ │  1  │ │1998 │ │97902│
└─────┘ └─────┘ └─────┘ └─────┘
   │               │
   ▼               ▼
   +               +

所以,对于10万人的样本空间来说,事件E=显示阳性的概率为(99+1998)/100000=2.097%。

带入贝叶斯定理,计算P(H|E):

P(H∣E)=P(E)P(E∣H)×P(H)​=2.097%99%×0.1%​=0.020970.99×0.001​=0.04721=4.721%

计算结果为患病的概率为4.721%,这个概率远小于99%,且与大多数人的直觉不同,原因在于庞大的健康人群导致的误报数量远多于病人,当出现“检测阳性”的证据时,患病的概率从先验概率0.1%提升到4.721%,还远不足以确诊。

红蓝球问题

有两个装满大量卡片的盒子,其中一个70%是红色,30%是蓝色;另一个30%是红色,70%是蓝色。

现在随机选择了一个盒子并取出了12张卡片,其中有8张是红色,4张是蓝色。

那么,请问这些卡片取自第一个盒子的概率是多少?

image.png

股票预测器

你有2个预测器,每个预测器在晚上会显示“涨”或者“跌”,来预测明天股市是涨还是跌。

根据历史统计,每个预测器预测的准确率都是0.7,并且预测器之间的预测结果是独立的。

今天晚上,2个预测器,都显示“涨”。

请问:明天股市涨的概率是多少?

image.png

蓝车绿车

一辆出租车在夜晚肇事后逃逸,而这座城市有红色和蓝色两种出租车,该城市红色出租车占85%。现在有以下信息:

一位目击证人辨认出出租车是蓝色的,当晚警察在案发地对证人的证词进行了测试,得出结论:目击者在当时情况下能够辨认出出租车颜色的概率是80%,错误的概率是20%。

那么,各位读者觉得肇事的出租车是蓝色而不是红色的概率是多少呢?

男孩女孩问题

一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?

贝叶斯分类器——品种鉴定

基于贝叶斯的品种预测