贝叶斯相关问题
阳性发病率问题
已知有一种疾病,发病率是0.1%。针对这种疾病的测试非常准确:
- 如果有病,则准确率是99%(即有1%未检出阳性);
- 如果没有病,则误报率是2%(即有2%误报为阳性)。
现在,如果一个人测试显示阳性,请问他患病的概率是多少?
用H表示患病,E表示测试为阳性,那么,我们要计算在测试为阳性的条件下,一个人患病的概率,就是计算P(H|E)。根据贝叶斯定理,计算如下:
P(H∣E)=P(E)P(E∣H)×P(H)
P(H)表示患病的概率,根据发病率可知,P(H)=0.1%;
P(E|H)表示在患病的情况下,测试为阳性的概率,根据“如果有病,则准确率是99%”可知,P(E|H)=99%;
P(E)表示测试为阳性的概率。这个概率就稍微复杂点,因为它是指对所有人(包含病人和健康人)进行测试,结果阳性的概率。
我们可以把检测人数放大,例如放大到10万人,对10万人进行检测,根据发病率可知:
- 有100人是病人,另外99900是健康人;
- 对100个病人进行测试,有99人显示阳性,另有1人未检出(阴性);
- 对99900个健康人进行测试,有2%=1998人显示阳性(误报),另有98%=97902人为阴性。
下图显示了检测为阳性的结果的分布:
┌───────┐
│100000 │
└───────┘
│
┌───────┴───────┐
▼ ▼
┌───────┐ ┌───────┐
│ 100 │ │ 99900 │
└───────┘ └───────┘
│ │
┌───┴───┐ ┌───┴───┐
▼ ▼ ▼ ▼
┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐
│ 99 │ │ 1 │ │1998 │ │97902│
└─────┘ └─────┘ └─────┘ └─────┘
│ │
▼ ▼
+ +
所以,对于10万人的样本空间来说,事件E=显示阳性的概率为(99+1998)/100000=2.097%。
带入贝叶斯定理,计算P(H|E):
P(H∣E)=P(E)P(E∣H)×P(H)=2.097%99%×0.1%=0.020970.99×0.001=0.04721=4.721%
计算结果为患病的概率为4.721%,这个概率远小于99%,且与大多数人的直觉不同,原因在于庞大的健康人群导致的误报数量远多于病人,当出现“检测阳性”的证据时,患病的概率从先验概率0.1%提升到4.721%,还远不足以确诊。
红蓝球问题
有两个装满大量卡片的盒子,其中一个70%是红色,30%是蓝色;另一个30%是红色,70%是蓝色。
现在随机选择了一个盒子并取出了12张卡片,其中有8张是红色,4张是蓝色。
那么,请问这些卡片取自第一个盒子的概率是多少?

股票预测器
你有2个预测器,每个预测器在晚上会显示“涨”或者“跌”,来预测明天股市是涨还是跌。
根据历史统计,每个预测器预测的准确率都是0.7,并且预测器之间的预测结果是独立的。
今天晚上,2个预测器,都显示“涨”。
请问:明天股市涨的概率是多少?

蓝车绿车
一辆出租车在夜晚肇事后逃逸,而这座城市有红色和蓝色两种出租车,该城市红色出租车占85%。现在有以下信息:
一位目击证人辨认出出租车是蓝色的,当晚警察在案发地对证人的证词进行了测试,得出结论:目击者在当时情况下能够辨认出出租车颜色的概率是80%,错误的概率是20%。
那么,各位读者觉得肇事的出租车是蓝色而不是红色的概率是多少呢?
男孩女孩问题
一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?