浅显易懂 · 直面陷阱 · 拒绝忽悠
统计学不是数学游戏,而是应对不确定性的防身术。在现实世界中:
总体(Population):你想研究的所有对象(上帝视角)。
样本(Sample):实际测量的一部分对象(人类视角)。
场景:你想知道超市这批苹果甜不甜。
统计学就是研究:"怎么选这5个(不让老板打你)"和"推断有多靠谱"。
| 类型 | 目的 | 潜台词 |
|---|---|---|
| 描述性统计 | 总结现状 | "我看到了什么。"(不承担预测风险) |
| 推断性统计 | 猜测未知 | "我觉得大家都这样。"(要承担被打脸的风险) |
所有数加起来除以个数。缺点:极其脆弱。
公司5个人的月薪:5k, 6k, 6k, 7k, 50k (老板)
平均数 = 1.48万。
排序后正中间的数。50k 把平均数拉高了,但中位数还是 6k。这才是真相。
别光看理论,输入一组数字体验一下“极端值”如何摧毁平均数。
尝试输入:1, 2, 3, 100
A班:78, 79, 80, 81, 82 → 平均80,很稳。
B班:50, 60, 80, 100, 110 → 平均80,疯了。
衡量数据离平均值有多远。如果你把头放进烤箱,脚放进冰箱,平均温度是很舒适的,但你会死。 这就是为什么需要看标准差。
怎么算出来的?(点击查看)
我们看到一个现象(新药治愈率高5%),怎么判断:
p值:假设药根本没用,却碰巧出现这么好结果的概率。
P = 0.03 意味着:如果药是假的,只有3%的概率能骗出这个数据。
概率太低,所以我们选择相信药是真的。
单个数字(点估计)太武断。与其说"明天气温25度",不如说"明天23-27度"更靠谱。
95% 置信区间:如果我们要重复做这个实验100次,算出的区间有95个会包含真实的总体均值。
只要数据符合正态分布(钟形曲线,大部分自然现象都符合),我们就能用标准差 ($\sigma$, Sigma) 来快速判断概率。
民调:支持率 48%,95%区间 [45%, 51%]
解读:
相关系数 r:衡量两个变量一起跳舞的同步率。
| 流派 | 思路 | NG的话 |
|---|---|---|
| 频率派 | 数据就是一切 | "我不带偏见,让数据说话。"(即使数据很荒谬) |
| 贝叶斯派 | 信念 + 数据 | "我有常识,只有强有力的证据能改变我的看法。" |
Posteriors = Priors × Likelihood
背景:某种病发病率只有 0.1% (基础概率/先验)。检测准确率99%。
你阳性了。你得病的概率是多少?99%?
贝叶斯告诉你:只有约 9%。
原因:健康的人太多了(99.9%),即使只有1%的误报,误报的总人数也远超真正的病人。
教训:忽略基础概率是人类大脑最大的Bug。
符合人类实际决策过程(看天气预报说有雨,但你看到窗外艳阳高照,你会综合两者决定带不带伞,而不是只信预报)。