练习

1. 中国人生活水平问题

你认为应该用什么样的数字来度量中国人的生活水平变化？尝试找到这样的数据源并画出图看看。用这种数字来衡量有什么样的缺点？

生活水平度量标准：

工资水平和物价水平的对比值。
工资水平用平均工资来衡量，物价水平用消费者物价指数衡量。

数据：

最新物价水平数据：2015年12月份居民消费价格同比上涨1.6%

工资数据只有2014年的：20省份2014年平均工资出炉看看你拖后腿了吗？-中新网

居民消费价格指数也换成2014年分省份的：全国各省居民消费价格指数

绘图：

北京的非私营单位人员生活水平最高。

缺陷：
1. 物价比较粗，各种消费品物价水平差异比较大。
2. 工资不能代表收入。这个指标忽略了工资之外的收入。
3. 这种衡量标准未涵盖到房价对生活水平的影响。因房子还不是消费品。
4. 平均值不能考虑到数据的离差。
5. 来源数据中发达省份缺少江苏、上海这样的省份，导致北京一家独大的情况。

2. 双盲实验

理解什么是双盲实验

参考：双盲 - 维基百科，自由的百科全书

双盲试验通常在试验对象为人类时使用，目的是避免试验的对象或进行试验的人员的主观偏向影响实验的结果，通常双盲试验得出的结果会更为严谨。

在双盲试验中，受试验的对象及研究人员并不知道哪些对象属于对照组，哪些属于实验组。只有在所有资料都收集及分析过之后，研究人员才会知道实验对象所属组别。

提了实验过程中的三种对象：被试（对象A），实验执行人（对象B），实验数据收集和结果分析统计的人（对象C）。
盲是指对哪些是实验组，哪些事对照组的盲。

只有对象A盲，为单盲；对象A和对象B盲，为双盲；对象A、对象B和对象C均盲，为三盲。

用来对付皮格马利翁效应的利器！！！

3. Google ngram

学习使用google ngram服务，并研究你关心的某一组词汇的变化。

地址：Google Ngram Viewer
谷奥的介绍：Google Books Ngram Viewer 全球书籍词频统计器，支持中文（附彩蛋） | 谷奥——探寻谷歌的奥秘
数据可靠性：Google实验室新品Books Ngram Viewer：数据的可靠性 – 编目精灵III

Google利用手里的520万本数字化书籍制作了一个书籍词频统计器Google Books Ngram Viewer，正式作为Google Labs一员发布。你可以对比多达5个词语在每年出版的图书里出现的次数多寡，支持英语、法语、德语、俄语、西板牙语和中文。

更棒的是所有数据都以创作共用形式授权免费下载和使用，目前的数据截止于2009年7月，Google说随着他们扫描更多的图书会一直持续更新这些数据。

children, education的搜索结果：Google Ngram Viewer

儿童，教育（在简体中文下）的搜索结果： Google Ngram Viewer

中英文世界中，这两组词的数量和趋势都不相同。
在中文世界中，1920年代的教育一词出现很高。那正是民国诸人都在论教育的年代。

4. Simpson's Paradox

理解什么是Simpson's Paradox

参考：
Simpson's paradox - Wikipedia, the free encyclopedia
辛普森悖论 - 维基百科，自由的百科全书
后者更翔实。

法学院和商学院的招生，更多的女生涌向死得更多的法学院，更多的男生涌向活得更多的商学院。因男生总体数量大于女生，于是最终存活率更高。

和贝叶斯定理一样，比例并不决定一切，基数/数量和比例结合才说明问题。如果数量差别比较大，那基本上数量就能决定结果了。

5. 贝叶斯定理

学习贝叶斯定理，做下题

已知某种疾病的发病率是0.001，即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病，它的准确率是0.99，即在患者确实得病的情况下，它有99%的可能呈现阳性。它的误报率是5%，即在患者没有得病的情况下，它有5%的可能呈现阳性。现有一个病人的检验结果为阳性，请问他确实得病的可能性有多大？

参考：深入浅出数据分析 (豆瓣)第六章

解：

假设总人数1000，得病1人，未得病999人。

对他们进行试剂检验：
得病的人中，阳性为1*0.99=0.99，阴性为1-0.99=0.01
未得病的人中，阳性为999*0.05=49.95，阴性为999-49.95=949.05

总阳性人数为0.99+49.95，其中得病的人未0.99，未得病的人为49.95。
所以检测结果为阳性的人，得病的概率为： 0.99/(0.99+49.95)*100% = 1.94%

结论：
该病人得病的可能性为1.94%。

反思：
个人认为，贝叶斯定理的重要思想就是重视小群体样本在总群体中的位置，消除特殊群体在总群体中的偏见。