-
Notifications
You must be signed in to change notification settings - Fork 0
/
appendix.qmd
92 lines (51 loc) · 12.5 KB
/
appendix.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
# (APPENDIX) 附录 {#appendix .unnumbered}
# 统计反思 {#statistical-rethinking}
```{r setup-appendix, echo=FALSE}
source(file = "_common.R")
```
```{=html}
<!--
https://github.com/XiangyunHuang/masr/issues/19
Epilogue 结语 后记 afterword postscript backmatter
序言 序幕 preface foreword prologue
-->
```
数据分析是未来,涉及一系列的问题,如何出发,如何分析,如何理论,如何收获,如何应用,如何推广。用 R 语言讲好数据故事 [@Machlis2018]。
Karl Pearson 那个时代,生物统计系,达尔文进化论能被人所接受,我觉得很大部分是因为有大量的数据所支撑,来自世界各地的人给实验室寄去了各类标本,实验室做了大量的数据分析工作,主要的工具就是描述性统计(如均值、方差、相关系数等)和 Pearson 卡方检验(后来被 R. A. Fisher 改进了自由度),当时已经有线性模型、Pearson 相关系数,但是没有构建严格的数学理论,这个严格化的工作,包括假设检验等,后来主要由 Jerzy Neyman 和 Egon S. Pearson 完成。如果大家去仔细看相关的历史故事,会发现和如今有惊人的相似之处,就是算法和模型等工具已经在广泛使用,但是不知道它的理论基础,比如现在的深度学习为什么那么有效,这也同样带给人非常大的兴奋点,按照历史的发展轨迹来看,其严格化的数学基础应该会在我辈有生之年里建立起来。这方面的典范是从可加逻辑回归这一统计模型的角度看梯度提升[@Friedman2000],2017 年 Bradley Efron 和 Trevor Hastie 接受剑桥大学出版社[采访](https://youtu.be/quoU5fjKBqo)时也表示了同一观点,读者不妨结合历史资料给出一个时间轴图。高尔顿受其近亲表兄达尔文的影响,在生物遗传方面做了大量的数据分析和研究工作,最经典、也最让人津津乐道的工作莫过于回归的发现,孩子身高和父母身高的关系,及用来解释的高尔顿板。杂志网站 <https://fivethirtyeight.com/>,它涉及设计、政治、经济、体育和其它事件,以数据驱动为原则 [@fivethirtyeight2018],提供完整的[数据和代码](https://github.com/fivethirtyeight/data),保障可重复性。
数据分析、可视化、探索性分析、可解释性、可重复性的关注度越来越高,其重要性不言而喻[@Tukey1977], 方差分析从一开始就是数据分析[@Scheffe1959],数据分析的未来 [@Tukey1962],数据分析设计原则 [@McGowan2021],数据科学的50年 [@Donoho2017],统计建模:两种文化 [@Breiman2001],[统计建模:三种文化](https://arxiv.org/abs/2012.04570),[过去50年最重要的8个统计概念](https://arxiv.org/abs/2012.00174),数据科学的统计原则[@Cressie2021]。借助 R 语言这一优秀的统计分析和计算环境,过渡到现代数据科学 [Modern Data Science with R](https://mdsr-book.github.io/mdsr2e/),数据科学导论:数据分析和预测算法[@Irizarry2019]。Gabriel Peyré 的著作数据科学的数学基础 [Mathematical Foundations of Data Sciences](https://mathematical-tours.github.io/book/),提供很多个语言版本的实现 [Numerical Tours of Data Sciences](https://www.numerical-tours.com/)。数据科学基石 [@Blum2020],数据科学的统计基础[@Fan2020]。
数据收集和组织管理是打造数据产品的基石,数据源头的可靠性,收集过程的规范性,组织的科学性,管理的合理性直接决定开发数据产品的效率和价值。数据可视化是相对靠后的一环,也是关键的一环!
- 稳定性:可重复性对任何科学发现都是至关重要的,是稳定性的重要方面,实现稳定性从数据扰动入手的有 Jacknife、bootstrap、交叉验证,从模型扰动入手有稳健统计 [@Yu2013]。可重复性危机是使用方式不当,甚至是滥用所致,Russell A. Poldrack 深有感触,故而回到写书的教育工作[@Poldrack2021]。
- 可视化:受 [Michael Friendly](https://www.datavis.ca/) 的著作《Visualizing Categorical Data》[@Friendly2000] 的启发,David Meyer 开发了 R 包 **vcd** [@Meyer06],而后,二人一起合著《Discrete Data Analysis with R》[@Friendly2016],Michael Friendly 继续开发了 [vcdExtra](https://github.com/friendly/vcdExtra) 包,扩展很多绘图能力。Antony Unwin 的《Graphical Data Analysis with R》[@Unwin2015] 和 Robert Kabacoff 的[Data Visualization with R](https://rkabacoff.github.io/datavis/) 非常适合入门。
- 可视化技术:将高维空间的数据映射到低维空间,即投影寻踪技术[@tourr2011; @tourr2020]
- 统计分析:贝叶斯数据分析经典教材当属 Andrew Gelman 等人合著的《Bayesian Data Analysis》 [@Gelman2013],读者可跟随 [Aki Vehtari](https://avehtari.github.io/) 的课程 [Bayesian Data Analysis](https://avehtari.github.io/BDA_course_Aalto/) 一起学习。Robert Kabacoff 的《R in Action: Data Analysis and Graphics with R》目前已经出到[第三版](https://github.com/Rkabacoff/RiA3)了。
- 统计模型与软件:混合效应模型[@Pinheiro1995; @Pinheiro2000; @Demidenko2013],稳健分析[@Maronna2019]等。 广义线性模型[@Nelder1972; @McCullagh1989; @Dobson2018],高维 glmnet [@Friedman2010; @Simon2011; @Kenneth2021]。 线性混合效应模型[@Jiang2021],相关 R 包 lmerTest [@Kuznetsova2017]、 lme4 [@Bates2015]、 FastLMM [@Christoph2011]。广义线性混合效应 [@Bolker2009],相关 R 包 [glmm](https://cran.r-project.org/package=glmm)、 glmmBUGS [@Brown2010]、[GLMMadaptive](https://github.com/drizopoulos/GLMMadaptive)、 [glmmTMB](https://github.com/glmmTMB/glmmTMB) [@Brooks2017]、MCMCglmm [@Hadfield2010]、 [glmmfields](https://github.com/seananderson/glmmfields) [@Anderson2018]、 [glmmLasso](https://cran.r-project.org/package=glmmLasso),[r2glmm](https://github.com/bcjaeger/r2glmm) 计算 $R^2$, cAIC4 计算 AIC [@Benjamin2021]。广义可加模型[@Wood2017; @Fasiolo2019],广义可加混合效应模型 spikeSlabGAM [@Scheipl2011]。空间广义线性混合效应 [@Zhang2002; @Warnes1987]。
- 统计检验:多重检验中的控制错误发现率 FDR [@Benjamini1995],功效分析 [@Cohen1988],列联表的统计分析 [@Fagerland2017]。关于假设检验,重新定义假设检验 [@Benjamin2017],统计假设显著性退休吧 [@Amrhein2019] 逃离 $p<0.05$ 的世界 [@Wasserstein2019]。
- 可解释性:模型的可解释性受到越来越多的关注和重视 [@Biecek2021; @Molnar2020],而因果关系的发现和利用变得越来越重要[@Miguel2020]。 可解释性机器学习的定义、方法和应用[@Murdoch2019]
- 新方向:《自然》杂志发布深度学习 [@LeCun2015] 开启深度学习的浪潮, 如雨后春笋,涉及数据科学的理论、模型、算法,机器翻译 [@Bruce2020],跟随新浪潮,国内神经网络相关的书籍也多如牛毛, 陆续翻译和创作了一批书籍[@Zhao2017; @Qiu2020; @Xiao2021; @Aston2019]。
- 机器学习理论:机器学习导论[@Zhou2016],机器学习的数学基础 [Mathematics for Machine Learning](https://mml-book.github.io/)[@Deisenroth2020],机器学习的贝叶斯和优化视角[@Theodoridis2020],机器学习的概率视角导论[@pml2022]和高级主题[@pml2023]。
- 统计理论:统计基础理论 [@Savage1972],统计学习理论 [@Vapnik1998; @Hastie2009],稀疏性主题[@Hastie2015],统计学习应用 [@James2021],计算机时代的统计推断[@Efron2016]。如何从统计角度建立深度学习的理论框架是当前热门的方向。
- 计算机理论:《Information Theory, Inference and Learning Algorithms》[@MacKay2003]
- 深度学习框架:继 [Tensorflow](https://github.com/tensorflow/tensorflow)、 [PyTorch](https://github.com/pytorch/pytorch)、 [MXNet](https://github.com/apache/incubator-mxnet) 之后,深度学习框架开始涌现,大厂和创业公司都在涉足,比如百度的[PaddlePaddle](https://github.com/PaddlePaddle)、奇虎360的[XLearning](https://github.com/Qihoo360/XLearning)、旷视科技的[MegEngine](https://github.com/MegEngine/MegEngine)、一流科技的 [oneflow](https://github.com/Oneflow-Inc/oneflow)。
- 机器学习框架:[h2o-3](https://github.com/h2oai/h2o-3)、 [keras](https://github.com/keras-team/keras)、[weka-3.8](https://github.com/Waikato/weka-3.8)、[caret](https://github.com/topepo/caret)、[mlr](https://github.com/mlr-org/mlr3) 和 [scikit-learn](https://github.com/scikit-learn/scikit-learn) 等。梯度提升框架有[xgboost](https://github.com/dmlc/xgboost)[@xgboost2021]、[LightGBM](https://github.com/microsoft/LightGBM)[@lightgbm2021]和[catboost](https://github.com/catboost/catboost) 等,大部分都有 R 语言接口,如 RWeka [@Hornik2009],mlr3 [@Michel2019]等。
- 统计图形框架:Python 的 [matplotlib](https://github.com/matplotlib/matplotlib)、LaTeX 的 [pgf](https://github.com/pgf-tikz/pgf)、JavaScript 的 [echarts](https://github.com/apache/echarts)、[plotly](https://github.com/plotly/plotly.js)和[bokeh](https://github.com/bokeh/bokeh) 等。
- 贝叶斯软件:计算贝叶斯:从1976年至21世纪的贝叶斯计算 [@Martin2020]。[OpenBUGS](https://www.mrc-bsu.cam.ac.uk/software/bugs/openbugs/) 及 R 语言接口 BRugs [@BRugs2006]、[JAGS](https://mcmc-jags.sourceforge.io/) 及 R 语言接口 [rjags](https://cran.r-project.org/package=rjags) 包、[MultiBUGS](https://www.multibugs.org/)[@Goudie2020],未来主要的方向在 [Stan](https://github.com/stan-dev/stan) 及 R 语言接口 [rstan](https://github.com/stan-dev/rstan)。
- 知识传递:[G. Elliott Morris](https://github.com/elliottmorris/R-for-political-data) 是杂志《The Economist》的 Data journalist 数据新闻工作者。
- 会议期刊:[推荐系统会议](https://recsys.acm.org/)
- 开放数据集:推荐系统 [影评数据](https://grouplens.org/datasets/movielens/)
- 缺失数据处理:缺失数据探索和可视化,缺失评估[@Tierney2020],使用图形用户界面探查多元缺失数据[@Cheng2015]
R 语言应用到各行各业的数据分析,比如
- 用户行为分析:[Enrique Garcia Ceja](https://www.enriquegc.com/) 曾在华为工作,行为监测和分析,机器学习,可穿戴设备,研究了 11 年 行为分析[@Garcia2021]
- 事件历史分析:[eha](https://github.com/goranbrostrom/eha/) [@Brostrom2021]
- 组织人事分析: [Keith McNulty](https://drkeithmcnulty.com/) 统计里的回归模型应用到组织中的人事分析,在机器学习和深度学习里,预测是主要的工作,而在组织人事分析方面,如何找到原因是更关心的问题。[@McNulty2021]
- 公共政策分析:服务于社会学家和城市规划师,政府数据分析为智慧城市建设献言献策 [@Steif2022; @Urdinez2021]
- 卫生健康分析:空间建模和数据可视化应用于公共卫生健康领域 [@Moraga2019; @Lawson2021; @Haining2021; @Wikle2019; @Andrew2021]
- 社会人口分析:每次人口普查相关的数据公布,都会引发热烈的关注,2021 年完成第七次全国人口普查,发布了一批数据,自古以来,人口和土地是非常重要的资源,如何系统地分析和挖掘其中的信息非常重要。Kyle Walker 以美国的普查数据为分析对象,从方法、地图和模型等多角度,想必是很有参考价值的[@Walker2022]。
- 空间数据分析:空间数据统计[@Cressie1993] 空间采样[@Brus2021]
- 教育行业分析:教育行业的数据科学[@Estrellado2020]
- 机器学习应用:博弈论+机器学习=?, 方飞, 卡内基梅隆大学助理教授 <https://yixi.tv/#/speech/detail?id=970> 涉及空间随机场、随机森林等
一些有意思的思考方向:
- 国家层面关注的重大问题:人口数、出生率、死亡率、增长率、物价指数、消费指数、恩格尔系数、国民收入、道格拉斯生产函数、Gini 系数。
- 中国经济社会发展: 1983 年以来的中国统计年鉴分析。
- 就某一指标,300 年来数据收集、统计、分析的工具和方法的变迁。也会很有意思,找一条线串起来介绍相关统计理论的发展。
- 统计概念的首次提出者及其国家,年龄、年月,估计是一个很有意思的事情,但是数据收集和整理的工作量会很大。最终要说明什么呢?除去战争因素,国际统计中心为什么会从英国转移到美国?
- 历届COPSS奖得主的获奖时候年龄分布,现在的年龄,21世纪100位统计大师