Statistics and Data Visualization Using R: The Art and Practice of Data Analysis
R统计与数据可视化
这本书旨在鼓励、启发和激发学生对社会科学数据分析的兴趣。其根本前提是学生通过做数据分析来学数据分析。为此,本书从简单的图形工具开始,探索数据并对数据提出有意义的问题。用于发现深埋于回归表整洁外表之下的问题的那些方法是重点。最后,读者会熟悉基本的数据分析技能,形成数据分析方法,理解所做的概念、分析乃至哲学选择。在我看来,一个重要的目标是激发读者对这个过程的兴趣。这些材料旨在让我们用真实的数据来面对现实世界的议题和问题。我们建议读者下载配套数据文件,把玩本书所基于的数据。数据下载完成后,确保在开始前执行installD()和libraries()指令。第一个指令安装所有需要用到的包,而第二个指令加载这些包。installD()指令只需要执行一次;libraries()需要在每次重新启动R后执行。
本书面向多种读者。但主要还是为初学者准备的。本书假设读者事先没有统计学或微积分的相关知识,而扎实的统计学或微积分背景也不会让这些操练毫无收获。这本书源于我在科罗拉多大学教授的大型课程,“定量方法导论(Introduction to Quantitative Methods)”。这是政治学专业必修课,他们需要阅读、理解并审慎地考察越来越多的定量证据。我们真诚的希望在课堂上用一套技能武装学生,帮他们解决问题。
数据分析师使用R就像生物学家使用电子显微镜一样,这种面向对象的统计语言,已经在民营企业,主要是在数据科学家中间站稳了脚跟。虽然从教学的角度讲,用纸笔学习统计学令人赞赏且有好处,但在这个大数据时代,学生必须配备最先进的工具。本书设计为读者下载配套数据并跟着一起做。这套代码根据我的经验提供了一组优秀的指令,各初级、中级和高级分析师都能用上。
对于那些经验更丰富的人来说,本书提出了一种方法,强调简单的分析如何通过描述、理论和证据之间的来回往复迭代产生更好的议题。本书的建议是提出假设,查看证据,然后由这些证据产生新的假设。在我看来,为了提出下一个议题而构建假设时,读者就会展现出对材料的深刻理解。比起学习代码,比起理解概率论,本书设法形成永无止境的发现循环,体现在描述我们之所见,提出假设,根据经验检验它,然后产生下一个议题或假设。从这个意义上讲,即使是技术能力较高的人也能从中受益。
第1章 入门指南 001
第2章 数据分析导论 027
第3章 描述数据 064
第4章 集中趋势和离散程度 093
第5章 数据的单变量和双变量描述 123
第6章 数据变换 157
第7章 数据展示的一些原则 186
第8章 概率论精要 218
第9章 置信区间与假设检验 250
第10章 进行比较 285
第11章 受控比较 312
第12章 线性回归 340
第13章 多元回归 368
第14章 虚拟变量和交互作用 394
第15章 诊断1 :普通最小二乘法是否适用 412
第16章 诊断2 :残差、杠杆值与影响力的度量 438
第17章 逻辑回归 461
附录A 形成经验蕴涵 488
https://item.jd.com/14141366.html