R统计与数据可视化:社会科学数据分析实践

Statistics and Data Visualization Using R: The Art and Practice of Data Analysis

R统计与数据可视化
Type

这本书旨在鼓励、启发和激发学生对社会科学数据分析的兴趣。其根本前提是学生通过数据分析来数据分析。为此,本书从简单的图形工具开始,探索数据并对数据提出有意义的问题。用于发现深埋于回归表整洁外表之下的问题的那些方法是重点。最后,读者会熟悉基本的数据分析技能,形成数据分析方法,理解所做的概念、分析乃至哲学选择。在我看来,一个重要的目标是激发读者对这个过程的兴趣。这些材料旨在让我们用真实的数据来面对现实世界的议题和问题。我们建议读者下载配套数据文件,把玩本书所基于的数据。数据下载完成后,确保在开始前执行installD()libraries()指令。第一个指令安装所有需要用到的包,而第二个指令加载这些包。installD()指令只需要执行一次;libraries()需要在每次重新启动R后执行。

本书为谁而写?

本书面向多种读者。但主要还是为初学者准备的。本书假设读者事先没有统计学或微积分的相关知识,而扎实的统计学或微积分背景也不会让这些操练毫无收获。这本书源于我在科罗拉多大学教授的大型课程,“定量方法导论(Introduction to Quantitative Methods)”。这是政治学专业必修课,他们需要阅读、理解并审慎地考察越来越多的定量证据。我们真诚的希望在课堂上用一套技能武装学生,帮他们解决问题。

数据分析师使用R就像生物学家使用电子显微镜一样,这种面向对象的统计语言,已经在民营企业,主要是在数据科学家中间站稳了脚跟。虽然从教学的角度讲,用纸笔学习统计学令人赞赏且有好处,但在这个大数据时代,学生必须配备最先进的工具。本书设计为读者下载配套数据并跟着一起做。这套代码根据我的经验提供了一组优秀的指令,各初级、中级和高级分析师都能用上。

对于那些经验更丰富的人来说,本书提出了一种方法,强调简单的分析如何通过描述、理论和证据之间的来回往复迭代产生更好的议题。本书的建议是提出假设,查看证据,然后由这些证据产生新的假设。在我看来,为了提出下一个议题而构建假设时,读者就会展现出对材料的深刻理解。比起学习代码,比起理解概率论,本书设法形成永无止境的发现循环,体现在描述我们之所见,提出假设,根据经验检验它,然后产生下一个议题或假设。从这个意义上讲,即使是技术能力较高的人也能从中受益。

目录

  • 第1章 入门指南 001

    • 概述 001
    • R、RStudio 和R Markdown 002
    • 对象与函数 004
    • RStudio 入门 006
    • RStudio 的R Markdown 导览 012
    • R Markdown 文件与R 脚本 017
    • 小练习 019
  • 第2章 数据分析导论 027

    • 概述 027
    • 数据分析的动机 028
    • 数据分析的构成要素 031
    • 描述数据并形成假设 033
    • 模型的构建与估计 052
    • 诊断 054
    • 提出下一个问题 059
  • 第3章 描述数据 064

    • 概述 064
    • 数据集和变量 066
    • 不同类型的变量 068
    • 描述数据可以节省时间和精力 073
    • 辨识困惑、问题、假设和线索 079
    • 度量 086
  • 第4章 集中趋势和离散程度 093

    • 概述 093
    • 集中趋势的度量:众数、平均数和中位数 094
    • 平均数与中位数 103
    • 离散程度的度量:极差、四分位距和标准差 106
    • 四分位距与标准差 116
  • 第5章 数据的单变量和双变量描述 123

    • 概述 123
    • 好的、差的和离群值 124
    • 单变量数据的5 种视图 125
    • 变量间是否相关 138
  • 第6章 数据变换 157

    • 概述 157
    • 数据变换的理论原因 158
    • 数据变换的实际原因 160
    • 数据变换——从连续变量到分类变量 164
    • 数据变换——改变类别 169
    • Box-Cox 变换 175
  • 第7章 数据展示的一些原则 186

    • 概述 186
    • 一些风格要素 187
    • 故事的基本要素 208
    • 文档(树立讲述者的可信度) 209
    • 建立直觉(设定背景) 211
    • 展示因果关系(旅程) 211
    • 从因果到行动(决议) 213
  • 第8章 概率论精要 218

    • 概述 218
    • 总体和样本 219
    • 样本偏差与随机样本 220
    • 大数定律 222
    • 中心极限定理 227
    • 标准正态分布 239
  • 第9章 置信区间与假设检验 250

    • 概述 250
    • 大样本的置信区间 251
    • 小样本与t- 分布 260
    • 比较两个样本的平均数 272
    • 置信水平 277
    • 关于统计推断和因果关系的简要说明 280
  • 第10章 进行比较 285

    • 概述 285
    • 为什么要进行比较 286
    • 需要比较的问题 287
    • 比较两个分类变量 289
    • 比较连续变量和分类变量 294
    • 比较两个连续变量 297
    • 探索性数据分析:调查美国的堕胎率 301
    • 好的分析引出新的问题 308
  • 第11章 受控比较 312

    • 概述 312
    • 什么是受控比较 313
    • 比较两个分类变量,同时控制第三个变量 314
    • 比较两个连续变量,同时控制第三个变量 327
    • 论点与受控比较 334
  • 第12章  线性回归 340

    • 概述 340
    • 线性回归的优点 341
    • 线性回归中的斜率和截距 342
    • 拟合优度(R2 统计量) 348
    • 统计显著性 352
    • 二元回归的例子 355
  • 第13章 多元回归 368

    • 概述 368
    • 回归模型和论点 371
    • 回归模型、理论和证据 372
    • 解读多元回归中的估计值 376
    • 例子:凶杀率与教育 379
  • 第14章 虚拟变量和交互作用 394

    • 概述 394
    • 什么是虚拟变量 395
    • 加性模型与交互作用模型 396
    • 二元虚拟变量回归 397
    • 多元回归与虚拟变量 398
    • 多元回归中的交互作用 398
  • 第15章 诊断1 :普通最小二乘法是否适用 412

    • 概述 412
    • 回归分析中的诊断 413
    • 统计量与估计量的性质 414
    • 高斯- 马尔可夫假设 419
    • 残差图 425
  • 第16章 诊断2 :残差、杠杆值与影响力的度量 438

    • 概述 438
    • 离群值 439
    • 杠杆值 442
    • 影响力的度量 448
    • 增加变量图 454
  • 第17章 逻辑回归 461

    • 概述 461
    • 需要逻辑回归解决的议题与难题 462
    • 逻辑回归违反了高斯- 马尔可夫假设 463
    • 使用对数发生比 466
    • 使用预测概率 469
    • 逻辑回归模型拟合 475
  • 附录A 形成经验蕴涵 488

购书渠道

https://item.jd.com/14141366.html

资源下载