原文: https://machinelearningmastery.com/statistics-in-plain-english-for-machine-learning/
有一个关于统计的书籍海洋;你从哪里开始的?
选择一本关于统计学的初学者书籍的一个大问题是,一本书可能会遇到两个常见问题之一。
它可能是一本数学教科书,里面填充了每种统计方法的推导,特殊情况和证据,对方法的直觉或如何使用它几乎没有想法。或者它可能是专有或古老统计软件包的剧本,与您所面临的库和问题几乎无关。
在这篇文章中,您将发现“_ 简明英语统计 _”这本书,用于学习统计方法,而不会在理论上陷入困境,也不会在实现细节方面陷入困境。
阅读这篇文章后,你会知道:
- 本书旨在为从业者提供明确的统计方法。
- 本书的内容集中在基础,高斯分布和参数统计假设检验。
- 仔细阅读清单可用于了解与机器学习从业者相关的具体方法。
让我们开始吧。
- 简明英文统计
- 书的内容
- 机器学习阅读清单
简明英语统计为可能将统计课程作为社会科学其他学位课程的一部分的学生提供统计学介绍。
简明英文统计
它由 Timothy Urdan 撰写,他是研究员和心理学教授。由于书写的可访问性,这是一本受欢迎的书,目前是第四版。我有第三版,所以任何引用和目录都将引用该版本。
它不是教科书,也不是练习册,而是介于两者之间的东西。蒂姆谦虚地说明了本书的目的如下:
本书的目的是使统计量更容易理解。
他的目的是让这本书成为对更密集的统计学教科书的赞美。同样,我认为这是适度的并且被提及,因为它不会深入研究方法背后的更多数学严谨性(推导和证明),而是关注方法的应用和直觉(即您作为实践者所关心的)。
我认为这本书不仅仅是统计量的第一步。
每章使用一致的模板(包括三个部分)介绍统计量(有时不止一个),如下所示:
- 统计量的简短描述。
- 对等式的详细描述和统计的细节。
- 一个使用统计量的工作示例。
这本书不长不到 200 页。它还采用了 11 x 5.5 英寸的大尺寸,这意味着物理上拿着这本书可以为这些想法和例子提供很大的空间。
如果您有时间并且对统计学领域来说真的是新手,那么值得阅读封面。认真。即使你熟悉这个主题,也是一个很好的阅读。
我建议研究目录。
它有两个原因:
- 了解介绍性统计主题的广度。
- 了解您可能感兴趣的主题或与您的项目相关的主题。
本书第 3 版的完整 15 章目录如下:
- 第 1 章:社会科学研究原理和术语简介
- 第二章:中心趋势的措施
- 第 3 章:可变性的测量
- 第 4 章:正态分布
- 第 5 章:标准化和 z 分数
- 第 6 章:标准错误
- 第 7 章:统计意义,影响大小和置信区间
- 第 8 章:相关性
- 第 9 章:t 测试
- 第 10 章:方差的单向分析
- 第 11 章:方差的因子分析
- 第 12 章:方差的重复测量分析
- 第 13 章:回归
- 第十四章:独立的卡方检验
- 第 15 章:因子分析和可靠性分析:数据缩减技术
演示文稿明确区分了主题。
它允许您选择最感兴趣的主题或章节并深入研究,而无需阅读前面的章节。
本书的组织方式使得前面章节中的基本统计和统计概念更为基本,而本书后面则会出现更复杂的概念。但是,在理解下一章之前没有必要阅读一章。相反,本书中的每一章都是独立编写的。
对目录的审查突出了两件事:
- 本书非常关注高斯分布,考虑到这种分布在概率和统计中的重要性,这是合理的。
- 该书还主要关注统计假设检验,特别是参数检验,与对高斯分布的关注相一致。
这个选定的重点将处理在处理社会科学实验数据时所需的大多数统计方法,至少在开始时。虽然机器学习从业者有一些漏洞。例如:
- 这本书对估算方法的了解不多,对置信区间的影响不大,但预测间隔和容差区间没有。
- 本书也没有涉及重采样方法(bootstrap,k-fold 交叉验证等)。
- 还跳过了非参数统计方法的整个区域。
然而,这些主题可以在更有针对性的书籍中查找。
这是一本很棒的书,如果您不熟悉统计量,我会推荐它,并且您正在寻找在应用机器学习中确实需要了解的基础的清晰演示。
正如我上面提到的,它不是一个长篇阅读,值得一读的封面。
话虽如此,并非所有章节都与您作为机器学习从业者相关或直接有用。
以下是机器学习从业者手册的细目或建议阅读清单。
无论如何,我认为你需要对基础统计有一些了解。我建议阅读前几章以获得这种基础,至少:
- 第 1 章:社会科学研究原理和术语简介
- 第二章:中心趋势的措施
- 第 3 章:可变性的测量
- 第 4 章:正态分布
为了提高您理解训练数据和数据准备的技能,我建议以下三章:
- 第 5 章:标准化和 z 分数
- 第 8 章:相关性
- 第十四章:独立的卡方检验
为了评估和比较机器学习模型和模型参数,您可以使用统计假设检验。要开始这个领域,我建议以下两章:
- 第 7 章:统计意义,影响大小和置信区间
- 第 9 章:t 测试
你可以跳过其他章节。
如果您使用该方法并且对如何以及为何如何工作有更深入的了解,那么关于线性回归的章节(第 13 章)可能会引起关注。
你同意这个阅读计划吗? 请在下面的评论中告诉我。
如果您希望深入了解,本节将提供有关该主题的更多资源。
- 简明英文统计,第四版,2016 年。
- 普通英语统计,第三版,2010 年。
- Timothy Urdan 的主页
在这篇文章中,您发现了“简明英语统计”一书,用于学习统计方法,而不会在理论上(证明和推导)陷入困境,也没有实现细节(专有统计软件包的代码和命令页面)。
具体来说,你学到了:
- 本书旨在为从业者提供明确的统计方法。
- 本书的内容集中在基础,高斯分布和参数统计假设检验。
- 仔细阅读清单可用于了解与机器学习从业者相关的具体方法。
你有这本书还是读过它? 你怎么看?在下面分享您的想法。
你想拿这本书吗? 为什么或为什么不呢?