原文:https://machinelearningmastery.com/what-is-a-hypothesis-in-machine-learning/
最后更新于 2020 年 9 月 4 日
监督机器学习通常被描述为近似将输入映射到输出的目标函数的问题。
该描述的特征在于从假设空间中搜索和评估候选假设。
对于初学者来说,机器学习中对假设的讨论可能会令人困惑,尤其是当“假设”在统计学(例如统计假设检验)和更广泛的科学(例如科学假设)中具有不同但相关的含义时。
在这篇文章中,你将发现科学中的假设、统计学中的假设和机器学习中的假设之间的区别。
看完这篇文章,你会知道:
- 科学假说是对可证伪的观察结果的临时解释。
- 统计假设是对数据总体之间关系的一种解释,可以用概率来解释。
- 机器学习假设是一种候选模型,它近似于将输入映射到输出的目标函数。
我们开始吧。
机器学习中的假设简介 图片由贝恩德·泰勒提供,版权所有。
本教程分为四个部分;它们是:
- 什么是假设?
- 统计学中的假设
- 机器学习中的假设
- 假说综述
假设是对某事的解释。
这是一个临时的想法,一个有根据的猜测,需要一些评估。
好的假设是可检验的;它可能是真的,也可能是假的。
在科学中,假设必须是可证伪的,这意味着存在一种测试,其结果可能意味着假设不是真的。该假设也必须在测试结果已知之前被构建出来。
…任何假设都不行。任何假设或假设系统要获得科学定律或理论的地位,都必须满足一个基本条件。如果要成为科学的一部分,假设必须是可证伪的。
—第 61-62 页,这个东西叫什么科学?,第三版,1999 年。
一个好的假设符合证据,可以用来预测新的观察或新的情况。
最符合证据并可用于做出预测的假设被称为理论,或者是理论的一部分。
- 科学中的假设:符合证据的临时解释,可以被证实或否定。
许多统计数据都与观察结果之间的关系有关。
统计假设检验是用于计算称为“T2 效应”的临界值的技术然后,可以对临界值进行解释,以确定如果不存在关系,观察效果的可能性有多大。
如果可能性很小,那么这表明效果可能是真实的。如果可能性很大,那么我们可能观察到了一种统计波动,这种影响可能不是真实的。
例如,我们可能有兴趣评估两个样本的平均值之间的关系,例如,样本是否来自相同的分布,它们之间是否有差异。
一种假设是,基于数据样本,总体均值之间没有差异。
这是一个没有效果的假设,被称为零假设,我们可以使用统计假设检验来拒绝这个假设,或者拒绝(保留)它。我们不说“接受”,因为结果是概率性的,仍然可能是错误的,只是概率很低。
……我们开发一个假设,并建立一个标准,在决定是保留还是拒绝我们的假设时,我们将使用这个标准。对社会科学研究感兴趣的主要假设是零假设
—第 64-65 页,统计简写,第三版,2010。
如果零假设被拒绝,那么我们假设替代假设的平均值之间存在一些差异。
- 无效假设(H0) :提示无效。
- 交替假设(H1) :暗示某种效果。
基于观察到的数据样本,统计假设检验不评论效应的大小,只评论效应在人群中存在或不存在的可能性。
- 统计学中的假设:关于观测值之间存在关系的概率解释。
机器学习,特别是监督学习,可以描述为使用可用数据来学习将输入最佳映射到输出的函数的愿望。
从技术上来说,这是一个叫做函数近似的问题,我们正在近似一个未知的目标函数(我们假设它存在),这个函数可以根据问题域中所有可能的观察结果,最好地将输入映射到输出。
在机器学习中,一个近似目标函数并执行输入到输出映射的模型的例子被称为假设。
算法(例如神经网络)的选择和算法的配置(例如网络拓扑和超参数)定义了模型可能表示的可能假设的空间。
机器学习算法的学习包括将所选的假设空间导航到最佳的或足够好的最接近目标函数的假设。
学习是在可能的假设空间中寻找一个表现良好的假设,即使是在训练集之外的新例子上。
—第 695 页,人工智能:现代方法,第二版,2009 年。
这种机器学习的框架是常见的,有助于理解算法的选择、学习和泛化的问题,甚至偏差-方差的权衡。例如,训练数据集用于学习假设,测试数据集用于评估假设。
常用的符号是小写-h ( h )代表给定的特定假设,大写-h ( H )代表正在搜索的假设空间。
- h ( 假设 ) :单个假设,例如,将输入映射到输出的实例或特定候选模型,可以评估并用于做出预测。
- H ( 假设集 ) :一个可能的假设空间,用于将输入映射到可搜索的输出,通常受到问题框架的选择、模型的选择和模型配置的选择的约束。
算法和算法配置的选择包括选择一个假设空间,该假设空间被认为包含一个假设,该假设是目标函数的良好或最佳近似。这非常具有挑战性,抽查一系列不同的假设空间通常更有效。
我们说,如果假设空间包含真函数,那么学习问题是可以实现的。不幸的是,我们不能总是判断一个给定的学习问题是否可实现,因为真正的功能是未知的。
—第 697 页,人工智能:现代方法,第二版,2009 年。
这是一个难题,为了使搜索过程易于处理,我们选择在大小和被评估的假设的复杂性两方面约束假设空间。
假设空间的表达性和在该空间内找到一个好的假设的复杂性之间存在权衡。
—第 697 页,人工智能:现代方法,第二版,2009 年。
- 机器学习中的假设:近似目标函数的候选模型,用于将输入示例映射到输出。
我们可以将这三个定义再次总结如下:
- 科学中的假设:符合证据的临时解释,可以被证实或否定。
- 统计学中的假设:关于观测值之间存在关系的概率解释。
- 机器学习中的假设:近似目标函数的候选模型,用于将输入示例映射到输出。
我们可以看到,机器学习中的一个假设借鉴了科学中更广泛的假设定义。
就像科学中的假设是一种覆盖了现有证据的解释,是可证伪的,可以用来预测未来的新情况一样,机器学习中的假设也有类似的性质。
机器学习中的一个假设:
- 涵盖可用证据:训练数据集。
- 是可证伪的(类):预先设计了一个测试工具,用于评估表现,并将其与基线模型进行比较,看看是否熟练。
- 可用于新情况:对新数据进行预测。
这篇文章澄清了你关于机器学习中什么是假设的问题了吗? 在下面的评论里告诉我。
如果您想更深入地了解这个主题,本节将提供更多资源。
- 这个东西叫什么科学?,第三版,1999 年。
- 统计简写,第三版,2010。
- 人工智能:现代方法,第二版,2009 年。
- 机器学习,1997。
在这篇文章中,你发现了科学假说、统计学假说和机器学习假说之间的区别。
具体来说,您了解到:
- 科学假说是对可证伪的观察结果的临时解释。
- 统计假设是对数据总体之间关系的一种解释,可以用概率来解释。
- 机器学习假设是一种候选模型,它近似于将输入映射到输出的目标函数。
你有什么问题吗? 在下面的评论中提问,我会尽力回答。