机器学习(周志华)- 第1章绪论笔记
引言
机器学习是致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
基本术语
预测的是离散值–分类
预测的是连续值–回归
根据训练值是否有标记信息,分为无监督学习和有监督学习。
学得的模型适用于新样本的能力成为“泛化”能力(generalization)。
一般来说训练样本越多,我们得到的样本服从的分布$\mathbf{D}$的信息越多。
假设空间
归纳是从特殊到一般的泛化过程,演绎是从一般到特殊的特化过程。
从样例中学习是归纳过程,称为“归纳学习”。
我们可以把学习过程敢做是一个在所有的假设组成的空间进行搜索的过程,搜索目标是找到与训练集“匹配”的假设。
需要注意的是我们常常面临很大的假设空间,但是学习过程是在有限样本上进行。因此,可能有多个假设与训练集一致,即存在一个与训练集一致的“假设空间”,我们称之为版本空间。
归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,成为“归纳偏好”(inductive bias)。
任何一个有效的机器学习算法必须有归纳偏好,否则它将被假设空间中看似的训练集上等效的假设所迷惑,而无法产生确定的学习结果。
归纳偏好对应学习算法本身“什么样的模型更好”的假设。在具体显示中,归纳偏好与问题匹配,大多数决定了算法取得的性能。
“No Free Lunch”,但是谈论算法优劣必须要针对具体的学习问题,学习算法自身的偏好与问题是否匹配往往起到决定性的作用。
应用现状
大数据三大关键:机器学习(数据分析)、云计算(数据处理)、众包(数据标记)。
机器学习和数据库领域是数据挖掘两大支撑。