统计学习方法（李航）- 第8章提升方法笔记

对于分类问题来说，给定一个训练样本集，求比较粗糙的分类规则（弱分类器）要比精确的分类规则（强分类器）容易得多。提升方法就是从弱学习算法出发，反复学习，得到一系列弱分类器（又称基本分类器），然后组合这些弱分类器，构成一个强分类器。大多数的提升方法都是改变训练数据集的概率分布（训练数

统计学习方法（李航）- 第7章支持向量机笔记

SVM是一种二类分类模型，基本的模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使得它有别于感知机。核技巧使得成为非线性分类器。支持向量机的学习策略就是间隔最大化，可以形式化为求解图二次规划的问题，也等价于正则化的hinge损失函数最小化的，支持向量机的学习方法就是求解凸二

logistic regression和最大熵模型都是对数线性模型。逻辑斯蒂回归模型多项逻辑斯谛回归最大熵原理定义最大熵原理是概率模型学习的一个准则，最大熵原理认为学习概率模型的时候，在所有可能的概率模型分布中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以

决策树在分类问题中表示基于特征对实例进行分类的过程。它可以认为是if then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性，分类速度快。学习时候，利用训练数据，根据损失函数最小化的原则建立决策树模型，预测时，对新的数据，利用决策树模型

k-NN是一种基本的分类和回归方法。k近邻法的输入是实例的特征向量，对应于特征空间的点；输出是实例的类别，可以取多类。k近邻法假设给定一个训练数据集，其中的实例类别已定。分类是对于新的类别，根据其k个最近邻的训练实例的类别，通过多数表决法等方式进行预测。因此k近邻法不具有显性的学

感知机的模型$$f(x) = sign(w·x +b)$$ sign是符号函数。感知机是一种线性分类模型，属于判别模型。感知机模型的假设空间是定义在特征空间中所有的线性分类模型或线性分类器。感知机是一种线性分类模型，属于判别模型。感知机而得解释是用一个超平面将特征空间划分为两个部

定义模型选择的典型方法是正则化，正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或罚项。正则化一般是模型复杂度的单调函数，模型越复杂，正则化值就越大。正则化项可以是模型参数向量的范数。正则化一般具有如下形式：$$min_{f\in \mathcal{F}} \fra

区别对分类任务来说，若目标是最小化分类错误率（对应0/1损失），得到条件风险和最小化分类错误率的最优分类器分别为：$$R(c|\mathbf{x}) = 1- P(c|\mathbf{x})$$$$h*(x) = argmax_{c\in \mathcal{Y}} P(c|\ma

聚类任务在无监督学习中，训练样本的标记信息是未知的，目标是通过无标记的训练样本学习来揭示数据的内在性质和规律，为进一步的数据分析提供基础。无监督学习还有密度估计、异常检测等。聚类是试图将数据集中的样本划分为若干个不相交的子集“簇”，每个簇对应一些潜在的概念（类别）。聚类

个体与集成集成学习通过构建并结合多个学习器来完成学习任务，有时也被称作为多分类系统、基于委员会的学习等。集成学习的一般结构：先生成一组“个体学习器”，再用某种策略将他们结合起来。集成学习分为同质（同种类型学习器）和异质（不同类型学习器）。集成学习通过将多个学习器进行结合，常可以