统计学习方法(李航)- 第2章感知学习笔记
感知机的模型
$$f(x) = sign(w·x +b)$$
sign是符号函数。
感知机是一种线性分类模型,属于判别模型。感知机模型的假设空间是定义在特征空间中所有的线性分类模型或线性分类器。感知机是一种线性分类模型,属于判别模型。感知机而得解释是用一个超平面将特征空间划分为两个部分。
感知机学习策略
要定义一个经验损失函数并使得损失函数极小化。损失函数的一个自然选择时误分类点的总是,但是这样的损失函数不是参数w和b的连续可导函数,不易优化。
另一个选择是误分类点到超平面的距离:
$$-\frac{1}{||w||} y_i (wx_i +b)$$
不考虑1||w||得到:
$$L(w,b) = -\sum_{x\in M} y_i (wx_i +b)$$
M是误分类点的集合。L(w,b)是非负的,误分点离超平面越近,损失函数值越小。
因此感知机的学习策略是使得损失函数最小
$$min_{w,b} L(w,b) = -\sum_{x\in M} y_i (wx_i +b)$$
感知机算法
随机选一个误分类点,对参数w和b进行更新:
$$w leftarrow w + eta y_i x_i$$
$$b leftarrow b + eta y_i$$
$\eta$是步长,或者学习率,数据是线性可分的情况下一定收敛。
感知机的算法是基于随机梯度下降大的对损失函数的最优化算法。有原始形式和对偶型是。首先任意选取一个抽平面,然后用梯度下降法不断极小化目标函数。在这个过程中一次随机选择误分类点使得梯度下降。
定理:样本集线性可分的充分必要条件是正实例与负实例点集构成的凸壳互不相交。
凸壳可以看作是点集合的边界,其精确定义如下:
设集合S是n维空间的k个点组成的集合,即S={x1,x2,…xk},xi是n维向量。定义S的凸壳Conv(S)为:Conv(S)={x=λ1x1+λ2x2+…+λk*xk | λ1+λ2+ . . .+λk=1}