[TOC]

资料

CH1：统计学习方法概论

实现统计学习方法的步骤

统计学习方法三要素：模型，策略，算法

得到一个有限的训练数据集合；

确定包含所有可能的模型的假设空间，即学习模型的集合；

确定模型选择的准则，即学习的策略；

实现求解最优模型的算法，即学习的算法；

通过学习方法选择最优的模型；

利用学习的最优模型对新数据进行预测或分析。

统计学习分类

基本分类

监督学习：采用的数据集包含标签，如KNN
无监督学习：采用的数据集不包含标签，如k-means
半监督学习：监督学习与与无监督学习的结合
强化学习：通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数

按模型分类

概率模型：为生成模型
非概率模型：为判别模型

按算法分类

在线学习
批量学习

统计学习方法三要素

模型

在监督学习过程中，模型就是所要学习的条件概率分布或者决策函数。

	假设空间$\cal F$	输入空间$\cal X$	输出空间$\cal Y$	参数空间
决策函数	$\cal F\it ={f_{\theta}	Y=f_{\theta}(x), \theta \in \bf R \it ^n}$	变量	变量
条件概率分布	$\cal F\it ={P	P_{\theta}(Y	X),\theta\in \bf R \it ^n}$	随机变量

策略

学习过程或选择最优的模型的过程所参照的准则。

损失函数与风险函数

损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。

损失函数(loss function)或代价函数(cost function) 损失函数定义为给定输入$X$的预测值$f(X)$和真实值$Y$之间的非负实值函数，记作$L(Y,f(X))$
风险函数(risk function)或期望损失(expected loss) 这个和模型的泛化误差的形式是一样的

$$ R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y), {\rm d}x{\rm d}y模型$f(X)$关于联合分布$P(X,Y)$的平均意义下的损失(期望损失)，但是因为$P(X,Y)$是未知的，所以前面的用词是期望，以及平均意义下的。 $$

模型$f(X)$关于联合分布$P(X,Y)$的平均意义下的损失(期望损失)，但是因为$P(X,Y)$是未知的，所以前面的用词是期望，以及平均意义下的。

这个表示其实就是损失的均值，反映了对整个数据的预测效果的好坏，$P(x,y)$转换成$\frac {\nu(X=x, Y=y)}{N}$更容易直观理解。

经验风险(empirical risk)或经验损失(empirical loss) $R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))$ 模型$f$关于训练样本集的平均损失根据大数定律，当样本容量N趋于无穷大时，经验风险趋于期望风险
结构风险(structural risk) $R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)$ $J(f)$为模型复杂度, $\lambda \geqslant 0$是系数，用以权衡经验风险和模型复杂度。

常用损失函数

损失函数数值越小，模型就越好

0-1损失 $$ L(Y,f(X))=\begin{cases}1, Y \neq f(X) \0, Y=f(X) \end{cases} $$
平方损失 $$ L(Y,f(X))=(Y-f(X))^2 $$
绝对损失

$$ L(Y,f(X))=|Y-f(X)| $$

对数损失这里$P(Y|X)\leqslant 1$，对应的对数是负值，所以对数损失中包含一个负号。

$$ L(Y,P(Y|X))=-\log P(Y|X) $$

ERM与SRM

经验风险最小化(Empirical Risk Minimization,ERM)与结构风险最小化(Structural Risk Minimization,SRM)

极大似然估计是经验风险最小化的一个例子当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化等价于极大似然估计
贝叶斯估计中的最大后验概率估计是结构风险最小化的一个例子当模型是条件概率分布，损失函数是对数损失函数，模型复杂度由模型的先验概率表示时，结构风险最小化等价于最大后验概率估计

算法

这章里面简单提了一下，具体可以参考CH12表格中关于学习算法的描述。