[TOC]
资料
CH1:统计学习方法概论
实现统计学习方法的步骤
统计学习方法三要素:模型,策略,算法
- 得到一个有限的训练数据集合;
- 确定包含所有可能的模型的假设空间,即学习模型的集合;
- 确定模型选择的准则,即学习的策略;
- 实现求解最优模型的算法,即学习的算法;
- 通过学习方法选择最优的模型;
- 利用学习的最优模型对新数据进行预测或分析。
统计学习分类
基本分类
- 监督学习:采用的数据集包含标签,如KNN
- 无监督学习:采用的数据集不包含标签,如k-means
- 半监督学习:监督学习与与无监督学习的结合
- 强化学习:通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数
按模型分类
- 概率模型:为生成模型
- 非概率模型:为判别模型
按算法分类
- 在线学习
- 批量学习
统计学习方法三要素
模型
在监督学习过程中,模型就是所要学习的条件概率分布或者决策函数。
| 假设空间$\cal F$ | 输入空间$\cal X$ | 输出空间$\cal Y$ | 参数空间 | |
|---|---|---|---|---|
| 决策函数 | $\cal F\it ={f_{\theta} | Y=f_{\theta}(x), \theta \in \bf R \it ^n}$ | 变量 | 变量 |
| 条件概率分布 | $\cal F\it ={P | P_{\theta}(Y | X),\theta\in \bf R \it ^n}$ | 随机变量 |
策略
学习过程或选择最优的模型的过程所参照的准则。
损失函数与风险函数
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
-
损失函数(loss function)或代价函数(cost function) 损失函数定义为给定输入$X$的预测值$f(X)$和真实值$Y$之间的非负实值函数,记作$L(Y,f(X))$
-
风险函数(risk function)或期望损失(expected loss) 这个和模型的泛化误差的形式是一样的
$$ R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y), {\rm d}x{\rm d}y模型$f(X)$关于联合分布$P(X,Y)$的平均意义下的损失(期望损失),但是因为$P(X,Y)$是未知的,所以前面的用词是期望,以及平均意义下的。 $$
模型$f(X)$关于联合分布$P(X,Y)$的平均意义下的损失(期望损失),但是因为$P(X,Y)$是未知的,所以前面的用词是期望,以及平均意义下的。
这个表示其实就是损失的均值,反映了对整个数据的预测效果的好坏,$P(x,y)$转换成$\frac {\nu(X=x, Y=y)}{N}$更容易直观理解。
-
经验风险(empirical risk)或经验损失(empirical loss) $R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))$ 模型$f$关于训练样本集的平均损失 根据大数定律,当样本容量N趋于无穷大时,经验风险趋于期望风险
-
结构风险(structural risk) $R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)$ $J(f)$为模型复杂度, $\lambda \geqslant 0$是系数,用以权衡经验风险和模型复杂度。
常用损失函数
损失函数数值越小,模型就越好
-
0-1损失 $$ L(Y,f(X))=\begin{cases}1, Y \neq f(X) \0, Y=f(X) \end{cases} $$
-
平方损失 $$ L(Y,f(X))=(Y-f(X))^2 $$
-
绝对损失
$$ L(Y,f(X))=|Y-f(X)| $$
- 对数损失 这里$P(Y|X)\leqslant 1$,对应的对数是负值,所以对数损失中包含一个负号。
$$ L(Y,P(Y|X))=-\log P(Y|X) $$
ERM与SRM
经验风险最小化(Empirical Risk Minimization,ERM)与结构风险最小化(Structural Risk Minimization,SRM)
- 极大似然估计是经验风险最小化的一个例子 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计
- 贝叶斯估计中的最大后验概率估计是结构风险最小化的一个例子 当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计
算法
这章里面简单提了一下,具体可以参考CH12表格中关于学习算法的描述。