最大似然估计与经验风险最小化
李航老师《统计学习方法》第一章笔记——经验风险最小化推导极大似然估计
题目:当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计
预备知识¶
统计学习三要素¶
模型的假设空间,模型选择的标准以及模型学习的算法是统计学习方法的三要素。
简记为:方法 = 模型 + 策略 + 算法
损失函数¶
在模型的假设空间,我们要确定一定的准则来确定模型的好坏,即我们需要确定一定的策略[三要素之一]去衡量,所以我们引入了损失函数[loss function]或代价函数[cost function].
损失函数有很多种,例如 0-1 损失函数,平方损失函数等,这里我们要用的是对数损失函数。 $$ L(Y, P(Y | X)) = - \log P(Y | X) $$
风险函数¶
选定损失函数后,其值越小,模型就越好。模型的输入与输出 (X, Y) 是随机变量,遵循联合分布 P(X, Y),所以损失函数的期望为:
这就是风险函数[risk function] 或 期望损失[expected loss], 其代表理论上模型 f(X) 关于联合分布 P(X, Y) 的平均意义下的损失。
经验风险¶
关于有监督学习的病态问题[ill-formed problem]: 一方面,根据最小化风险函数确立最优的的模型需要联合分布 P(X, Y),另一方面此联合分布又是未知的。
我们想到用样本估计整体,为此我们引入经验风险[empirical risk]或经验损失[empirical loss] :
其中,定义训练集为:
根据大数定律,在样本量 N 趋向于无穷时, \(R_{emp}(f)\)趋于\(R_{exp}(f)\). 当然实际上标注好的样本一般达不到要求,所以效果不太好,这时我们可以引入关于模型复杂度的罚项来纠正,这里暂时不展开讨论。
极大似然估计¶
证明¶
设\(x_1, x_2, \cdots , x_n\)为独立同分布[i.i.d., independent and identically distributed]的样本,\(\theta\)为模型参数,\(f\)为我们使用的模型。
由 i.i.d.:
而实际上我们已知\(x_1, x_2, \cdots , x_n\), 未知的是,\(\theta\),故似然定义为:
此为样本发生可能性的大小,而极大似然估计的核心即为,以使得当前样本发生概率最大时的参数\(\(\hat{\theta}\)\)作为真实参数\(\(\theta\)\)的一个估计值。所以此时我们要求的是\(\(L(\theta|x_1, x_2, \cdots , x_n)\)\)取得最大值时\(\(\theta\)\)的值,即为\(\(\hat{\theta}\)\)。即问题转化为求\(\(L(\theta|x_1, x_2, \cdots , x_n)\)\)的极值问题。自然想到导数,而由于连乘的存在,可利用对数函数单调递增的性质,两边取对数再求导,可以简化计算。
上式即为对数似然,而一般而言的最大似然中的似然指的是对数平均似然\(\(\hat{l}\)\),即为:
整理得:
看到,极大似然估计即为:
即:
而经验风险最小化公式为:
所以,在模型为条件概率分布模型,损失函数是对数损失函数\(L(Y, P(Y | X)) = - \log P(Y | X)\)时,经验风险最小化就等价于极大似然估计
证毕。