机器学习物语(3)：回归问题

by pluskid, on 2011-12-16, in Machine Learning

上一次讲到 Empirical Risk Minimization (ERM) 算法在有限个函数的空间里学习是可行的，然而这样的结果似乎用处不大，因为许多机器学习中用到的函数空间都是无限的。我们还提到，为了解决这个问题，需要一个“将无限化为有限”的工具。如果是对统计学习理论有一定了解的同学，可能会觉得我应该马上要讲 VC Dimension 了：如果 $\mathcal{F}$ 的 VC 维是有限的，那么即使它本身的元素个数是无限的，我们仍然可以得到合理的 bound 。任何谈到学习理论的文章不提 VC 维都会显得很过分，不过今天我们还暂时不讲这个。回到“无限到有限”的话题，我在这里也曾写过关于拓扑空间的紧性的文章，实际上，Compactness 才是我们这次要用到的工具。回忆一下，紧集的任一开覆盖存在一有限子覆盖，正是把“无限”变成了“有限”。

在进入正题之前，我们先来简单看一下机器学习中的两大问题：分类和回归。分类问题对应于离散的（有限的） $\mathcal{Y}$，例如，二分类问题中，$\mathcal{Y}=\{0,1\}$ （也有用 $\mathcal{Y}=\{-1,+1\}$ 的，不过这只是形式上的不同而已）；再比如在手写数字识别（分类）问题中，$\mathcal{Y}=\{0,1,\ldots,9\}$。而回归问题则对应连续的 $\mathcal{Y}$ ，最常见的情况是 $\mathcal{Y}=\mathbb{R}$ 。分类问题关心的是类别是否匹配，代表每个类别的数字只是一个符号而已，可以换成任意其他符号，并且这些符号之间一般没有什么关系，例如，原本是数字 8 ，把它分类成 7 或者 2 都同样是错误的，并不会因为 7 （从数值上）更接近 8 就是一个更好的结果——在这种情况下，0-1 loss 是最自然的损失函数。而回归问题则不一样，比如，今天的气温是 28 度，预测为 25 度很自然地比预测为 2 度要好。说白了就是分类问题中 $\mathcal{Y}$ 是离散的，用了离散度量来衡量相似度，而回归问题中则用了 $\mathcal{R}$ 上的欧氏度量。

当然虽然归纳成这个样子，但是两者的差别还是很大的，包括分析方法、优化方法之类的，因为离散问题通常都特别难处理，涉及到组合优化的问题，动不动就变成 NP-hard 了，而连续情况的分析则可以借用数学分析以及相关的一堆工具，在某些情况下要显得容易得多。而且即使在分类的情况下，目前的理论研究大部分也都集中在二分类这个最简单的特例上，一方面因为这是最基本和最简单的情况，便于分析；另一方面，多类问题通常都可以转化为二类问题。例如，最简单的转化方法是所谓的 one-vs-all classification ，假设 binary classifier 除了能够给出属于两类中的哪一类，还能给出属于那一类的概率或者置信度（不一定要是一个合法的概率值，只要是一个可以比较大小的分数即可）的话，那么对于 K 类问题，分别训练 K 个 binary classifier ，其中第 k 个 classifier 被训练为区分“是第 k 类”和“不是第 k 类”（也就是“是第 k 类以外的任一类”）两种情况。实际分类的时候同时运行 K 个分类器，最后结果按属于哪一类的置信度最大来决定。

不过就我目前的了解来看，对于这样方法的合理性似乎研究得比较少，而直接从多类分类角度入手来设计模型的似乎就更少了，不过似乎也正在收到越来越多的关注。Logistic 回归分类器是可以自然地处理多类问题的，最近好像也有看到针对 Multiclass Boosting 的相关工作。从实验方面来说，Fei-fei Li 在 ECCV 2010 的一篇 What does classifying more than 10,000 image categories tell us? 就观察到了一些比较有趣的现象。在 Vision 问题中的分类问题似乎类别数目可以达到非常非常多，那些在较少的类别数的情况下表现很好的算法，到了这种时候就不一定还能胜出了。这里面是否有什么深刻的道理呢？在多类或者非常多类的情况下，我们是否需要从头重新考虑分类模型呢？

似乎越扯越远了，其实本文要探讨的问题是回归问题，因为想要利用紧性来处理无限的情况，希望借助分析上的一些工具，于是我们暂时转为处理连续的情况。顺便也把回归问题的模型以及相关的概念正式 formulate 一下。

考虑 $\mathcal{Y}=\mathbb{R}$ 的情况，并使用平方误差 loss function

\[
\ell_f(x,y) = (f(x)-y)^2
\]

在处理回归问题的时候，我们习惯把风险 (Risk) 叫做误差 (Error) ，因此，一个 regressor $f$ 的误差定义为

\[
\mathcal{E}(f) = \mathbb{E}\left[(f(X)-Y)^2\right] = \int_{\mathcal{X}\times\mathcal{Y}}(f(x)-y)^2 dP(x,y)
\]

类似地，可以定义回归函数

\[
\eta(x) = \mathbb{E}\left[Y|X=x\right] = \int_{\mathcal{Y}}ydP(y|x)
\]

可以理解为随机变量 $X$ 取 $x$ 的时候，随机变量 $Y$ 的平均值。在二分类问题中，我们用回归函数定义了贝叶斯分类器并证明了该分类器是最优的。类似地，我们在这里可以证明回归函数 $\eta(x)$ 本身就是最优的 regressor 。

首先，根据 Fubini 定理，我们可以将重积分拆开成累次积分（当然，假定可积性首先是满足的，否则分析 Error 就没有意义了）：

\[
\mathcal{E}(f) = \int_{\mathcal{X}\times\mathcal{Y}}(f(x)-y)^2 dP(x,y) = \int_\mathcal{X}\left(\int_\mathcal{Y} (f(x)-y)^2 dP(y|x)\right) dP(x)
\]

于是

\[
\begin{aligned}
\mathcal{E}(f) &= \int_\mathcal{X}\left(\int_\mathcal{Y} (f(x)-\eta(x)+\eta(x)-y)^2 dP(y|x)\right) dP(x) \\
&= \int_\mathcal{X}\left(\int_\mathcal{Y} (f(x)-\eta(x))^2 + 2(f(x)-\eta(x))(\eta(x)-y) +(\eta(x)-y)^2 dP(y|x)\right) dP(x) \\
&= \int_\mathcal{X} (f(x)-\eta(x))^2 dP(x) + \color{red}{\int_\mathcal{X}\left(\int_\mathcal{Y}(\eta(x)-y)^2 dP(y|x)\right) dP(x)} \\
&\triangleq \int_\mathcal{X} (f(x)-\eta(x))^2 dP(x) + \color{red}{\sigma_P^2}
\end{aligned}
\]

其中红色的项与 $f$ 无关，而只和数据本身的分布 $P$ 有关，记为 $\sigma_P^2$ ，由于两项都是非负的，所以很容易就得到我们的结论：当 $f(x)$ 和 $\eta(x)$ 几乎处处相等的时候，第一项积分等于零，此时误差取到最小值，类似地，也称为贝叶斯误差。可以看到，贝叶斯误差其实就是 $\sigma_P^2$ ，它衡量了问题本身的难易程度，即使最好的情况也无法达到比它还小的误差。而当 $f(x)$ 和 $\eta(x)$ 在某个非零测集上不相等时，第一项积分就大于零了，此时 $\mathcal{E}(f)$ 将大于贝叶斯误差。这就证明了 $\eta(x)$ 的最优性。

同样的，我们考虑在一个特定的函数空间中的 ERM 问题。由于我们在一开始提到了，要利用 compactness ，很自然地我们考虑由 $\mathcal{X}$ 到 $\mathcal{Y}=\mathbb{R}$ 的连续函数构成的 Banach 空间 $C(\mathcal{X})$ 的一个紧子集 $\mathcal{H}$ 。特别地，我们使用无穷范数（上确界范数）

\[
\|f\|_\infty = \sup_{x\in\mathcal{X}}|f(x)|
\]

注意这里选择无穷范数是必要的，在后面的证明中的一步需要这个条件，以下我们直接用简单的符号 $\|\cdot\|$ 表示。而 $\mathcal{H}$ 的紧性自然是本文的重点——它保证了我们的 ERM 算法能够成功。另外，它还有一些额外的好处，比如保证 $\mathcal{H}$ 中存在（至少）一个最优的 regressor $f_{\mathcal{H}}$ ，亦即

\[
f_{\mathcal{H}} = \underset{f\in\mathcal{H}}{\operatorname{argmin}}\; \mathcal{E}(f)
\]

注意之前在讨论分类问题的时候我们为了简单起见就直接假设了函数空间 $\mathcal{F}$ 上的最优分类器 $f_\mathcal{F}$ 的存在性。类似的，对于任意 $f\in\mathcal{H}$ ，其误差可以分解为两个部分

\[
\mathcal{E}(f) = \color{red}{\mathcal{E}(f)-\mathcal{E}(\mathcal{f_\mathcal{H}})} + \color{blue}{\mathcal{E}(\mathcal{f_\mathcal{H}})}
\]

红色的项叫做 estimation error ，蓝色的项叫做 approximation error 。我们的目的是去估计 ERM 学习出来的函数 $f_n$ 的 estimation error ：

\[
\begin{aligned}
\mathcal{E}(f_n) – \mathcal{E}(f_\mathcal{H}) &= \mathcal{E}(f_n)- \mathcal{E}_n(f_n) + \mathcal{E}_n(f_n) – \mathcal{E}(f_\mathcal{H}) \\
&\leq \mathcal{E}(f_n)- \mathcal{E}_n(f_n) + \mathcal{E}_n(f_\mathcal{H}) – \mathcal{E}(f_\mathcal{H}) \\
&\leq 2\sup_{f\in\mathcal{H}} |\mathcal{E}(f)-\mathcal{E}_n(f)|
\end{aligned}
\]

问题再一次转化为了 $\mathcal{H}$ 上的一致收敛问题，到此为止基本上都是前面的复习，用回归的语言重新复述了一下。接下来终于要开始新的东西了。首先我们要证明 $\mathcal{E}(f)$ 和 $\mathcal{E}_n(f)$ 在 $\mathcal{H}$ 上是 Lipschitz 连续的。

命题 1：若 $|f_i(x)-y|\leq M$ 对于 $i$ 等于 1 和 2 都成立，则

\[
\begin{aligned}
|\mathcal{E}(f_1)-\mathcal{E}(f_2)|&\leq 2M\|f_1-f_2\| \\
|\mathcal{E}_n(f_1)-\mathcal{E}_n(f_2)|&\leq 2M\|f_1-f_2\|
\end{aligned}
\]

证明：由前面的推导得

\[
\begin{aligned}
\left|\mathcal{E}(f_1)-\mathcal{E}(f_2)\right| &= \left| \int_\mathcal{X} (f_1(x)-\eta(x))^2 – (f_2(x)-\eta(x))^2 dP(x) \right| \\
&= \left| \int_\mathcal{X} (f_1(x)-f_2(x))(f_1(x)+f_2(x)-2\eta(x)) dP(x)\right| \\
&\leq \int_\mathcal{X} |(f_1(x)-f_2(x))||(f_1(x)+f_2(x)-2\eta(x))| dP(x) \\
&\leq \|f_1-f_2\|\int_\mathcal{X}(|f_1(x)-\eta(x)|+|f_2(x)-\eta(x)|) dP(x) \\
&\leq 2M\|f_1-f_2\|
\end{aligned}
\]

类似的，对于 $\mathcal{E}_n$ ，我们有

\[
\begin{aligned}
\left|\mathcal{E}_n(f_1)-\mathcal{E}_n(f_2)\right| &= \left| \frac{1}{n}\sum_{i=1}^n (f_1(x_i)-y_i)^2 – (f_2(x_i)-y_i)^2 \right| \\
&= \left| \frac{1}{n}\sum_{i=1}^n (f_1(x_i)-f_2(x_i))(f_1(x_i)+f_2(x_i)-2y_i) \right| \\
&\leq \frac{1}{n}\sum_{i=1}^n |(f_1(x_i)-f_2(x_i))||(f_1(x_i)+f_2(x_i)-2y_i)| \\
&\leq \|f_1-f_2\|\frac{1}{n}\sum_{i=1}^n(|f_1(x_i)-y_i|+|f_2(x_i)-y_i|) \\
&\leq 2M\|f_1-f_2\|
\end{aligned}
\]

注意到对于 $\mathcal{E}_n$ 的证明中，我们需要上确界范数。

有以上这个命题，立即可以得到，在该命题的条件下

\[
\begin{aligned}
\left|\left(\mathcal{E}(f_1)-\mathcal{E}_n(f_1)\right) – \left(\mathcal{E}(f_2)-\mathcal{E}_n(f_2)\right)\right| &\leq |\mathcal{E}(f_1)-\mathcal{E}(f_2)| + |\mathcal{E}_n(f_1)-\mathcal{E}_n(f_2)| \\
&\leq 4M\|f_1-f_2\|
\end{aligned}
\]

可以看到这里的连续性严重依赖于 $|f(x)-y|$ 的有界性，也就是我们选择的平方损失函数的有界性。不过通不像分类问题中的 0-1 loss 那样天然地有界，这里我们还需要一些条件才能保证。比如，我们可以假定回归函数 $\eta(x)$ 是有界的，然后再假定 $\mathcal{X}$ 是紧集。这基本都是还算合理的假设了，例如，通常的 vector space model 里，$\mathcal{X}$ 是个线性空间的话，只要假定所有可能的输入数据是限制在一个有界的范围内就可以了。以下如果没有特别指出，总假定 $|f(x)-y|\leq M$ ，特别是在出现常数 $M$ 的情况下，总是指该上界。

为了方便起见，我们记 $E(f) \triangleq \mathcal{E}(f)-\mathcal{E}_n(f)$ ，我们的目的是要限定 $\sup_{f\in\mathcal{H}}|E(f)|$ 。根据上一次讲过的 Hoeffding 不等式，我们知道，对于固定的 $f_0$ ，有

\[
P\left(\left|E(f_0)\right|>\epsilon\right) \leq 2\exp\left(-\frac{n\epsilon^2}{2M^2}\right)
\]

再由刚刚证明过的 $E(f)$ 的连续性，知道在 $f_0$ 的一个小领域内，我们也可以保证 $E(f)$ 的值不会偏差太大。特别地，取 $\mathcal{H}$ 中以 $f_0$ 为圆心，$r$ 为半径的一个开球 $B(f_0;r)$ ，则显然 $\forall f\in B(f_0;r)$ 都有 $\|f-f_0\|\leq r$ ，因此

\[
|E(f)-E(f_0)|\leq 4M\|f-f_0\| = 4Mr
\]

由绝对值的性质，知

\[
|E(f)| \leq 4Mr + |E(f_0)|
\]

由于右边和 $f$ 无关，取上确界，我们又得到

\[
\sup_{f\in B(f_0;r)}|E(f)| \leq 4Mr + |E(f_0)|
\]

可以看到，如果半径 $r$ 足够小，我们就可以把 $\sup|E(f)|$ 限定在和 $E(f_0)$ 相差不大的范围内，为了得到事件 $\{\sup|E(f)|>\epsilon\}$ 的概率，我们注意到

\[
\left\{\sup_{f\in B(f_0;r)}|E(f)|>\epsilon\right\} \subset \{4Mr + |E(f_0)|>\epsilon\} = \{|E(f_0)|>\epsilon-4Mr\}
\]

而后者的概率是我们可以控制的，特别地，如果我们取 $r=\epsilon/8M$ ，则根据刚才的 Hoeffding 不等式：

\[
P\left(\sup_{f\in B(f_0;\epsilon/8M)}|E(f)|>\epsilon\right) \leq P\left(|E(f_0)|>\frac{\epsilon}{2}\right) \leq 2\exp\left(-\frac{n\epsilon^2}{8M^2}\right)
\]

这样一来，我们就把以 $f_0$ 为圆心，$\epsilon/8M$ 为半径的范围全部控制住了，接下来推广到整个紧集 $\mathcal{H}$ 上就成了顺理成章的事。首先注意到开球族

\[
\left\{ B\left(f;\frac{\epsilon}{8M}\right): f\in\mathcal{H}\right\}
\]

显然可以覆盖 $\mathcal{H}$ ，由 $\mathcal{H}$ 的紧性知，存在有限个开球仍然覆盖 $\mathcal{H}$ ，不妨记为

\[
B(f_1;\epsilon/8M), \ldots, B(f_N;\epsilon/8M)
\]

则我们有

\[
P\left(\sup_{f\in\mathcal{H}}|E(f)|>\epsilon\right) \leq \sum_{i=1}^N P\left(\sup_{f\in B(f_i;\epsilon/8M)}|E(f)|>\epsilon\right) \leq 2N\exp\left(-\frac{n\epsilon^2}{8M^2}\right)
\]

于是我们完成了在紧集 $\mathcal{H}$ 上一致收敛的界定。这里我们可以定义一个度量空间 $S$ 的 Covering Number $N(S, r)$ 为最小的 $l$ ，使得存在 $l$ 个半径为 $r$ 的开球将其覆盖住。显然，紧集的 Covering Number 是有限的，从上面的结论知道，Covering Number 有限的时候，ERM 算法是可行的。

紧性看起来似乎是很严格的要求，其实许多有用的函数空间都满足的，比如 $\mathbb{R}^m$ 上的线性函数（把系数向量的模限制在 1 以内）。更多的例子，以及如何估计具体的函数空间的 Covering Number 的例子，可以参见 Felipe Cucker 和 Steve Smale 的论文 On the Mathematical Foundations of Learning 。本文的主要内容也是摘要整理自这篇论文。话说这俩人都是数学系的，Smale 更是拿了菲尔兹奖和沃尔夫奖。

封面人物：漫画《七龙珠》中的人造人 17 号、16 号和 18 号。这些人造人是红领巾军为了打败孙悟空，在历年的天下第一武术大会以及其他重要的战斗中通过间谍机器人搜集孙悟空等人的战斗数据，最终制造出来的战斗型机器人。不知道他们在制造人造人的时候是不是用了机器学习的方法来训练其战斗技能 😛 ，不过这些人造人的性能实际上是非常优良的，不仅对搜集过数据的战斗中的招数拟合得很好，而且对于未出现过的对手（例如超级赛亚人），也能从容应付。

NewDawn

February 20, 2012 at 8:44 pm

博主的数学功底很好啊，是自学的吗？因为我也是计算机系的，感觉没学这么多数学呀，做machine learning都需要这么好的数学功底吗？

pluskid

February 20, 2012 at 9:50 pm

你好，这其实也谈不上什么数学，主要是一些统计和概率的东西。机器学习也是很大的一个 topic ，不一定都需要折腾 bounds 之类的。

orange

March 3, 2012 at 11:04 pm

博主，我现在研二了，之前一直做一些别的，突然有一天看到你在博客上给出一个斯坦福机器学习的网站，对机器学下还是挺感兴趣的，但是苦于自己数学功底不好。能不能给我一些学习机器学习的一些建议？

doumiao

August 25, 2012 at 7:04 pm

博主好，非常喜欢博主的叙述风格，少有的通俗易懂又通透明了。有点小疑问，计算|E(f)|上确界那一部分，定义E(f)的公式中间有个等号的吧，等于后面两个期望相减？不知是网页显示还是电脑的问题，从上一篇开始就有部分公式中间或是字符后缀只能看见空格，感觉应该有东西在那里才对。如果是这样的话，前面假定了|f(x)-y|<M，损失函数是取了平方，那么用hoeffding不等式的时候，当前随机变量Z的值域不应该是[0,M^2]，而非[0,M]么？这样的话，下面|E(f0)|大于某值概率的那个不等式右边是不是该改写一下呢？再下面推上确界大于某值的时候也一样。还是我理解错了？