分位数回归

分位数回归的直观

给定一些样本数据 $(x_i, y_i)$,我们可以理解成 给定一个 $x_i$, 我们就有一个 $Y_i$ 的分布,$y_i$ 是一个采样出来的样本,被我们所观测。 最小二乘估计是要去拟合 $x$ 和 $mean(Y)$ 之间的关系。 而分位数回归则是要拟合某分位数。

分位数回归的结果

分位数回归的数学方法

随机变量 $Y$ 的 $\tau$ 分位数 的定义是
$$ Q_{Y}(\tau)=F_{Y}^{-1}(\tau)=\inf\left\lbrace y:F_{Y}(y)\geq\tau\right\rbrace $$

为了简单起见,我们定义如下函数

$$ \rho_{\tau}(y)=y(\tau-\mathbb{I}_{(y<0)}) $$

考虑如下最优化问题的最优解 $u^*$

$$ \underset{u}{\min}E(\rho_{\tau}(Y-u))=\underset{u}{\min}\left\lbrace(\tau-1)\int_{-\infty}^{u}(y-u)dF_{Y}(y)+\tau\int_{u}^{\infty}(y-u)dF_{Y}(y)\right\rbrace \tag{1}$$

我们可以通过求导,令导函数等于0,反解出$u^\ast$ , 可以看到 $F_{Y}( u^\ast)=\tau$

从而,我们可以令 $u = f_w(x)$, 例如,线性情况下 $u = w\cdot x$. 从而 公式 (1)的 $min_u$ 变成 $min_w$就是分位数回归的目标函数了。

一些参考资料

代码

http://www.statsmodels.org/dev/examples/notebooks/generated/quantile_regression.html

.