洛阳证券公司联盟

红象投资—数据分析之正则化回归

红象投资2019-06-13 22:37:37





摘要ABSTRACT


线性回归是数据分析中最常用的方法之一。它的简洁性和有效性深受人们喜爱。然而线性回归模型也可能因为多重共线性、过度拟合等问题使得模型失效。在本文中,我们介绍正则化回归的方法来解决这些问题。



线性回归


线性回归是数据分析中最常用的方法之一。它假设自变量Y与因变量X之间的关系为:

其中是常数项,是均值为0、方差为常数的误差项,n为自变量个数。

简单来说,线性回归用一条误差最小的直线(n-1维超平面)拟合平面(n维超平面)中的点集。



多重共线性与过度拟合


当然线性回归并不是万能的,它可能出现各种问题导致估计失准,比如多重共线性与过度拟合问题。

多重共线性是指自变量之间存在近似线性相关(即其中一个自变量能近似用其他自变量线性表示)的情况。随着多重共线性程度的增加,回归方程 (1) 中系数规模增大,方差增加稳定性降低,从而导致系数估计失效。

此外,随着自变量数目的增加,线性回归解释Y的程度必定会越来越高。但是过多的变量会导致模型过于复杂,从而产生过度拟合的问题,即在样本内拟合效果优秀,而在样本外效果较差。

多重共线性和过度拟合有多种多样的解决方法,而本文讲解其中一种简单有效的方法——正则化回归。

?

正则化回归之Ridge回归


正则化回归给普通的线性回归增加了关于系数的惩罚项。以常见的Ridge回归为例,线性回归方程由(1)变为如下(2):

其中是控制惩罚程度的正数。常数项为0是因为正则化回归前需要对Y做中心化处理(减去均值),对X做标准化处理(减去均值后除以标准差)。

(2)不难看到,良好的在减少线性回归误差的同时还需要考虑系数的大小。如果存在多重共线性,过大的会被所惩罚而趋于平缓,从而使变得稳定。实际上,岭回归牺牲了部分的估计精确度来使得回归估计更加稳定,对于解决多重共线性十分有效。

同时,由于惩罚项的存在,一些重要性不强的变量系数会随着的增加而迅速趋于0,通过系数趋于0的程度可以判断变量的重要程度,从而选择有效变量以防止过度拟合。假设实际中??如果我们用Ridge回归拟合模型

?

如下图所示,


可以看到随着惩罚系数的增加,所有的系数都逐渐趋向于0,但越重要变量的系数(x4x5)趋于0的速度越慢。通过这样的方法,我们可以比较变量的重要程度。

?

正则化回归之Lasso回归


Ridge回归中,我们的惩罚函数采用了?,而另一种正则化回归,Lasso回归,采用 ?作为惩罚项。对于Ridge回归,参数的可行域是一个以原点为中心的圆,而Lasso回归中参数的可行域是一个以原点为中心的菱形。Lasso回归中最优参数有较大可能(特别是维数较高时)落在菱形的角上(此时部分为0),这种特质赋予了Lasso比Ridge更强的变量筛选能力。对于上一节Ridge回归中变量重要性比较的例子,我们用Lasso回归重复这个实验。如下图所示:



对比Ridge的图,我们可以看到当惩罚系数为1时,无关变量x1,x2,x3就已经变为0,而且有效变量x4,x5在惩罚系数为10时才变为0,两者分层十分清楚。

综合来看,当模型的每个变量有效性都不强时建议采用Ridge模型。而当模型只有几个特征有效性较强时,建议采用Lasso回归。此外,Ridge模型处理多重共线性时相参数更加稳定


正则化回归的两个注意点


最后我们给出使用正则化回归的两个注意点:

1.?使用正则化回归前切记要把因变量中心化,自变量标准化,以防规模不一致问题对参数估计造成影响。

2.?正则化回归参数选择时需要用一部分数据集做交叉验证,以防止过度拟合。



推荐阅读

红象投资—肉食记—猪肉篇

红象投资—摩拜,请把单车做得靠谱点

红象投资—成功交易系统设计之期望值

红象投资—电影市场见底了吗?从美国电视游戏说起

红象投资—人工智能,芯片先行



免责声明

本材料仅供本公司的合格投资者参考阅读。在任何情况下,本网站中的信息或所表达的观点建议并不构成对任何投资人的投资建议,本网站不对投资者买卖有关公司股份而产生的盈亏承担责任。

?

本资料版权均归本公司所有。未经本公司事先书面授权,任何机构或个人不得以任何形式引用或转载本资料的全部或部分 内容,不得将资料内容作为诉讼、仲裁、传媒所引用之证明或依据,不得用于营利或用于未经允许的其它用途,不得对本资料进行任何有悖原意的引用、删节和修改。


?