搭建多因子模型既要寻找因子,也要选取模型。如果将多因子模型的搭建过程比喻成工厂的生产过程,因子就是原材料,而模型就是生产线。在原材料既定的情况下,数据拟合与曲线拟合,选择不同的生产线意味着加工工艺的不同,将会获得不同的结果。今天我们来研究一下量化多因子模型种的三种常见建模方法。
按照由简到难的顺序,多因子投资模型的搭建可分为:1、简单加权法;2、线性回归法;3、人工智能方法。
一、简单加权法
举个简单的例子,我们希望在1000只股票中挑选出100只进行投资,通过筛选的因子是分红比例因子(Dividend Payout)和低波动率因子(Low Volatility),两者的权重比为2:1。首先,我们将这1000只股票按照分红比例(Dividend Payout Ratio)由低到高进行排列,排在第一位的股票得1分,排在最后一位的股票得1000分。然后,我们再将这1000只股票按照波动率(Volatility)由高到低进行排列,排在第一位的股票得1分,排在最后一位的股票得1000分。接着,我们将两个评分按照 A *(2/3)+ B*(1/3)的公式进行加总,得分最高的100只股票就是我们要买入的。
第一个是一次曲线拟合。第二个既然是“二次方程”,那就是二次曲线拟合。类似地,用三次方程表示就是三次曲线拟合;用指数就是指数曲线拟合,线性回归和一次曲线拟合没有区别。线性回归就是线性拟合,在统计的意义上是等价。
这种方法比较初级,非常容易操作。但缺点也显而易见:1,在多因子投资非常流行且日渐同质化的今天,已经非常难以获得超额回报了。2,由于是简单的加权,无法做风格轮动或因子择时。
企业回北京颐光新源科技有限公司是INC.中国区域总代理。颐光新源是一家集开发、制造和销售太阳能电池测试系统、太阳光模拟器、光学元器件、光谱仪器、光电设备和与光学系统有关的仪器设备为一体的高新技术企业。产品涉及太阳能电池测试系统(可扩展为。
二、线性回归法
可以有很多个eg. 身高,体重等等;每一个都是x值线性回归还可以根据x的数量进行划分为:X只有1个的: 即是一元线性回归(一元就是一个自变量)X如果有很多个的:即是多元线性回归四. 拟合FittingFit拟合,是指构建一种算。
因子投资中最著名的Fama-French三因子模型就用的是线性回归法。线性回归也是投资领域最多使用的量化模型之一。使用线性回归法搭建因子投资模型的最重要的假设是因子与股票收益之间的关系是线性的,即股票收益能被因子完全地线性解释,不能解释的部分为纯粹无法观测到的误差。
用Factor代表因子,Return代表股票的收益率,则有多元线性回归:
以三因子模型中的价值因子为例。若我们分析的范围为1000只股票,则:
1、计算出过去10年间每个月股票市场(用这1000只股票的集合做代表)的价值溢价:高账面市值比的股票的收益减去低账面市值比的股票的收益(High Minus Low)。将每一只股票的月收益与市场的价值溢价做回归,得到每一只股票对价值因子的敏感度(因子暴露);
当我们有使用的因子数量很多时(70-90个左右),使用多元线性回归会遇到多重共线性(Multicollinearity)的问题,进而影响模型预测股票收益的准确度。
因此,我们可以用脊回归(Ridge Regression)代替普通最小二乘法回归(OLS Regression)。脊回归模型通过降低信息的精度但减小方差来改善因子之间高度线性相关的问题。
三、机器学习
在多因子投资中,常见的机器学习模型有LASSO,Elastic Net,Random Forest(随机森林),Neural Networks(神经网络)这几种。
1、多因子投资模型说白了就是资产定价模型。资产定价模型需要解决的最根本问题是“预测”,而机器学习在预测这件事情上做的比传统的线性回归要好。
2、因子的数量越来越多,随着被纳入模型的因子数量的增多,多重共线性的问题就越来越严重,“降维”成为越来越迫切的需求。机器学习侧重在自变量选择(Variable Selection)和降维(Dimension Deduction)技术上,因此有着比多元线性回归更好的表现。
一元曲线拟合一般用到的函数:1.beta = nlinfit(X,y,fun,beta0)X给定的自变量数据,Y给定的因变量数据,fun要拟合的函数模型,beta0函数模型中系数估计初值,beta返回拟合后的系数 2.x = lsqcurvefit(fun,x0,xdata,ydata)。
曾经有一位做多因子投资的前辈分享过这样一段话,多因子投资模型搭建的过程就像炒菜一样,淡了咸了,水多水少,火候大小都需要自己把握,最后模型能够产生的超额回报的效果就是科学和艺术的结合。而最终衡量一个模型好坏的,是它长期为投资者带来的超额回报和风险水平,适合投资者的,才是最好的。