华泰人工智能系列之二十二:基于CSCV框架的回测过拟合概率_电竞之家

华泰人工智能系列之二十二:基于CSCV框架的回测过拟合概率

时间:2019-06-18 23:57 来源:百度新闻作者:巧天工点击:次

　　基于CSCV框架计算三组量化研究案例的回测过拟合概率

　　本文基于组合对称交叉验证(CSCV)框架，以三组量化研究为案例展示回测过拟合概率(PBO)的计算流程，发现两组多因子选股模型的PBO较低，择时模型的PBO较高。案例1为7种机器学习模型的多因子选股策略，指数增强组合PBO大多在15%~50%，“XGBoost表现最佳”的结论大概率不是回测过拟合。案例2为6种交叉验证方法的多因子选股策略，多空组合PBO在20%~50%，“分组时序交叉验证表现最佳”的结论大概率不是回测过拟合。案例3为双均线50ETF择时策略，PBO在50%~90%，“参数组合[11,30]和[11,24]表现最佳”的结论可能为回测过拟合。

　　过拟合可分为两个层次：训练过拟合和回测过拟合

　　华泰人工智能系列多项研究探讨过拟合。过拟合可分为训练过拟合和回测过拟合两个层次。训练过拟合是机器学习语境下偏狭义色彩的过拟合，是指机器学习模型在训练集表现好，在测试集表现差，产生原因是模型超参数选择不当或者模型过度训练，解决方案是采用合理的交叉验证方法选择模型超参数或迭代次数。回测过拟合是量化研究语境下偏广义色彩的过拟合，是指量化模型在回测阶段表现好，在实盘阶段表现差，产生原因是市场规律发生变化，或者对回测期数据噪音的过度学习。回测过拟合难以根除，相对合理的解决方案是借助量化指标检验回测过拟合程度。

　　核心思想是计算“训练集”夏普比率最高的策略在“测试集”的相对排名

　　CSCV框架下回测过拟合概率的核心思想是：计算“训练集”夏普比率最高的策略，在“测试集”中的相对排名，如果相对排名靠前，代表回测过拟合概率较低，反之则代表回测过拟合概率较高。“训练集”和“测试集”的划分基于组合的思想，将全部回测时间划分成S份，任取其中S/2份拼接得到“训练集”，剩余S/2份拼接得到“测试集”，分别计算各条策略的夏普比率，进而得到相对排名，并重复多次，将相对排名大于50%即排在后一半的概率视作回测过拟合概率。回测过拟合概率的计算相对简单，不仅适用于机器学习策略，还能推广到其它类型的量化策略。

　　探讨回测过拟合概率计算过程中的各项细节

　　回测过拟合概率的计算过程中包含多项细节。将长度为T的全部回测时间划分成S份，每份回测时间长度为T/S.T/S越小，组合次数越大，计算时间开销越大；T/S越大，组合次数越小，策略排名结果受偶然性因素影响更大，实际使用时建议采用较小的T/S比。对策略进行排名时一般采用夏普比率，也可以根据实际需要选择其它评价指标，例如本文的指数增强组合采用信息比率进行排名更为合理。

　　风险提示：多因子选股和择时等量化模型都是对历史投资规律的挖掘，若未来市场投资环境发生变化，则量化投资策略存在失效的可能。回测过拟合概率是将历史回测表现的时间序列经过简单打乱重排计算得到，忽略回测的路径依赖特性，存在过度简化的可能。

(责任编辑：波少)

上一篇：ScreaM：法国CS正日渐好转，登顶指日可待
下一篇：圣菲杯: CS本赫尔狂虐利伯泰迪(AGR) 全场比分3:0

华泰人工智能系列之二十二:基于CSCV框架的回测过拟合概率

时间:2019-06-18 23:57 来源:百度新闻 作者:巧天工 点击:次

时间:2019-06-18 23:57 来源:百度新闻作者:巧天工点击:次