* 本报告来自网络,如有侵权请联系删除
机器学习系列报告之三:数据纵横,拓展差分的操作域
收藏
纠错
价格免费
详情描述
机器学习系列报告之三:数据纵横,拓展差分的操作域 1、时间序列上预测信息与可推论性的悖论 “历史会重复”。无论是传统量化,亦或机器学习,都是基于这样一个假设在探索金融领域下每一个可能获利的角落。因此要构建一个成功的模:型,算法的有效性与历史数据信息,缺一不可。然而在实际研究中容易发现,要提升其中一方面往往要以削弱另一方面为代价。在该篇报告我们研究讨论上述现象和对这种现象的处理手段。 1.1、被牺牲的预测信息 数据本身是否含有预测信息是我们在做预测时最关心的的一个特质。所谓“垃圾进、垃圾出”,如果数据本身完全不具备预测信息,那么无论用什么模型或方法,都不能获得有价值的预测模型。而在满足一定预测信息的条件下,另一个会影响到最终预测效果的因素在于这些预测信息能多大程度上被模型利用。如果要处理的是金融中常见的时间序列数据,从模型推论性的角度出发,我们希望模型中的数据为平稳序列。更进一步,倘若模型是机器学习算法,那么这个需求就更为迫切。 然而众所周知,绝大部分的金融时间序列都是不平稳的,无论是股票的价格、期权的隐含波动率、亦或上市公司的季度收入等财报数据。因此在运用以上各种金融时间序列数据前,往往需要进行各种预处理操作,比如去周期化、作差分等等,使其最终达到一定程度上的平稳性。然而这种获取平稳性的方式并非完全没有缺点,它会使得每个数据点丢失之前序列所蕴含的信息或记忆。如果丢失的内容是噪声,那么处理后的数据不仅获得了平稳性还提高了信噪比。可并非在所有场景下都会有这么理想的情形,绝大多数情况下丢失的恰恰是更为重要有用的预测信息。 【更多详情,请下载:机器学习系列报告之三:数据纵横,拓展差分的操作域】
报告预览
*本报告来自网络,如有侵权请联系删除