"XGBoost"相关数据
更新时间:2020-07-21华泰人工智能系列之二十七:揭开机器学习模型的“黑箱”
本文介绍机器学习解释方法原理,以XGBoost选股模型为例揭开黑箱本文介绍六种机器学习模型解释方法的原理,并以华泰XGBoost选股模型为例,尝试揭开机器学习模型的“黑箱”。机器学习多属于黑箱模型,而资管行业的伦理需要可解释的白箱模型。除传统的特征重要性外,ICE、PDP、SDT、LIME、SHAP都是解释模型的有力工具。揭开选股模型黑箱,我们发现:1)价量类因子的重要性整体高于基本面类因子;2)XGBoost模型以非线性的逻辑使用因子,因子的非线性特点在市值、反转、技术、情绪因子上体现尤为明显。
目前人工智能算法的本质仍是样本拟合,直接使用模型结论可能有凤险目前的人工智能算法,即使是近年来发展迅猛的深度神经网络,和线性回归并无本质上的不同,仍是对样本特征X和标签Y进行拟合,区别无非是机器学习模型的非线性拟合能力更强。人工智能并不具备真正的“智能”。模型只能学习特征和标签的相关关系,但无法挖掘其中的因果关系。如果不将机器学习模型的黑箱打开,不弄清机器学习模型的“思考”过程,直接使用机器学习的判断结果,可能带来较大的风险。
近年来研究者提出诸多机器学习模型解释方法,核心思想各有不同
近年来研究者提出诸多机器学习模型解释方法,除了传统的特征重要性外,ICE、PDP、SDT、LIME、SHAP都是揭开机器学习模型黑箱的有力工具。
【更多详情,请下载:华泰人工智能系列之二十七:揭开机器学习模型的“黑箱”】
- 华泰人工智能系列之二十七:揭开机器学习模型的“黑箱”本文介绍六种机器学习模型解释方法的原理,并以华泰XGBoost 选股模型为例,尝试揭开机器学习模型的“黑箱”。机器学习多属于黑箱模型,而资管行业的伦理需要可解释的白箱模型。除传统的特征重要性外,ICE、PDP、SDT、LIME、SHAP 都是解释模型的有力工具。揭开选股模型黑箱,我们发现:1)价量类因子的重要性整体高于基本面类因子;2)XGBoost 模型以非线性的逻辑使用因子,因子的非线性特点在市值、反转、技术、情绪因子上体现尤为明显。2019年发布时间:2020-07-21
- 20不同分类算法下的大小盘风格判断本文介绍不同分类算法下的大小盘风格判断,介绍大小盘轮动是重要市场特征,指出XGBoost与逻辑回归效果较好。2019年发布时间:2020-05-01
- 人工智能系列之二十:必然中的偶然,机器学习中的随机数本文考察逻辑回归、 XGBOOST、随机森林和全達接神经网四种机器学习算法在100组不同随机数种子下的模型性能和单子回测表现。结果表明,当随机数种子变化时,逻回归的结果几乎保持不变,对随机数不敏感;全连接神经网络的结果可能发生较大变化,对随机数较敏感; XGBOOST和随机森林对随机数的敦感程度介于上述两者之间。机器学习模型看似“必然”的结果背后包含一定“偶然”因素,投責者应认识到机器学习选股模型可能存在的随机数种子择偏差。2019年发布时间:2019-12-13
- 人工智能研究报告:机器学习模型在因子选股上的比较分析2019年发布时间:2019-12-13
- 机器学习视角下的考察:因子拥挤度指标及其择时作用美国市场对于因子拥挤度指标的重视源于2009年动量因子(MomentumFactor)的大幅回撤,研究者认为因子拥挤度可能是影响因子寿命的重要原因。在国外研究的基础上,我们构建了估值价差、配对相关性、因子波动率、因子长期反转等8个因子拥挤度指标,并分别用这些指标对单因子收益方向和多因子组合权重进行了择时。在单因子择时方面,我们使用了XGBoost和LSTM两种机器学习算法,但是并没有取得明显优于纯做多方式的结果。我们又使用合成指标对多因子模型的权重进行调整,最后根据拥挤度指标加权后的多因子模型小幅战胜了因子等权组合的模型。2020年发布时间:2020-07-21