深度学习揭秘系列之三:用DEEPSEEK优化价量因子

类别:金融工程 机构:信达证券股份有限公司 研究员:于明明/周金铭 日期:2025-03-21

  本文是深度学习揭秘系列之三。聚焦于借助DeepSeek 模型对选股因子进行生成与改进,在量化投资领域展开深入探索。研究以Qlib 集成的Alpha158 量价因子为基础,该因子集涵盖日内、波动、价、量及量价相关性五类因子。通过设定统一测算口径,运用特定的Prompt Engineering和AI 交互流程,借助DeepSeek 对原始因子进行优化,以及生成相关性较低的新因子,取得显著成果。

      在因子优化方面,多数因子经DeepSeek 优化后预测能力提升显著。测试的Alpha158 因子集中,75%的因子RankIC 均值提升,50%的因子RankIC均值达1.2 倍提升,35%的因子RankIC 均值有1.5 倍提升;ICIR 指标同样向好,众多因子ICIR 提升且多倍提升的因子数量可观。从不同窗口期数据看,优化后的因子表达式普适性强。以波动率因子std20 为例,多次改进中引入平均真实波幅ATR 概念、成交量加权机制、EMA 双重平滑及四维波动极值捕捉等,虽部分改进使RankIC 均值有波动,但整体提升了因子选股效果。不过,部分因子如Beta20、min20 等受限于原始计算逻辑,在优化过程中未呈现显著提升,揭示传统因子改进存在理论天花板。

      在因子生成上,从零生成因子较难达到理想效果,然而,站在成功案例基础上生成因子,效果显著。若从零开始,20 次迭代生成的因子具备一定逻辑,但预测效果一般,ICIR 未达预期。若给予DeepSeek 部分预测效果尚佳的因子表达式作为参考,例如Alpha158 原始及优化因子表达式与对应的IC 统计量,则能够在较少的迭代次数内,生成5 个ICIR 在0.8以上且与样例因子相关性低的新因子。其中第一个有效因子通过捕捉量价协同增强效应,第二个聚焦量价共振强度维度,展现出较好的选股能力。

      组合维度对比发现,将优化后的Alpha158 因子及新生成因子线性结合,使用Lasso 模型合成因子,能提升选股能力。全A 数据中,原始因子、增强因子、原始 + 生成因子及最终合成因子的RankIC 均值和多头超额收益逐次提升。落地到中证800 指增组合,原始因子叠加优化与新生成因子得到的复合因子,月频RankIC 均值从9.01%提升至10%,ICIR 从0.93 提升至1.01,多头超额年化收益从7.05%提升至7.92%,年化信息比从1.63 增强至1.89。

      综上,本文引入DeepSeek 模型,通过构建“优化 - 验证 - 再迭代”框架,贡献了因子优化与因子生成的新思路,实现了大语言AI 模型对量化研究的赋能。

      风险因素:结论基于历史数据,在市场环境转变时模型存在失效的风险。