市场微观结构探析系列之三:分时K线中的ALPHA

类别:金融工程 机构:天风证券股份有限公司 研究员:吴先兴 日期:2020-02-26

高频因子

    高频选股因子与低频因子具有较大的差异。以月、季为持仓周期的低频选股因子主要来自于财务指标,其从盈利、成长、估值等维度综合评估上市公司;而以日为持仓周期的高频因子主要从股票量价信息中衍生而得。

    高频因子挖掘与低频因子相比更显复杂和神秘。相比于低频基本面因子的挖掘由主动管理的投资逻辑所驱动,高频因子的挖掘更倾向于由数据所驱动。而股票交易产生的量价数据频率远高于财务信息,通过遍历量价衍生指标以筛选因子并非易事。

    遗传编程

    遗传编程通过模拟“物竞天择,适者生存”的进化思想,基于个体对于环境适应度,通过“自然选择”和“基因变异”方式从父代中迭代生成新的子代种群。我们构建了因子表达式到个体基因之间的映射,以因子绩效为进化目标让种群迭代繁衍以搜索有效的选股指标。

    因子表达方面,本文基于树结构构建了表达式到个体基因之间的映射,并以树结构为基础实现了基因间的交叉互换以及变异;数据输入方面,本文以股票30 分钟K 线数据作为模型输入,其信息量是日频K 线的8 倍,有效地降低了降频所带来的交易信息损失;适应度方面,我们从信息系数IC、多头超额、分组收益单调评估因子基因的适应度。

    挖掘分时K 线中的alpha

    基于遗传编程算法,本文以2017 至2018 年数据作为输入挖掘了100 个有效的高频因子。利用2019 年数据作为样本外测试集合,我们以选股指标covariance(12,amount,high) 、sub(close,ts_Mean(8,low)) 和指标stddev(6,delta(11,log(volume)))为例展示了因子绩效,各因子分组收益单调,ICIR 分别达到了-10.98、-7.77 和-13.16,在样本外测试中仍然保持稳健选股能力。

    100 个高频因子间保持较高独立性,两两之间相关系数绝对值均低于0.70,平均值为0.28。从样本内至样本外,因子alpha 随时间出现衰减,ICIR 均值从8.67 下降到7.30,多空IR 均值从7.14 下降到5.56,但因子整体在样本外仍然保持了显著的选股能力。

    风险提示:因子失效风险,模型失效风险,市场风格变动风险