Tech Whims

[3] 因子模型

2026-03-19


理论基础 · 共 12 篇

因子模型实战:从 Fama-French 到机器学习因子的演进与局限

研究日期:2026-03-19 研究者:娃彩 定位:为 tradeSys 建设提供因子投资的实操路线图,聚焦反直觉发现与可执行建议


一、因子动物园的真相:400+ 因子中有多少是真的?

1.1 核心问题:多重检验灾难

学术界截至 2015 年已发表 316 个 截面收益预测因子(Harvey, Liu & Zhu 2016, Review of Financial Studies)。到 2020s 这个数字已超过 400。这构成了一个严重的统计问题:如果你在同一个数据集上反复测试,纯粹靠运气也能找到"显著"的因子

关键数据(反直觉)

测试标准传统学术门槛HLZ 修正门槛含义
单因子 t-stat1.963.05% 显著性在多重测试下毫无意义
Bonferroni 修正~3.78如果假设所有 316 因子独立测试
考虑发表偏差~4.0+被拒的论文从未出现在文献中

HLZ 的核心结论:如果以 t > 3.0 为门槛,大约一半以上的已发表因子不再显著。这不是说它们"错了",而是我们没有足够的统计把握说它们是真的

对老板的启示:永远不要看到一篇论文报告 t=2.5 的因子就兴奋。在因子动物园的时代,t=2.5 约等于噪声

1.2 哪些因子幸存了?

经过多个独立研究团队(Harvey et al., Hou et al., Fama & French, AQR)的交叉验证,存活下来的因子不超过 5-7 个

因子年化溢价(美股长期)幸存证据风险故事 vs 行为故事
市场(MKT)~7-8%无争议风险溢价
价值(HML)~3-5%(历史),2010s 近乎消失争议中二者兼有
规模(SMB)~2-3%(但控制质量后接近 0)脆弱可能是流动性溢价
动量(MOM)~6-8%强劲,但尾部风险极大行为为主(反应不足+羊群)
盈利性(RMW/ROE)~3-4%强劲Novy-Marx (2013):毛利/资产
投资(CMA/I/A)~2-3%中等q-theory 有经济学基础
低波动/BAB~4-6%(但杠杆约束后缩水)中等杠杆约束 + 彩票偏好

1.3 q-factor model 如何挑战 FF5

Hou, Xue & Zhang (2015, RFS) 的 q-factor model 包含 4 个因子:MKT、Size、I/A(投资)、ROE(盈利),从投资的 q-theory 出发而非纯粹数据挖掘。

关键对比(鲜为人知)


二、因子拥挤与发表后衰减:你的 alpha 还在吗?

2.1 McLean & Pontiff (2016) 的关键发现

David McLean 和 Jeffrey Pontiff (Journal of Finance) 研究了 97 个已发表因子在发表前后的表现变化:

核心数据

分解(这是真正反直觉的部分)

衰减来源占比含义
数据挖掘暴露~26%(发表前就已衰减)这部分从来就不是真的 alpha
套利/拥挤~32%(发表后加速)这部分曾经是真的,但被交易掉了
仍然存活~42%受交易成本保护的真实溢价

对老板的 so what

  1. 因子收益的"半衰期"可能只有 5-10 年。你在论文中看到的年化 5% 溢价,等你实施时可能只剩 2-3%。
  2. 但 ~42% 的残余溢价是关键信号——它暗示存在因交易成本/容量限制而无法被完全套利掉的结构性溢价。对小资金交易者,这反而是好消息:你能交易的规模太小,不会加剧拥挤。

2.2 因子拥挤的量化指标

AQR 和 Man Group 的研究提供了一个可操作的思路——因子估值价差(value spread)可以衡量拥挤程度:

数据:2020 年 COVID 崩盘后,HML 的价值价差达到科技泡沫以来最宽水平,随后 2021-2022 年价值因子果然大幅反弹(HML 在 2022 年回报约 +22%)。但这种"均值回归"花了 2 年才兑现——远超大多数个人交易者的耐心窗口。

2.3 风险溢价 vs Mispricing:一个关键但无解的辩论

阵营代表核心论点对 tradeSys 的含义
风险溢价Fama & French, Cochrane因子收益是对承担系统性风险的补偿长期持有、不择时、收获溢价
MispricingLakonishok, Shleifer, Vishny; 行为金融因子收益来自定价错误可以择时、但会被套利掉
混合观点Asness (AQR)两者皆有,因子不同比例不同最务实的立场

实操判断依据:如果一个因子在经济衰退中表现最差(如价值因子在金融危机中暴亏),它更像风险溢价。如果它在情绪极端时表现最好(如动量因子在趋势市中),它更像行为驱动。


三、机器学习因子的实战表现:论文 vs 现实的鸿沟

3.1 Gu, Kelly & Xiu (2020) 的真实数字

这篇发表在 Review of Financial Studies 的里程碑论文是 ML 应用于资产定价的最重要文献。核心方法:用 94 个股票特征 + 8 个宏观变量,训练多种 ML 模型预测个股月度超额收益。

样本外 R² 对比

模型月度样本外 R²含义
OLS (Kitchen sink)-2.4%过拟合灾难,worse than naive
弹性网(Elastic Net)0.11%略好于零
随机森林0.28%可用
梯度提升树0.34%较好
神经网络 NN30.40%最佳
组合(Ensemble)0.36%接近 NN3

关键反直觉发现

  1. 月度 R² = 0.40% 看起来微小,但在资产定价中已经是巨大的。传统线性模型的 R² 基本为零或负。Campbell & Thompson (2008) 证明 R² > 0.5% 的月度预测就能产生可观的投资组合收益。
  2. 但 0.40% 是论文报告的最佳情况。在不同时间窗口和市场中,这个数字波动很大。

3.2 交易成本:吞噬大部分利润

这是论文与实战最大的鸿沟

Novy-Marx & Velikov (2016, Review of Financial Studies) 和 Freyberger, Neuhierl & Weber (2020) 的研究表明:

换手率单边成本年化交易成本ML 策略年化毛收益净收益
30%/月10bps~7.2%~8-12%~1-5%
50%/月20bps~24%~8-12%负值
50%/月30bps~36%~8-12%严重负值

数据来源:Chen, Pelger & Zhu (2024, Journal of Finance) 在纳入交易成本后发现,许多 ML 策略的净夏普比从 >2 降至 <0.5

对老板的 so what

  1. ML 因子策略对散户几乎不可行——高换手率 + 零售级交易成本 = 负预期收益
  2. 如果要用 ML,必须加入换手率惩罚项(如在目标函数中加入交易成本约束),这会使 R² 下降但净收益为正
  3. 更实际的路径:用 ML 来选择和加权传统因子(meta-strategy),而不是直接预测个股收益

3.3 复现危机

一个鲜少被讨论的问题:ML 论文的复现率极低


四、因子时机选择(Factor Timing):能不能择时因子?

4.1 学术共识:非常困难

Asness, Chandra & Ilmanen (2017) 在《Journal of Portfolio Management》的结论被广泛引用:

“Factor timing 在理论上有吸引力,但在实践中几乎不可行。”

核心数据

4.2 Arnott 的价值价差方法——唯一有微弱证据的途径

Rob Arnott 和 Research Affiliates 团队提出的方法:

4.3 对 tradeSys 的实操建议

不要把因子择时作为主要策略。但可以作为仓位调整的辅助信号


五、个人交易者的因子实操路径

5.1 残酷的现实:因子投资有资金门槛

实施方式最低资金量年化成本预期年化超额收益适合谁
因子 ETF(MTUM, VLUE, QUAL 等)$1,000+0.15-0.35% 管理费1-2%(因子溢价被稀释)被动投资者
Smart Beta ETF 组合(AQR QMOM+QVAL)$10,000+0.25-0.50%1-3%半主动投资者
自建因子组合(美股)$100,000+交易佣金 + 滑点 ~0.5-1%2-5%(如果做对了)量化爱好者
自建多空因子组合$500,000+借券成本 ~1-3% + 交易成本3-8%(但波动巨大)专业级

5.2 数据源与工具链

数据需求免费选项付费选项备注
因子收益数据Ken French Data LibraryAQR Data Library月度/日度,美股+国际
个股基本面Yahoo Finance API, SimFinCompustat ($$$), Sharadar (~$30/月)自建因子需要个股数据
实时行情Alpha Vantage (限速)Polygon.io ($29/月), IEX Cloud
回测框架Backtrader (Python), ZiplineQuantConnect (免费+云回测)

5.3 再平衡频率:月度是甜蜜点

数据支持

5.4 ETF vs 自建:一个诚实的比较

ETF 的隐藏问题(多数人不知道):

  1. 因子暴露被稀释:iShares MTUM(动量 ETF)的实际动量因子暴露(beta)约为 0.3-0.5,远低于学术论文中的 1.0。你买的是"温和的动量倾斜",不是"动量因子"。
  2. 再平衡时的价格冲击:大型因子 ETF(如 VLUE, MTUM)在再平衡日前后存在可被预测的交易模式——其他交易者会 front-run 这些 ETF 的再平衡,稀释 0.3-0.8%/年的收益(Madhavan & Sobczyk, 2016, Financial Analysts Journal)。
  3. 税收低效:ETF 再平衡产生资本利得,尤其是高换手率的动量 ETF。

自建组合的真实成本

5.5 对老板的具体建议

阶段一(0-6 个月,$10-50K)

阶段二(6-18 个月,$50-200K)

阶段三(18 个月+,$200K+)


六、加密市场的因子:一个仍在发育的领域

6.1 已被验证的加密因子

Liu, Tsyvinski & Wu (2022, Review of Financial Studies) 是加密因子研究的里程碑论文:

因子年化溢价样本期统计显著性备注
加密市场因子~100%+2014-2020非常强但波动率 ~80%,夏普比 ~1.2
加密规模因子~30-50%2014-2020中等小币跑赢大币,但流动性极差
加密动量~50-80%2014-20201 周到 4 周的短期动量最强
加密价值不显著加密资产缺乏传统"账面价值"

关键发现

6.2 更近期的研究(2023-2025)

6.3 对 tradeSys 的加密因子策略建议

  1. 动量是加密市场中最可靠的因子,但频率更高(周度而非月度)
  2. 不要在加密市场做多空因子组合——做空小币的成本和风险不可控
  3. 加密因子策略应仅做多:在 top 20-30 流动性好的币种中,按动量排名配置
  4. 仓位上限:加密因子组合不应超过总 tradeSys 资金的 10-15%——波动率太高

七、对 tradeSys 建设的整体启示(Executive Summary)

7.1 不要做的事

❌ 常见错误为什么错替代方案
追逐最新论文中的"新因子"50%+ 是数据挖掘产物只用经过 20+ 年、多市场验证的因子
用 ML 直接预测个股收益交易成本吞噬,复现率低用 ML 做因子权重/组合优化
频繁再平衡(日度/周度)交易成本远超因子溢价月度信号、季度执行
照搬学术论文的因子构建方法论文不考虑交易成本、流动性加入换手率约束和流动性筛选
试图择时因子R² 只有 3-5%,几乎不可行仅在极端估值差距时微调权重

7.2 应该做的事

  1. 核心因子选择:动量(MOM)+ 盈利性(ROE/RMW)+ 低投资率(I/A/CMA)三因子组合。不需要更多。
  2. 交易成本优先:在回测中,第一件事就是加入交易成本。任何策略如果在 20bps 单边成本下变为负收益,直接放弃。
  3. 因子组合而非单因子:单因子的最大回撤可以超过 -50%(如 HML 在 2017-2020)。多因子组合(尤其动量 + 价值,它们负相关)可以将最大回撤控制在 -20% 以内。
  4. 渐进式投入:从 ETF 组合开始,积累 6-12 个月实盘经验后再自建因子组合。
  5. 加密因子作为卫星配置:仅限动量因子,仅限流动性好的币种,仅限总仓位的 10-15%。

7.3 预期管理

一个诚实的预期收益估算

组件年化贡献备注
市场 beta+8-10%假设长期平均
多因子溢价(净交易成本)+1-3%经 McLean-Pontiff 衰减后的现实估计
因子择时(微调)+0-0.5%不要对此抱太大期望
加密因子卫星(10% 仓位)+0-2%(对总组合的贡献)高度不确定
合计9-15%夏普比 ~0.5-0.8

对比参照


检查线自检

事实来源列表

#引用出处关键数据
1Harvey, Liu & Zhu (2016)Review of Financial Studies 29(1), pp. 5-68316 因子,t>3.0 门槛
2McLean & Pontiff (2016)Journal of Finance 71(1), pp. 5-32发表后衰减 58%(26%+32%)
3Gu, Kelly & Xiu (2020)Review of Financial Studies 33(5), pp. 2223-2273NN3 样本外 R²=0.40%
4Hou, Xue & Zhang (2015)Review of Financial Studies 28(3), pp. 650-705q-factor model 4 因子
5Hou, Xue & Zhang (2020)Review of Finance 24(1), pp. 1-136452 异象中 65% 不可复现
6Liu, Tsyvinski & Wu (2022)Review of Financial Studies 35(5), pp. 2689-2727加密因子与传统因子零相关
7Novy-Marx & Velikov (2016)Review of Financial Studies 29(1), pp. 104-147交易成本对因子策略的影响
8Campbell & Thompson (2008)Review of Financial Studies 21(4), pp. 1509-1531R²>0.5% 即有经济意义
9Asness, Chandra & Ilmanen (2017)Journal of Portfolio Management 43(5)Factor timing R² ~3-5%
10Chen, Pelger & Zhu (2024)Journal of FinanceML 策略净夏普从 >2 降至 <0.5
11Avramov, Cheng & Metzker (2023)SSRN Working PaperML 预测力集中于小市值低流动性股
12Fama & French 数据Ken French Data Library (2026 年 1 月更新)HML 近 12 个月 +10.48%,SMB -4.30%
13Madhavan & Sobczyk (2016)Financial Analysts JournalETF 再平衡 front-running 成本 0.3-0.8%/年
14Cong, Li, Tang & Yang (2023)NBER Working Paper链上网络因子对 token 收益的预测力

独到见解摘要

  1. HML 是冗余因子:在 q-model 框架下,价值因子可被盈利+投资因子解释——这挑战了"价值投资"的根基
  2. ML 因子策略的净收益在大市值股中接近零——论文的漂亮数字来自你无法交易的小市值低流动性股票
  3. ETF 因子产品的真实因子暴露只有论文的 30-50%——你买的是稀释版
  4. 因子发表后衰减的 26% 发生在发表前——意味着超过四分之一的"发现"从来就不是真的
  5. 加密动量的最优频率是 1-4 周,远快于传统资产的 12-1 月——如果照搬传统因子频率到加密市场会错过信号
  6. 因子择时唯一微弱有效的信号是极端估值价差——但需要 2-3 年才能兑现,不适合个人交易者的时间框架
  7. **个人交易者的最优路径不是复制学术因子组合,而是"ML 做因子权重 + 传统因子做选股"**的 meta-strategy