跳转至

从规则到表示学习

背景知识
  • 特征 (Feature):描述数据的属性维度,如像素值、词频、边缘方向等,是模型决策的输入
  • 监督学习:给定输入-输出对 (x, y),学习从 x 到 y 的映射函数
  • 深度神经网络:多层非线性变换的堆叠,层数越多能提取的抽象层次越高

本文档梳理机器学习在"谁来定义特征"这个问题上的三次范式转换。重点不是历史流水账,而是每次转换背后的技术瓶颈突破点

相关文档:Transformer 架构


核心脉络:人逐步退出

阶段 年代 人做什么 机器做什么 瓶颈
规则系统 1960s–1980s 定义特征 + 编写规则 执行 规则组合爆炸,无法覆盖真实世界的复杂性
特征工程 1990s–2012 定义特征 学习决策边界 特征设计依赖领域专家,迁移性差
表示学习 2012– 提供数据和目标 学习特征 + 学习决策 数据量和算力需求剧增

每一次转换的本质都是同一件事:把人类的认知负担转移给模型,用计算量换泛化能力。


1. 规则系统:人全包

做法

人类专家手动编写 if-else 规则。特征是人定义的,判断逻辑也是人写的。

垃圾邮件检测示例

如果 发件人不在通讯录
  且 正文包含"免费"或"中奖"
  且 包含超链接
→ 标记为垃圾邮件

NLP 示例(专家系统):词法分析 → 句法分析 → 语义规则,每一步都是人手写的 pattern matching。

代表

  • MYCIN (1976):斯坦福的医学诊断专家系统,约 600 条规则1
  • ELIZA (1966):基于模式匹配的对话系统2

为什么走不下去

规则数量随问题复杂度指数增长。MYCIN 的 600 条规则只覆盖了血液感染这一个狭窄领域。要覆盖真实世界的多样性,规则之间的交互和冲突会变得不可维护——这就是所谓的"知识获取瓶颈"3


2. 特征工程:人退出规则编写

突破点

核心转变:人不再写决策规则,改为写"看什么",让模型自己学"怎么判断"。

统计学习的兴起(SVM、逻辑回归、随机森林)让机器能从数据中学习决策边界。但机器只能在人提供的特征空间里学习——特征定义得好不好,直接决定了模型的上限。

各领域的特征设计

领域 典型手工特征 说明
NLP 词袋 (BoW)、TF-IDF、n-gram、POS tag 把文本变成稀疏数值向量
CV SIFT、HOG、Haar 特征 从像素中提取边缘、梯度、纹理等几何描述子
语音 MFCC(梅尔频率倒谱系数) 把音频信号变成反映人耳感知特性的频域特征
推荐 用户年龄、点击次数、浏览时长 业务人员逐个定义的行为指标

为什么走不下去

  1. 依赖领域专家:设计好的 SIFT 特征需要深厚的计算机视觉知识;设计好的 NLP 特征需要语言学背景。特征工程师是稀缺资源。
  2. 迁移性差:为垃圾邮件设计的特征无法迁移到情感分析;为人脸检测设计的 Haar 特征无法迁移到医学影像。每换一个任务,特征要重新设计。
  3. 表达力天花板:人类能想到的特征维度有限。稀疏的词袋向量丢失了词序信息;HOG 特征丢失了高层语义。模型的上限被人的想象力锁死。

3. 表示学习:人退出特征设计

突破点

核心转变:人不再定义"看什么",只提供原始数据和训练目标,让模型自己学出有用的表示。

这要求模型有足够的容量(参数量)来从原始数据中提取多层次的抽象特征——深度神经网络提供了这个容量。

关键里程碑

时间 事件 意义
2012 AlexNet 赢得 ImageNet CV 领域证明:端到端学习的卷积网络碾压手工特征 + SVM4
2013 Word2Vec NLP 领域证明:无监督训练出的词向量自动捕获语义关系5
2018 BERT 上下文表示——同一个词在不同语境中获得不同向量6
2020 GPT-3 规模涌现——足够大的语言模型从"学表示"升级为"直接解决任务"7

为什么能工作

模型参数量远小于训练数据量,所以它必须压缩。为了用有限的参数尽可能准确地预测数据,模型被迫提取数据中的规律和结构。

压缩的过程就是在提取特征。而且由于没有人为限制"只能看哪些维度",模型学出的特征空间往往比人工设计的更高维、更精细。

当前的代价

自动化不是免费的。表示学习把人的认知负担转化成了计算负担:

  • 数据需求:GPT-3 的训练数据约 500B tokens,远超任何人工标注能力所及
  • 算力需求:AlexNet 用 2 块 GPU 训练一周;GPT-4 的训练成本估计在 $100M 量级
  • 可解释性下降:手工特征你知道每一维是什么意思;模型自学的表示是高维黑箱

设计权衡总结

graph LR
    A["规则系统"] -->|"放弃手写规则<br/>换取泛化能力"| B["特征工程"]
    B -->|"放弃手工特征<br/>换取表达力"| C["表示学习"]

    style A fill:#f9f,stroke:#333
    style B fill:#bbf,stroke:#333
    style C fill:#bfb,stroke:#333
维度 规则系统 特征工程 表示学习
人力成本 极高(规则 + 维护) 高(特征设计) 低(数据收集)
计算成本 极低 低–中 高–极高
可解释性 完全透明 特征层面可解释 黑箱
迁移性 强(预训练 + 微调)
适用数据规模

三个阶段不是简单的替代关系。规则系统在安全关键场景(航空、医疗合规)仍然不可替代,因为可解释性是硬要求。特征工程在小数据场景仍有价值——当你只有 100 条样本时,手工特征 + 简单模型往往比深度学习更可靠。


参考资料


  1. Shortliffe, E.H. Computer-Based Medical Consultations: MYCIN. 1976. 

  2. Weizenbaum, J. ELIZA — A Computer Program For the Study of Natural Language Communication Between Man And Machine. 1966. https://dl.acm.org/doi/10.1145/365153.365168 

  3. Feigenbaum, E.A. The Art of Artificial Intelligence: Themes and Case Studies of Knowledge Engineering. 1977. 

  4. Krizhevsky, A. et al. ImageNet Classification with Deep Convolutional Neural Networks. 2012. https://papers.nips.cc/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html 

  5. Mikolov, T. et al. Efficient Estimation of Word Representations in Vector Space. 2013. https://arxiv.org/abs/1301.3781 

  6. Devlin, J. et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2018. https://arxiv.org/abs/1810.04805 

  7. Brown, T. et al. Language Models are Few-Shot Learners. 2020. https://arxiv.org/abs/2005.14165