从规则到表示学习¶

背景知识

特征 (Feature)：描述数据的属性维度，如像素值、词频、边缘方向等，是模型决策的输入
监督学习：给定输入-输出对 (x, y)，学习从 x 到 y 的映射函数
深度神经网络：多层非线性变换的堆叠，层数越多能提取的抽象层次越高

本文档梳理机器学习在"谁来定义特征"这个问题上的三次范式转换。重点不是历史流水账，而是每次转换背后的技术瓶颈和突破点。

相关文档：Transformer 架构

核心脉络：人逐步退出¶

阶段	年代	人做什么	机器做什么	瓶颈
规则系统	1960s–1980s	定义特征 + 编写规则	执行	规则组合爆炸，无法覆盖真实世界的复杂性
特征工程	1990s–2012	定义特征	学习决策边界	特征设计依赖领域专家，迁移性差
表示学习	2012–	提供数据和目标	学习特征 + 学习决策	数据量和算力需求剧增

每一次转换的本质都是同一件事：把人类的认知负担转移给模型，用计算量换泛化能力。

1. 规则系统：人全包¶

做法¶

人类专家手动编写 if-else 规则。特征是人定义的，判断逻辑也是人写的。

垃圾邮件检测示例：

如果 发件人不在通讯录
  且 正文包含"免费"或"中奖"
  且 包含超链接
→ 标记为垃圾邮件

NLP 示例（专家系统）：词法分析 → 句法分析 → 语义规则，每一步都是人手写的 pattern matching。

代表¶

MYCIN (1976)：斯坦福的医学诊断专家系统，约 600 条规则¹
ELIZA (1966)：基于模式匹配的对话系统²

为什么走不下去¶

规则数量随问题复杂度指数增长。MYCIN 的 600 条规则只覆盖了血液感染这一个狭窄领域。要覆盖真实世界的多样性，规则之间的交互和冲突会变得不可维护——这就是所谓的"知识获取瓶颈"³。

2. 特征工程：人退出规则编写¶

突破点¶

核心转变：人不再写决策规则，改为写"看什么"，让模型自己学"怎么判断"。

统计学习的兴起（SVM、逻辑回归、随机森林）让机器能从数据中学习决策边界。但机器只能在人提供的特征空间里学习——特征定义得好不好，直接决定了模型的上限。

各领域的特征设计¶

领域	典型手工特征	说明
NLP	词袋 (BoW)、TF-IDF、n-gram、POS tag	把文本变成稀疏数值向量
CV	SIFT、HOG、Haar 特征	从像素中提取边缘、梯度、纹理等几何描述子
语音	MFCC（梅尔频率倒谱系数）	把音频信号变成反映人耳感知特性的频域特征
推荐	用户年龄、点击次数、浏览时长	业务人员逐个定义的行为指标

为什么走不下去¶

依赖领域专家：设计好的 SIFT 特征需要深厚的计算机视觉知识；设计好的 NLP 特征需要语言学背景。特征工程师是稀缺资源。
迁移性差：为垃圾邮件设计的特征无法迁移到情感分析；为人脸检测设计的 Haar 特征无法迁移到医学影像。每换一个任务，特征要重新设计。
表达力天花板：人类能想到的特征维度有限。稀疏的词袋向量丢失了词序信息；HOG 特征丢失了高层语义。模型的上限被人的想象力锁死。

3. 表示学习：人退出特征设计¶

突破点¶

核心转变：人不再定义"看什么"，只提供原始数据和训练目标，让模型自己学出有用的表示。

这要求模型有足够的容量（参数量）来从原始数据中提取多层次的抽象特征——深度神经网络提供了这个容量。

关键里程碑¶

时间	事件	意义
2012	AlexNet 赢得 ImageNet	CV 领域证明：端到端学习的卷积网络碾压手工特征 + SVM⁴
2013	Word2Vec	NLP 领域证明：无监督训练出的词向量自动捕获语义关系⁵
2018	BERT	上下文表示——同一个词在不同语境中获得不同向量⁶
2020	GPT-3	规模涌现——足够大的语言模型从"学表示"升级为"直接解决任务"⁷

为什么能工作¶

模型参数量远小于训练数据量，所以它必须压缩。为了用有限的参数尽可能准确地预测数据，模型被迫提取数据中的规律和结构。

压缩的过程就是在提取特征。而且由于没有人为限制"只能看哪些维度"，模型学出的特征空间往往比人工设计的更高维、更精细。

当前的代价¶

自动化不是免费的。表示学习把人的认知负担转化成了计算负担：

数据需求：GPT-3 的训练数据约 500B tokens，远超任何人工标注能力所及
算力需求：AlexNet 用 2 块 GPU 训练一周；GPT-4 的训练成本估计在 $100M 量级
可解释性下降：手工特征你知道每一维是什么意思；模型自学的表示是高维黑箱

设计权衡总结¶

graph LR
    A["规则系统"] -->|"放弃手写规则<br/>换取泛化能力"| B["特征工程"]
    B -->|"放弃手工特征<br/>换取表达力"| C["表示学习"]

    style A fill:#f9f,stroke:#333
    style B fill:#bbf,stroke:#333
    style C fill:#bfb,stroke:#333

维度	规则系统	特征工程	表示学习
人力成本	极高（规则 + 维护）	高（特征设计）	低（数据收集）
计算成本	极低	低–中	高–极高
可解释性	完全透明	特征层面可解释	黑箱
迁移性	无	差	强（预训练 + 微调）
适用数据规模	小	中	大

三个阶段不是简单的替代关系。规则系统在安全关键场景（航空、医疗合规）仍然不可替代，因为可解释性是硬要求。特征工程在小数据场景仍有价值——当你只有 100 条样本时，手工特征 + 简单模型往往比深度学习更可靠。

参考资料¶

Shortliffe, E.H. Computer-Based Medical Consultations: MYCIN. 1976. ↩
Weizenbaum, J. ELIZA — A Computer Program For the Study of Natural Language Communication Between Man And Machine. 1966. https://dl.acm.org/doi/10.1145/365153.365168 ↩
Feigenbaum, E.A. The Art of Artificial Intelligence: Themes and Case Studies of Knowledge Engineering. 1977. ↩
Krizhevsky, A. et al. ImageNet Classification with Deep Convolutional Neural Networks. 2012. https://papers.nips.cc/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html ↩
Mikolov, T. et al. Efficient Estimation of Word Representations in Vector Space. 2013. https://arxiv.org/abs/1301.3781 ↩
Devlin, J. et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2018. https://arxiv.org/abs/1810.04805 ↩
Brown, T. et al. Language Models are Few-Shot Learners. 2020. https://arxiv.org/abs/2005.14165 ↩