Problem Space
Representation learning 真正要解决的问题,是 怎样把高维、嘈杂、往往含有大量表面细节的原始输入,压缩成一个更紧凑、但仍然保留任务相关结构的表征空间。这个表征既不能只是机械地记住像素、token 或传感器读数,也不能被压缩到丢掉真正有用的语义因子。理想状态下,一个“好表征”应该同时满足几件事:它对 nuisance variation 不敏感,对真正决定语义和行为的因素敏感,能够支持迁移学习、少样本学习、聚类、检索、控制甚至生成,而且在下游模型里最好还容易被线性头或浅层模块利用。
困难恰恰在于,“什么叫好表征”并没有单一、天然正确的答案。同一份输入可以被组织成几何上完全不同、但在某个下游任务上同样有效的 latent space;反过来,一个在分类上很好用的 feature,也可能对生成、控制或因果推断非常糟糕。早期重建式目标常常把模型推向“尽可能保留全部细节”,结果 nuisance 也被完整编码进去;后来的对比学习和 masked modeling 则引入更强的先验,强迫模型学习不变性和上下文结构,但又可能把任务真正需要的细节一起抹掉。Representation learning 的难点,始终是 压缩/compactness、充分性/sufficiency 和不变性/invariance 之间的张力。
更麻烦的是,很多表征学习方法都在 没有显式监督标签 的条件下工作,所以训练目标只能绕路。你可以让模型重建输入,可以让它预测上下文,可以让不同视角的同一样本靠近,也可以让它从缺失块恢复原文,但这些 surrogate objective 和“学到可迁移语义结构”之间永远隔着一层间接性。这也解释了为什么这个领域一直反复追问三个硬问题:目标函数究竟鼓励了什么几何结构,哪些归纳偏置/inductive bias 是必要的,以及我们到底该怎样评估一个表征是否真的理解了数据中的因素。
Methodology Spectrum
如果把方法谱系从“最少假设”推到“先验最强”来排,最左边首先是 重建式表征学习。这一路的代表包括 Auto-Encoding Variational Bayes、beta-VAE、InfoGAN 等。它们的出发点很直接:既然好表征应该足以解释数据,那就要求 latent variable 能生成或重建观测。它的优点是目标清晰、信息保留相对完整,也天然适合把 representation 和 probabilistic modeling 接起来;问题则在于,单靠重建损失很容易把与任务无关的表面细节一起编码进去,所以 latent space 不一定自动变得“语义化”。
再往右走,是 预测式 self-supervision。这一支不再要求模型把输入完整复原,而是要求它从局部信息预测上下文、未来片段或缺失内容。word2vec、BERT、Contrastive Predictive Coding 都可以看成这一思路的不同实现。这里的关键变化是,模型开始被迫利用 上下文共现、时序结构和条件依赖 来组织表征,而不是只做逐像素复制。这类方法通常更容易逼出高层语义,但它们学到的结构会强烈依赖预测任务的定义方式,换句话说,representation 的归纳偏置已经开始由 pretext task 主导。
继续往右,就是 对比式与非对比式表征学习。Momentum Contrast、SimCLR 通过正负样本把“同一对象在不同 view 下应该靠近,不同对象应该分开”这件事直接写进表征几何;Bootstrap Your Own Latent、SimSiam、DINO 则进一步说明,哪怕不显式使用负样本,只要停止梯度、动量教师或特征归一化设计得合适,模型也能避免 collapse,学出可迁移结构。这一层的核心,不再是生成输入,而是 显式塑造 embedding space 的几何关系。因此它们往往在迁移和线性探测上表现很强,但同时也把大量成功依赖压到了 augmentation、batch statistics 和优化细节上。
谱系更右侧的是 masked modeling 与跨模态预训练。Masked Autoencoders Are Scalable Vision Learners 把“恢复缺失块”变成视觉表征学习的主流 recipe,CLIP 则把图像和文本对齐,直接把 representation 的价值绑定到跨模态检索与零样本迁移能力上。这一步最重要的变化,是“好表征”不再只由单一模态内部结构定义,而是由 大规模预训练语料、任务分布和跨任务迁移表现 共同界定。到了这个阶段,representation learning 已经不只是一个局部模块设计问题,而开始变成 foundation model 预训练范式本身的一部分。
Evolution
这条线的第一轮成型,来自 分布式表示/distributed representation 和早期 autoencoder 时代。那时研究者已经意识到,直接在原始输入上工作过于僵硬,模型需要一个连续的、可组合的 feature space 来承载语义。无论是词向量,还是 denoising autoencoder,这一阶段真正奠定的是一个基本信念:表示不是任务附属品,它本身就是学习系统的核心产物。
第二个关键转折出现在 潜变量模型/latent variable models 的成熟阶段。Auto-Encoding Variational Bayes 让深度生成模型和可训练的近似推断真正接上,随后 InfoGAN、beta-VAE 等工作开始显式追求更可解释、更可分解的 latent factors。这里领域第一次比较系统地提出一个更强的问题:表征不只要“有用”,还应该 结构化、可控、最好还能对真实生成因素有某种对应关系。
第三个转折是 2018 到 2020 年前后的 self-supervised turn。Contrastive Predictive Coding、Momentum Contrast、SimCLR 这几篇工作把重心从“重建输入”转到“利用多视角一致性和上下文预测塑造表征几何”。这一步非常关键,因为它让表征学习从生成建模的附属问题,变成了一条可以单独追求迁移性能和语义抽象的主线。领域也从这里开始形成今天最常见的判断标准:linear probe、few-shot transfer、retrieval 和 robustness。
第四个转折来自 无负样本学习与 masked modeling 的扩展。Bootstrap Your Own Latent、SimSiam 和 DINO 证明,对比学习的成功并不一定依赖显式 negative pairs;与此同时,BERT 和 Masked Autoencoders Are Scalable Vision Learners 展示了另一条同样强势的路线,即通过缺失恢复来逼迫模型建模上下文结构。到了这里,representation learning 开始和大规模预训练、优化稳定性以及数据增强策略彻底绑在一起。
最近一轮变化则是 跨模态与 foundation-scale representation learning。CLIP、DINOv2 等工作把表征质量直接和开放词表检索、零样本迁移、跨数据集鲁棒性联系起来,说明领域的目标函数已经从“在一个数据集上学 feature”升级成“在大规模异质语料上学出通用表征基底”。这也意味着 representation learning 的问题设置在持续外扩:它不再只问一个 latent vector 是否好,而是在问 什么样的预训练目标与数据混合策略,能持续产出跨任务、跨模态、跨分布都仍然有用的 feature space。
Key Open Questions
第一块硬问题是表征质量的定义仍然不统一。 线性可分、聚类效果、零样本迁移、重建能力、生成质量、控制友好性,这些指标彼此相关,但绝不等价。领域今天依然缺一个被广泛接受的、能够同时覆盖 sufficiency、invariance、compactness 和 task relevance 的评价框架,这直接导致很多方法只是在某个 probe 上更漂亮,却未必真的学到了更稳健的语义结构。
第二块问题是 disentanglement 与 identifiability 的张力。 大家当然希望一个 latent dimension 对应一个干净的生成因素,但在没有额外监督、归纳偏置或环境干预时,这种对应关系通常并没有可辨识性保证。于是很多“可解释表征”的成功,其实严重依赖数据生成机制、模型结构或人工设计的 inductive bias。怎样在不过度手工设定的前提下得到真正稳健、可重复的 factorized representation,依然是老问题,而且到今天也没有被真正解决。
第三块问题是 pretext objective 和真实下游能力之间的错位。 对比学习的 augmentation 决定了模型学到什么不变性;masked modeling 的 mask ratio 和恢复目标决定了模型会更关注局部纹理还是全局结构;predictive learning 的时间窗口又会改变模型偏向短期统计还是长期语义。也就是说,很多方法看似只是在换损失函数,实质上是在偷偷改变“什么信息值得保留”。当前最大的缺口,是我们仍然缺少足够一般的理论去解释这些设计怎样映射到最终的表征几何和迁移能力。
第四块问题是 evaluation 太容易被 shortcut 欺骗。 线性探测虽然便宜,但它只能告诉你“某个线性头能不能把信息读出来”,并不能告诉你这个表征是否因果稳定、是否支持组合泛化、是否对分布偏移 robust,也不能说明它对控制和规划是否友好。Representation learning 迟早需要更强的评测方式,包括跨任务迁移、反事实干预、分布外泛化以及对下游 sample efficiency 的直接测量。
最后一个越来越重要的问题,是怎样把表征学习从“被动编码”推进到“可行动的世界模型接口”。 一旦任务进入强化学习、多模态 agent 或具身系统,好的表征就不只是把数据压缩得好看,而是要能支撑预测、规划、credit assignment 和策略优化。换句话说,未来很可能不是再发明一个更漂亮的 embedding loss,而是要回答:什么样的 representation 才真正适合 reasoning、control 和 interaction。
Reading Roadmap
Entry
第一轮最适合先读 Auto-Encoding Variational Bayes、InfoGAN 和 A Simple Framework for Contrastive Learning of Visual Representations。这一组能把三件最基础的事讲透:为什么大家要引入 latent variable、为什么“可解释因素”会成为一个独立目标、以及为什么现代 self-supervised learning 会把注意力转向 view consistency 和 embedding geometry。读完这三篇,你对 重建式目标 和 对比式目标 的差别就会有比较稳的感觉。
Core
第二轮建议顺着主脉络往下压,把 beta-VAE、Contrastive Predictive Coding、Momentum Contrast、Bootstrap Your Own Latent 和 Masked Autoencoders Are Scalable Vision Learners 连起来看。这里会把这个 topic 里最关键的几种 recipe 全部展开:结构化潜变量、上下文预测、memory bank/queue 式对比、自蒸馏式非对比学习,以及 masked reconstruction。到这一步,你会开始真正理解不同目标函数到底在推动 representation 保留什么、丢掉什么。
Advanced
第三轮再进入更硬的 frontier,优先看 Learning Transferable Visual Models From Natural Language Supervision (CLIP)、DINOv2,再补一篇分析性质更强的工作,例如 Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere。这组材料的价值不在于再学一个新 trick,而在于把问题抬高到 大规模迁移、跨模态对齐、表征几何分析和 foundation-scale pretraining。如果之后你想把这条线继续接到控制和 decision-making,再回去看 Reinforcement Learning 里关于 state representation 的论文会更顺,因为那时你已经清楚“表征”本身应该提供什么。