知识蒸馏 | Plutoxx28

一篇跟AI聊出来的总结文章😉

知识蒸馏（Knowledge Distillation）作为一种重要的模型压缩技术，近年来在AI领域得到了广泛应用。从Geoffrey Hinton在2015年提出的经典知识蒸馏方法，到如今DeepSeek R1等大模型的蒸馏实践，这一技术正在不断演进。本文将全面解析知识蒸馏的核心概念、技术原理，以及不同实现方式的优劣对比。

一、软标签与硬标签：理解蒸馏的基础概念

要理解知识蒸馏，首先需要明确软标签和硬标签的区别。硬标签（Hard Labels）是确定性的、离散的标签，明确指定唯一正确答案，不包含概率或不确定性信息。典型的硬标签形式包括one-hot编码[0, 0, 1, 0, 0]（只有正确类别为1）、二进制标签1（1=正面，0=负面），以及多标签场景中的[1, 0, 1, 0, 0]（多个类别同时为1）。这些硬标签通常来源于人工标注、规则生成或离散化处理。

相比之下，软标签（Soft Labels）是教师模型输出的概率分布，包含更丰富的信息。例如[0.1, 0.05, 0.7, 0.1, 0.05]这样的概率分布，不仅告诉我们最可能的答案是第三个选项，还揭示了其他选项的相对重要性。Hinton将软标签中蕴含的额外信息称为"暗知识"（Dark Knowledge），这些信息揭示了类别间的关系和相似性，是传统硬标签无法提供的。

需要澄清的是，软标签和硬标签是数据类型的区别，而不是蒸馏方法的分类。知识蒸馏可以使用软标签（教师模型的概率输出）或硬标签（确定的文本序列），这取决于具体的应用场景和技术选择。

二、知识蒸馏的基本原理

知识蒸馏的核心思想是让小的学生模型学习大的教师模型的知识。在经典的知识蒸馏中，损失函数通常包含两部分：

1
2
3
4
5
6
7
8
# 蒸馏损失（使用软标签）
soft_loss = KL_divergence(student_probs, teacher_probs)

# 标准损失（使用硬标签，可选）
hard_loss = CrossEntropy(student_logits, ground_truth)

# 总损失
total_loss = α * soft_loss + (1-α) * hard_loss

这种设计让学生模型同时学习教师模型的软输出（概率分布）和真实的硬标签（ground truth）。温度参数（Temperature）在此过程中扮演重要角色，通过控制softmax(logits/T)中的T值，可以调节概率分布的"软硬程度"——T越大分布越平滑，T越小分布越尖锐。

三、蒸馏方法的技术维度分析

与其简单地将蒸馏方法分为"传统"和"现代"，更准确的做法是按照不同的技术维度进行分类：

（一）按访问方式分类：白盒与黑盒蒸馏

白盒蒸馏需要完全访问教师模型的内部结构，包括权重、中间层输出等。这种方式的优势是可以获取更多信息，但要求对教师模型有完全控制权。黑盒蒸馏则只需要通过API调用获取教师模型的输出，适用于无法访问模型内部的场景，如使用GPT-4等闭源模型作为教师。

（二）按学习目标分类：特征匹配与输出匹配

Feature-based蒸馏让学生模型学习教师模型的中间层特征表示：

1
2
3
4
# 匹配中间层特征
teacher_hidden = teacher_model.layer_n(x)
student_hidden = student_model.layer_m(x)
loss = MSE(student_hidden, teacher_hidden)

这种方法的挑战在于需要架构匹配，学生模型受限于教师结构。Output-based蒸馏则专注于最终输出，给予学生模型更多架构设计自由：

1
2
3
4
# 只关注最终输出
teacher_output = teacher_model(prompt)
student_output = student_model(prompt)
loss = CrossEntropy(student_output, teacher_output)

值得注意的是，Hinton在2015年提出的经典蒸馏方法实际上就是Output-based的，只使用最终层的软标签，而不是中间层特征。

（三）按数据形式分类：概率分布与序列生成

传统的蒸馏主要处理概率分布数据，学生模型学习如何在各个类别间分配概率。而在大语言模型时代，越来越多的蒸馏工作处理文本序列数据，如DeepSeek R1的实现方式。

四、DeepSeek R1蒸馏：一个具体案例

DeepSeek R1的蒸馏方法为我们提供了一个具体的实现参考。该方法采用了相对直接的实现方式：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
# DeepSeek R1蒸馏方法（简化描述）
# 1. 数据生成阶段
reasoning_data = deepseek_r1.rejection_sampling(prompts, 600k_samples)  # 推理数据
non_reasoning_data = collect_general_data(200k_samples)  # 一般任务数据
training_data = filter_and_clean(reasoning_data + non_reasoning_data)  # 质量控制

# 2. 学生模型训练
student_model.fine_tune(
    data=training_data,  # 800k精选样本
    method="SFT_only",   # 仅监督微调，不含RL
    base_models=["Qwen2.5", "Llama3"]  # 支持不同架构
)

这种方法使用DeepSeek-R1通过rejection sampling等技术生成的800k高质量样本来微调开源模型如Qwen和Llama。这些样本包括约600k推理相关样本和200k通用任务样本。训练方式仅应用SFT（监督微调），不包括RL阶段。学生模型可以完全重新设计，不受教师架构限制，这正是黑盒蒸馏的优势。

一个重要发现是，DeepSeek-R1-Distill-Qwen-32B（蒸馏版本）的性能显著超过了DeepSeek-R1-Zero-Qwen-32B（直接在32B模型上做RL训练），说明蒸馏比直接在小模型上做RL更高效。

详细的数据处理流程、质量控制机制和实验结果，请查看DeepSeek R1论文Section 2.4和Section 4.1。

五、教学产物与学习方式的关系

理解不同蒸馏方法的一个关键视角是教学产物决定了学习方式。

当教师模型提供概率分布作为教学产物时，如[0.1, 0.05, 0.7, 0.15]，学生模型学到的是"判断的方法和置信度"。这就像观察厨师做菜时的每个判断过程——什么时候犹豫、什么时候确定、如何在多个选项间权衡。学生获得的是判断的细腻度和推理能力。

当教师模型提供确定文本作为教学产物时，如完整的CoT推理过程，学生模型学到的是"标准的解题套路"。这更像是学习一份详细的菜谱——虽然是确定的步骤，但如果菜谱足够详细（如DeepSeek的CoT数据），学生同样能学到完整的方法论。

需要注意的是，使用硬标签的蒸馏并非简单的“填鸭式”学习。特别是在处理包含推理过程的CoT数据时，学生模型学到的是完整的推理模式和解题步骤，这种学习方式更准确地说是"传授标准化的解决方案"。

六、商业应用与价值

知识蒸馏在商业应用中具有显著价值。核心价值主张包括：降本增效（小模型+大模型知识=高性价比）、降低技术门槛（很多公司没有能力训练大教师模型），以及数据增值（把原始数据变成"知识增强"的训练集）。

基于教师模型输出的增强数据集服务、蒸馏即服务（Distillation-as-a-Service）、以及专业的模型压缩服务都是可行的商业模式。特别是在AI模型小型化需求越来越强的趋势下，这个方向具有很大的商业前景。

参考资料：

Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the Knowledge in a Neural Network. arXiv preprint arXiv:1503.02531.
Romero, A., Ballas, N., Kahou, S. E., Chassang, A., Gatta, C., & Bengio, Y. (2014). FitNets: Hints for Thin Deep Nets. arXiv preprint arXiv:1412.6550.
Zagoruyko, S., & Komodakis, N. (2016). Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer. arXiv preprint arXiv:1612.03928.
Gou, J., Yu, B., Maybank, S. J., & Tao, D. (2021). Knowledge Distillation: A Survey. International Journal of Computer Vision, 129(6), 1789-1819.
DeepSeek AI. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948.

一、软标签与硬标签：理解蒸馏的基础概念#

二、知识蒸馏的基本原理#

三、蒸馏方法的技术维度分析#

（一）按访问方式分类：白盒与黑盒蒸馏#

（二）按学习目标分类：特征匹配与输出匹配#

（三）按数据形式分类：概率分布与序列生成#

四、DeepSeek R1蒸馏：一个具体案例#

五、教学产物与学习方式的关系#

六、商业应用与价值#