引言:为什么你的模型总在"精神分裂"?
想象你训练了一个AI实习生:
- 早上做文本分类时准确率90%
- 下午做实体识别却把"苹果"都识别成水果公司
- 晚上做情感分析突然开始输出乱码
这就是典型的任务冲突灾难——模型像被不同任务"五马分尸"。DeepSeek通过共享表示层设计,让模型既能在多任务间"融会贯通",又能保持各任务的"个性发挥"。本文将用工程视角,拆解其中23个关键技术细节(含3个未公开秘籍)。
第一章 共享表示层的底层逻辑:从"大锅饭"到"自助餐"
1.1 传统MTL的三大死穴
传统多任务学习常陷入:
- 特征绑架:强势任务独占共享层(如分类任务碾压NER)
- 梯度战争:不同任务的梯度在反向传播时"打架"
- 维度诅咒:共享层维度不够导致特征纠缠(实验显示512维是临界点)