【LLM之Base Model】Weaver论文阅读笔记

news2026/2/14 8:38:17

研究背景

当前的大型语言模型（LLM）如GPT-4等，尽管在普通文本生成中表现出色，但在创造性写作如小说、社交媒体内容等方面，往往不能很好地模仿人类的写作风格。这些模型在训练和对齐阶段，往往使用的是大规模的、质量较低的网络文本或机器生成文本，这导致了模型生成的内容虽流畅但缺乏创造性和人类风格。

研究目标

Weaver模型系列旨在通过预训练和特定领域的对齐，使LLMs在创意和专业写作方面表现得更加人性化和多样化。Weaver通过引入一系列新的数据合成和对齐方法，使其能够生成更具创造性和符合人类风格的文本，从而满足内容创作的多样需求。

方法论

数据处理

Weaver模型使用了一种创新的数据合成框架，用于在对齐阶段解锁模型的写作能力。首先，通过对高质量故事、小说和文案的收集，生成与写作任务相关的高质量指令-响应对。此外，还采用了结合规则和机器学习的方法来过滤低质量文本，以确保训练数据的高质量和多样性。
在SFT阶段，收集了34个子领域和50万的指令-输出对：
在这里插入图片描述
在偏好对齐阶段，使用Constitutional DPO方法收集以下领域任务的dpo数据

解决方案

Instruction Backtranslation

【指令反向翻译】（Instruction Backtranslation）是一个核心方法，用于合成高质量的训练数据，以改进语言模型按照具体指令生成文本的能力。这个过程通过以下几个步骤实现：

从专业写作者那里收集高质量内容：首先从专业内容创建者如作家和编辑那里收集高质量的故事、小说章节、博客文章等内容。
合成指令-响应对：通过反向翻译框架，将收集到的内容转化为指令-响应对。具体来说，对于每个高质量的文本，模型会生成一个与之对应的指令，使得该文本可以作为这一指令的合理响应。
扩展和多样化的指令生成：该框架不仅重新生成已有指令，还能创造新的指令，以引导模型产生与原始文本风格或内容相符的新文本。这样做可以显著提高数据的多样性和覆盖范围。
提高数据注释质量：通过自动化的反向翻译过程减少人工注释的需求，降低成本，同时通过精确控制生成过程来提高注释数据的质量。

Constitutional DPO

提出Constitutional DPO算法，用于模型偏好的优化。Constitutional DPO 是一种用于调整大型语言模型（LLMs）的新型方法，旨在通过学习遵循专家定义的原则，从而优化模型的输出质量。这种方法结合了几种现有技术的优势，包括Constitutional AI、RLCD（Reinforcement Learning with Critic-Demonstrations）、以及DPO（Direct Preference Optimization）。此算法利用专家注释的原则来合成反例，以此校准模型输出，确保其遵循特定的写作原则和风格。
在这里插入图片描述
具体来说，Constitutional DPO 通过以下步骤工作：
（1）原则定义与注释：首先，邀请人类专家（如专业作家、编辑）为不同的写作任务注释原则。这些原则不仅包括简短的描述，还包含一个遵循该原则的案例和一个违反该原则的案例，以及解释为什么这些案例符合或违反原则的自然语言推理。
（2）负面示例生成：在每个原则下，基于高质量的文本样本，使用语言模型（如GPT）生成与正面示例相对的负面示例。负面示例通过最小化修改原始响应来违反特定原则，但不影响其他好的方面。这种方法生成的偏好数据噪声较少，特别是在需要较高标准的写作领域中，能够提供更加有原则性和针对性的学习信号。
（3）偏好数据优化：利用生成的正负样本对，作为 DPO 训练的输入数据对 (yw, yl)。通过这种方式，每个数据对都包含了对应原则的关键训练信号，有助于模型在微调过程中学习并遵循这些原则。

实验

能力体系设计

大类	中类	小类
指令遵循	领域	小说写作
指令遵循	领域	非小说创意性写作
指令遵循	领域	营销写作
指令遵循	领域	技术写作
指令遵循	任务	内容编写
指令遵循	任务	大纲编写
指令遵循	任务	润色
指令遵循	任务	风格转换
指令遵循	任务	扩写/缩写
指令遵循	任务	头脑风暴
指令遵循	任务	文章审核
指令标注	-	-
答案评估	-	-
RAG	-	-
Function call	-	-

实验设计

数据方面

阶段	量级	备注
Pretrain	50B	将小说数据（即小说和故事）和非小说数据（即文章、论文、报告等）混合在一起。它的比例是1： 1。我们还将中文和英语数据与4： 1的部分混合，使Weaver同时支持中文和英语。
Sft	40w
DPO	2.5w

评价指标

Weaver模型在一个专门设计的创意写作基准测试（WriteBench）上进行了评估，该测试覆盖了多种写作领域和任务，包括小说写作、创意非小说写作、技术写作和市场营销写作，用以全面评估模型的写作能力。
WriteBench 包含了超过1000条测试指令，覆盖了上述多个写作领域。为了保证评估的公平性和客观性，WriteBench 的数据收集和选择过程由一个独立的评估团队进行。这些测试指令被用于生成模型的输入提示，并记录模型的输出以进行比较。