ChatHome: Development and Evaluation of a Domain-Specific LanguageModel for Home Renovation
ChatHome: 家居装修垂类大语言模型的开发和评估
1、摘要:
我们的方法包括两个步骤:首先,使用广泛的家庭装修数据集(包括专业文章、标准文档和网络内容)对通用模型进行后预训练。其次,使用基于家庭装修的提示生成的问答对数据集实现指令调整策略。
本研究旨在证明预训练后对大型语言模型进行微调可以提高它们在特定领域的性能。在增强特定领域的能力的同时,我们还关注模型的一般能力的变化,并进行详细的评估,这将在后续章节中详细描述。
总之,有两个主要的贡献。
• 我们建立了ChatHome,这是一个经过微调的专注于家居装修领域的大模型。
• 我们引入了一个领域数据集,并对在通用和垂域数据集进行了全面的实验,来验证我们模型的有效性。
2、数据构建
pretrain corpus
训练的语料库
国家标准、书籍、网站、通用数据
26.6M tokens from the domain corpus and 276.6M tokens from the general corpus.
1比11