文本生成的含义是在某一语言数据基础上对语言的从前到后(自监督本身下行目标)、两段对齐语言序列(相互之间的文本共性矩阵计算)分布的研究实现路线。简而言之如何以具有可微可导的向量去寻找攻关语言分布的能力即为当代信息科学与自然语言学科深度混合的能力。
文本生成第一节
如何基于非结构化数据构建文本生成模型
兵无常势、事无定性。在寻找某一分布下语言与接下来即未来发生的语言之间存在的关联关系的预测,这是非结构化文本生成的定义。
第一阶段构建预训练模型
预训练语言模型开源工作:
Bert、gpt、unilm 预训练语言模型训练:
github.com/bojone/bert…
GAU预训练语言模型开源工作:
ZhuiyiTechnology/GAU-alpha: 基于Gated Attention Unit的Transformer模型(尝鲜版) (github.com)
Google t5 预训练语言模型开源工作:
ZhuiyiTechnology/t5-pegasus: 中文生成式预训练模型 (github.com)
基于ColossalAI的gpt2、gpt3各个参数量的模型预训练加速框架开源工作:
ColossalAI/examples/language/gpt/titans at main · hpcaitech/ColossalAI (github.com)
第二阶段构建基于自监督的文本生成模型
基于自监督的文本生成开源工作:
基于bert的序列生成,没有使用对齐语聊,使用了本身的语聊进行生成式任务的训练。
github.com/bojone/bert…
文本生成第二节
如何构建基于对齐语聊的文本生成模型
对齐语聊包括问答式对齐语聊、评论式对齐语聊、翻译式对齐语聊。
基于google t5模型的对齐文本生成开源工作:
ZhuiyiTechnology/t5-pegasus: 中文生成式预训练模型 (github.com)
第三阶段构建基于对齐语聊的文本生成模型
文本生成第三节
如何构建基于标签迁移的文本生成模型
场景为当同一段输入发生在不同的场景中得到的回复是不同的,于是提出了基于标签+输入的模式构建文本生成prompt迁移模型。
文本生成第四节
单机多卡的服务器语言系列信息科学计算模式
多机多卡大规模超算集群的语言信息科学分布式计算模式
超大规模语言模型的分布式计算,如何对超过单卡模型上限1.5B参数的模型进行分布式自动化分层高效率求导过程。
ColossalAI框架实现了原先以手动决定模型分层到基于参数量、基于模型本身算子的自动化模型分层分布式并行计算的优秀能力。
文本生成第五节
混合多模型工程化鲁棒调优的语言信息科学功能
构建基于预训练+prompt+强化反馈学习的文本生成模型
Chatgpt 混合工程化文本生成模型
开源工作:
ColossalAI/applications/ChatGPT at main · hpcaitech/ColossalAI (github.com)
chatgpt的多策略强化反馈学习实现路径
Chatgpt训练分为三个阶段。参数量虽然有175b,但参数量绝对不会是chatgpt值得吹嘘的。Chatgpt值得吹嘘的是强化反馈学习带来的效果上的巨大变化。这种效果可以被看做成一种模型对错误的连锁向量响应偏差修改模式。
近些年自然语言处理发展的五个重要节点都是与硬件、软件、框架、算法、底层息息相关的