hihi,大家好,最近开始和内容那个团队研究SD出图了,作为家具家电行业的小牛人,除了研究SD和ComfyUI本身,需要了解算法同学如何进行模型微调的,因为用的是开源的底座,预训练部分就不深入介绍了,重点看一下二次预训练,在这个过程中有一个环节比较关注就是小规模数据集,也是我们比较重要的点,优质的数据集就是成功的一半!为了达到理想的效果我们在训练过程中也需要提供一些数据集供模型学习!当然就是做一些标注啦。
今天的内容除了数据标注本身也会拓展讲到数据标注这个领域的一些番外知识,除了实践经验,会涉及一些研究报告和公开学习资料,就当是养料补充啦!
一、数据标注概述
定义
简言之,就是需要给数据做好标注,这样机器就能知道学习哪些内容。
趋势
变化
1. 需求变化:与行业场景强相关,高质量数据需求长期且持续大模型时代的到来
大模型时代的到来正加速推动人工智能开发从以模型为中心朝着以数据为中心的方向转变。高质量数据服务需求贯穿大模型全生命周期。
2. 处理流程侧变化:标准从客观到主观,高学历多领域成人才硬指标
数据标注从劳动密集朝着知识密集型转变
**3. 业务变化:**合成数据成新衍生赛道,潜在市场空间巨大