大体上可划分为3类:
1)训练中间层以对齐视觉模块和语言模型。该类方法首先预训练视觉模块,将这些视觉模块与LLM冻结,然后在视觉模块与LLM之间插入可训练的中间层,构建多模态模型。接着在大规模的图像—文本对数据集上对多模态模型进行微调,更新中间层的可训练参数,实现视觉模块与LLM的对齐,完成跨模态任务。
2)多模态指令微调。
该类方法在模态对齐的基础上,进一步进行指令微调训练,用多模态指令数据集对视觉编码器等额外结构进行适配,使其能够与LLM协同工作,从而达到与GPT-4类似的多模态能力。这类模型的训练通常包含两个阶段:第1阶段利用大规模的图像-文本对数据对模型进行预训练,学习视觉和语言模态间的对齐;第2个阶段通过多模态指令数据集对模型进行微调,让模型获得多模态指令跟随能力。
3)LLM作为理解中枢。
该类方法利用LLM实现多模态处理,它将多模态数据转化为文本数据输入LLM,作为与用户交流的理解中枢,LLM根据用户需求调用其它视觉基础模型,从而达到跨模态输入输出和完成多种任务的效果。目前VisualChatGPT,MM-REACT采用这种方式构成多模态大模型。
目前,多模态大模型技术尚处于初级阶段,面临着训练数据不足、多模态信息表示不一致和对齐算法不精确等挑战。然而,多模态大模型具有融合多种感知维度的信息的能力,更接近人类认知世界的方式,是大模型未来的重要发展方向之一。
学术问题付费咨询及相关探讨
博士,担任《Mechanical System and Signal Processing》审稿专家,担任
《中国电机工程学报》优秀审稿专家,《控制与决策》,《系统工程与电子技术》等EI期刊审稿专家,担任《计算机科学》,《电子器件》 , 《现代制造过程》 ,《船舶工程》 ,《轴承》 ,《工矿自动化》 ,《重庆理工大学学报》 ,《噪声与振动控制》 ,《机械传动》 ,《机械强度》 ,《机械科学与技术》 ,《机床与液压》,《声学技术》,《应用声学》等中文核心审稿专家。
擅长领域:现代信号处理,机器学习,深度学习,数字孪生,时间序列分析,设备缺陷检测、设备异常检测、设备智能故障诊断与健康管理PHM等。