CV和NLP领域常见模型列表

图像分类（Image Classification）

模型名	特点	备注
ConvNeXt V2	卷积改进，媲美 Transformer	强于 ResNet、EfficientNet
Vision Transformer (ViT)	全 Transformer 架构	开创图像 transformer 浪潮
Swin Transformer V2	局部注意力 + 金字塔结构	更强的多尺度能力
CoaT / CMT / EfficientFormer	卷积+注意力结合	提高效率，兼顾性能

目标检测（Object Detection）

模型名	类型	特点
YOLOv8	单阶段	快速轻量，工业实用
RT-DETR	Transformer	实时 DETR，端到端快
DINO	Transformer	DETR 系列最强，效果极佳
Sparse R-CNN	Region-based	不用 anchor，更精炼
Deformable DETR	Transformer + 可变卷积	提高收敛速度

实例分割（Instance Segmentation）

模型名	基础架构	特点
Mask R-CNN	Faster R-CNN + mask head	经久不衰的经典方案
SOLOv2 / YOLACT	单阶段	实时分割方案
Mask2Former	Transformer + 全任务统一	分割任务通吃（语义/实例/全景）

语义分割（Semantic Segmentation）

模型名	特点	数据集
SegFormer	高效的 transformer 分割	Cityscapes, ADE20K
HRNet	高分辨率保持	多尺度信息并行
DeepLabv3+	空洞卷积	曾是标准方法
Mask2Former	通用分割架构	适配所有分割类型

视频理解（Video Understanding）

模型名	任务	特点
VideoMAE	视频分类	自监督预训练，表现强
TimeSFormer	Transformer	分离时空 attention
SlowFast	动作识别	快慢路径建模动作变化

多模态视觉（Vision + Language）

模型名	类型	特点
BLIP / BLIP-2	图文生成/理解	支持图像描述、VQA、跨模态检索
OFA	One-For-All	统一多模态任务
GIT	图文 Transformer	图像 → 文本，轻量高效
MiniGPT-4 / LLaVA	类 GPT-4V	图文对话，基于视觉 encoder + LLM

自动驾驶/3D 检测（3D Detection / Perception）

模型名	特点	数据集
BEVFormer	bird’s-eye-view Transformer	NuScenes, Waymo
PointRCNN	基于点云的 R-CNN	KITTI
PV-RCNN	高效的两阶段点云检测	3D 识别 SOTA 多次
CenterPoint	anchor-free + center-based	快速稳定

视觉基础模型（视觉大模型，VLM）

模型名	类型	特点
CLIP	图文对齐	开创多模态预训练
DINOv2	视觉表示学习	强大的通用视觉表征
SAM (Segment Anything)	万能分割器	Promptable 分割范式
SEEM	Everything Model	多模态提示泛化分割
Florence / BEiT-3	微软大模型	文本图像联合建模

文本分类 / 情感分析（Text Classification / Sentiment Analysis）

模型	特点	常用数据集
RoBERTa	BERT 的优化版，泛化更强	SST-2, AGNews
DeBERTa V3	解耦注意力，表现顶级	GLUE, IMDb
ERNIE 3.0	知识增强预训练	中文任务强
ELECTRA	GAN 式训练，高效收敛	-

文本生成（Text Generation）

模型	特点	应用方向
GPT-4	多模态，推理能力强	通用文本生成
LLaMA 2	开源强模型，适合微调	Chat、创作等
GLM-4	中英文表现均衡，开放模型	中英生成、对话
T5 / FLAN-T5	任务统一建模	可调教生成模型

阅读理解 / 问答（Reading Comprehension / QA）

模型	特点	数据集
UnifiedQA	多任务问答统一架构	SQuAD, HotpotQA
Macaw	开放域 QA	可解答常识、多步问题
GPT 系列 + Retrieval	检索增强生成	RAG, WebQA 等
ChatGPT (GPT-3.5/4)	多轮推理能力	多任务泛化强

语言建模 / 通用 LLM

模型	说明
GPT-4 / ChatGPT	多任务通用模型，表现全面
Claude 3	强推理与安全性兼顾
Gemini	Google 的多模态旗舰
LLaMA 2	高性价比开源 LLM
GLM 系列	中文支持强，开源友好
Mistral / Mixtral	小模型高性能，MoE 架构代表

文本摘要（Summarization）

模型	特点	任务类型
PEGASUS	预训练专为摘要设计	abstractive summarization
BART / mBART	编码解码 + 噪声建模	多语言支持强
T5 / FLAN-T5	任务统一建模	任意格式摘要
ChatGPT / GPT-4	长文摘要能力优秀	长文+结构保持

信息抽取（NER / RE / Event Extraction）

模型	特点
BERT-MRC / UIE（统一信息抽取）	提示式信息抽取（统一问答框架）
LayoutLMv3	文档抽取 + 视觉增强
DyGIE++	实体 + 关系 + 事件联合抽取
ChatGLM + Prompt	用于小样本 Prompt NER

机器翻译（Machine Translation）

模型	特点	来源
mBART / mT5	多语言预训练	Facebook / Google
NLLB-200	支持 200 多种语言	Meta
DeepL + GPT-4	实用最强组合	商业翻译+润色
ChatGPT	润色式翻译优于通用 NMT

推理任务（自然语言推理 NLI / 多跳问答 / 多步推理）

模型	特点	数据集
DeBERTa / RoBERTa	NLI 经典强者	MNLI
GPT-4	多步链式推理能力强	Chain-of-Thought
ReAct / CoT Prompting	结合工具和思考的推理范式	HotpotQA, OpenBookQA

多语言 NLP（Multilingual NLP）

模型	特点
mBERT / XLM-R	多语言预训练的经典
mT5 / mBART50	多语言翻译 + NLU 支持
NLLB-200	特别适合低资源语言

视觉定位概览

过去几年，视觉定位领域从基于 DETR 的模块化检测-定位框架发展到大规模多模态预训练，再到结合大型语言模型的多粒度生成式方法。早期代表作 MDETR（2021）首次将检测与定位端到端统一；随后 GLIP（2021）通过语言——图像对齐预训练在 COCO 上取得 60.8 AP 的 SOTA 成绩；GLIPv2（2022）进一步拓展到实例分割与多任务跨模态理解。2023 年，Grounding DINO 在零样本检测与定位上刷新记录；2024 年底的 OneRef 与 HiVG 引入了生成式和层次化多模态策略；最新的Ferret（ICLR 2024）将定位能力嵌入到多模态 LLM，实现任意形状的开放词汇定位；甚至 3D 视觉定位领域也涌现出 SeeGround（2024 12）等零样本框架。

从基于 DETR 的端到端方法（如 MDETR）➔区域–短语对齐预训练（如 GLIP/GLIPv2）➔零样本&开放词汇定位（GroundingDINO 及其 Pro 版本）➔生成式&统一框架（OneRef、Generative VLM）➔多模态大模型（Ferret、Kosmos-2）的融合应⽤。

1. 基于 DETR 的端到端定位模型

MDETR (2021)：首个将目标检测与自然语言定位统一在 DETR 框架下，通过多模态编码器-解码器端到端训练，实现对 RefCOCO 系列基准的领先表现。
LightMDETR (2024)：轻量化版本，P@1 在 RefCOCO（85.92%）与 RefCOCOg（80.97%）上略超原始 MDETR，验证了“低成本”端到端方法的可行性
Position-guided Text Prompt：在预训练阶段通过“分块+填空”机制强化图文位置对齐，有效提升下游定位精度。
RefFormer(NIPS 2024)：通过“查询适配（Referential Query）”模块，将 CLIP 作为背靠骨干，生成初始查询以减轻多模态解码难度，在五个视觉定位基准上超越此前 SOTA。

2. 区域—短语对齐预训练

GLIP (CVPR 2022)：Grounded Language-Image Pre-training 模型，统一目标检测与短语定位预训练，实现 60.8 AP on COCO val，并展现强zero-shot、few-shot 能力。
GLIPv2 (2022)：在 GLIP 基础上，增加实例分割与多任务理解，统一 Localization 与 Vision–Language Pre-training，使单一模型同时达到检测、分割与定位的 SOTA 水平。
CLIP-VG (TMM 2023)：利用 CLIP 生成伪语言标签并自适应课程学习，在 RefCOCO/+/g 上的全/弱监督与无监督场景均刷新了当时记录。

3. 零样本与开放词汇定位

GroundingDINO (ECCV 2024)：将 DINO 检测器与 grounded pre-training 结合，实现开放词汇检测与定位的零样本 SOTA，在 COCO、LVIS 及 ODinW 等基准上表现优异。
GroundingDINO 1.6 Pro (2025 Q1)：对 1.5 版本进一步优化，尤其是在 LVIS “rare” 类的零样本迁移上取得更大提升。
Florence-2-large-ft：在 Papers With Code Leaderboard 上，Florence-2-large-ft 在 RefCOCO+、RefCOCO、RefCOCOg 多个拆分上均居榜首。

4. 生成式统一与层次化多模态策略

OneRef (NeurIPS 2024)：通过生成式定位机制，实现端到端从文本到检测框的“一步到位” Referring Expression Comprehension，通过 Mask Referring Modeling（MRefM）在 RefCOCOg/Flickr30K 上刷新记录。
Learning Visual Grounding from Generative VLM (Jul 2024)：利用大规模生成式 VLM 自动构建 1M+ 对应表达的 Grounding 数据集，零样本迁移到 RefCOCO 系列便大幅超越人标方
HiVG (ACM MM 2024)：采用层次化多模态细粒度特征融合，进一步提升复杂表达式下的定位准确率。

5. 大型多模态语言模型融合

Ferret (ICLR 2024)：将混合离散坐标与连续特征的区域表示融合到 MLLM 中，支持任意形状、开放词汇的精细化视觉定位。
Kosmos-2 (2023)：通过 Markdown 链接式表达[text span](bounding boxes)，基于大规模 GrIT 语义-视觉对齐数据集训练，将定位能力内嵌到通用多模态 LLM，实现多任务跨模态理解与定位。
BLIP-2 (2023)：利用冻结的图像与语言模型，通过轻量级查询器桥接两者，实现低成本预训练并在包括定位在内的多项视觉-语言任务上刷新 SOTA。

6. 3D 场景定位

SeeGround (2024 12)：零样本 3D 视觉定位框架，将 2D 预训练 VLM 扩展至 3D 场景，通过多视角渲染与空间描述融合，超越弱监督和部分监督 SOTA。

视觉定位的 SOTA 模型已覆盖从端到端 DETR、区域–短语预训练、零样本开放词汇、生成式一体化，到多模态大模型等全栈技术路线。选型应根据下游需求（精度 vs. 效率、零/少样本、生成能力、LLM 集成）进行权衡。

模型名称	参数量 (B)	RefCOCO (val / testA / testB)	RefCOCO+ (val / testA / testB)	RefCOCOg (val / test)
KOSMOS-2	1.6	52.32 / 57.42 / 47.26	45.48 / 50.73 / 42.24	60.57 / 61.65
MDETR-R101	–	86.75 / 89.58 / 81.41	79.52 / 84.09 / 70.62	81.64 / 80.89
NExT-Chat	7	85.50 / 90.00 / 77.90	77.20 / 84.50 / 68.00	80.10 / 79.80
MDETR-ENB3	–	87.51 / 90.40 / 82.67	81.13 / 85.52 / 72.96	83.35 / 83.31
Shikra	7	87.01 / 90.61 / 80.24	81.60 / 87.36 / 72.12	82.27 / 82.19
Ferret	7	87.49 / 91.35 / 82.45	80.78 / 87.38 / 73.14	83.93 / 84.76
GroundingGPT	7	88.02 / 91.55 / 82.47	81.61 / 87.18 / 73.18	81.67 / 81.99
PixelLLM	4	89.80 / 92.20 / 86.40	83.20 / 87.00 / 78.90	84.60 / 86.00
SimVG-DB-Base	0.18	91.47 / 93.65 / 87.94	84.83 / 88.85 / 79.12	86.30 / 87.26
COMM-7B	7	91.73 / 94.06 / 88.85	87.21 / 91.74 / 81.39	87.32 / 88.33
SimVG-DB-Large	0.61	92.87 / 94.35 / 89.46	87.28 / 91.64 / 82.41	87.99 / 89.15