【人工智能124种任务大集合】-集齐了自然语言处理(NLP),计算机视觉(CV),语音识别,多模态等任务

news2025/1/12 21:50:46

大家好,我是微学AI,今天给大家介绍一下人工智能124种任务大集合,任务集合主要包括4大类:自然语言处理(NLP)、计算机视觉(CV)、语音识别、多模态任务。
在这里插入图片描述

我这里整理了124种应用场景任务大集合,每个任务目录如下:

  1. 句子嵌入(Sentence Embedding):将句子映射到固定维度的向量表示形式。
  2. 文本排序(Text Ranking):对一组文本进行排序,以确定它们与给定查询的相关性。
  3. 分词(Word Segmentation):将连续的文本切分成单词或词块的过程。
  4. 词性标注(Part-of-Speech):对句子中的每个词汇标注其相应的词性。
  5. 标记分类(Token Classification):将输入的文本序列中的每个标记分类为预定义的类别。
  6. 命名实体识别(Named Entity Recognition):识别文本中具有特定意义的命名实体,如人名、地点、组织等。
  7. 关系抽取(Relation Extraction):从文本中抽取出实体之间的关系或联系。
  8. 信息抽取(Information Extraction):从非结构化文本中提取结构化的信息,如实体、关系和属性等。
  9. 句子相似度(Sentence Similarity):衡量两个句子之间的语义相似度或相关性。
  10. 文本翻译(Translation):将一种语言的文本转换为另一种语言的过程。
  11. 自然语言推理(NLI:Natural Language Inference):判断给定的前提和假设之间的逻辑关系,包括蕴含、矛盾和中立等。
  12. 情感分类(Sentiment Classification):将文本分为积极、消极或中性等情感类别。
  13. 人像抠图(Portrait Matting):从图像中准确地分离人物主体与背景。
  14. 通用抠图(Universal Matting):从图像中准确地分离目标物体与背景,不限于人像。
  15. 人体检测(Human Detection):检测图像或视频中的人体位置。
  16. 图像目标检测(Image Object Detection):在图像中检测和定位多个目标对象。
  17. 图像去噪(Image Denoising):降低图像中的噪声水平,改善图像质量。
  18. 图像去模糊(Image Deblurring):恢复模糊图像的清晰度和细节。
  19. 视频稳定化(Video Stabilization):对视频进行抖动校正,使其稳定且平滑。
  20. 视频超分辨率(Video Super-Resolution):通过增加视频的像素级别细节来提高其分辨率。
  21. 文本分类(Text Classification):将文本分类为预定义的类别或标签。
  22. 文本生成(Text Generation):根据给定输入生成连续文本的过程。
  23. 零样本分类(Zero-Shot Classification):将数据分类为模型从未在训练阶段见过的类别。
  24. 任务导向对话(Task-Oriented Conversation):进行与特定任务相关的对话和问答。
  25. 对话状态跟踪(Dialog State Tracking):跟踪多轮对话中的用户意图和系统状态的变化。
  26. 表格问答(Table Question Answering):根据表格数据回答相关问题。
  27. 文档导向对话生成(Document-Grounded Dialog Generation):基于文档内容生成相关对话回复。
  28. 文档导向对话重新排序(Document-Grounded Dialog Rerank):对生成的对话回复进行排序,以选择最佳回复。
  29. 文档导向对话检索(Document-Grounded Dialog Retrieval):从候选对话中检索与文档相关的最佳对话。
  30. 文本纠错(Text Error Correction):自动纠正文本中的拼写错误或语法错误。
  31. 图像字幕生成(Image Captioning):根据图像内容生成对图像的描述性文字。
  32. 视频字幕生成(Video Captioning):根据视频内容生成对视频的描述性文字。
  33. 图像人像风格化(Image Portrait Stylization):将图像中的人物主体应用艺术风格转换。
  34. 光学字符识别(OCR Detection):从图像中检测和识别文字。
  35. 表格识别(Table Recognition):从图像中自动识别表格结构和内容。
  36. 无线表格识别(Lineless Table Recognition):从无线表格图像中自动识别表格结构和内容。
  37. 文档视觉语义嵌入(Document-VL Embedding):将文档映射到视觉语义空间的向量表示形式。
  38. 车牌检测(License Plate Detection):在图像中检测和定位车辆的车牌区域。
  39. 填充掩码(Fill-Mask):根据上下文和部分信息填充给定的掩码。
  40. 特征提取(Feature Extraction):从输入数据中提取有意义的特征表示。
  41. 动作识别(Action Recognition):识别视频中的动作或行为。
  42. 动作检测(Action Detection):在视频中检测和定位特定动作或行为。
  43. 直播分类(Live Category):对直播视频进行分类,如体育、新闻、游戏等。
  44. 视频分类(Video Category):对视频进行分类,如电影、音乐、体育等。
  45. 多模态嵌入(Multi-Modal Embedding):将多种不同模态的数据映射到共享的向量空间。
  46. 生成式多模态嵌入(Generative Multi-Modal Embedding):将多模态数据映射到向量表示,并且能够生成与之相关的数据。
  47. 多模态相似度(Multi-Modal Similarity):衡量多模态数据(例如图像和文本)之间的相似性或相关性。
  48. 视觉问答(Visual Question Answering):根据给定的图像和问题回答相关问题。
  49. 视频问答(Video Question Answering):根据给定的视频和问题回答相关问题。
  50. 视频嵌入(Video Embedding):将视频序列映射到固定维度的向量表示形式。
  51. 文本到图像合成(Text-to-Image Synthesis):根据给定的文本描述合成相应的图像。
  52. 文本到视频合成(Text-to-Video Synthesis):根据给定的文本描述合成相应的视频。
  53. 人体二维关键点(Body 2D Keypoints):检测和跟踪图像中的人体关键点。
  54. 人体三维关键点(Body 3D Keypoints):在三维空间中检测和跟踪人体关键点。
  55. 手部二维关键点(Hand 2D Keypoints):检测和跟踪图像中的手部关键点。
  56. 卡片检测(Card Detection):在图像中检测和定位特定类型的卡片。
  57. 内容检查(Content Check):检查文本或图像中是否存在不良、敏感或违法内容。
  58. 人脸检测(Face Detection):检测图像或视频中的人脸位置。
  59. 人脸活体检测(Face Liveness):判断图像或视频中的人脸是否为真实的活体,而非照片或视频。
  60. 人脸识别(Face Recognition):识别图像或视频中的人脸,并将其与已知的身份进行匹配。
  61. 面部表情识别(Facial Expression Recognition):识别图像或视频中人脸的表情状态,如快乐、悲伤、愤怒等。
  62. 面部属性识别(Face Attribute Recognition):识别图像或视频中人脸的属性,如年龄、性别、种族等。
  63. 面部二维关键点(Face 2D Keypoints):检测和跟踪图像中的面部关键点。
  64. 面部质量评估(Face Quality Assessment):评估图像或视频中人脸图像的质量。
  65. 视频多模态嵌入(Video Multi-Modal Embedding):将多模态数据(如图像和文本)映射到共享的向量空间。
  66. 图像色彩增强(Image Color Enhancement):增强图像的色彩饱和度、对比度和亮度等。
  67. 虚拟试衣(Virtual Try-On):通过计算机生成的技术,将虚拟服装应用到真实人体图像上,以实现在线试穿效果。
  68. 图像上色(Image Colorization):将灰度图像恢复为彩色图像的过程。
  69. 视频上色(Video Colorization):将黑白视频恢复为彩色视频的过程。
  70. 图像分割(Image Segmentation):将图像分成多个不同的区域或对象。
  71. 图像驾驶感知(Image Driving Perception):利用计算机视觉技术提取图像中与驾驶相关的信息,如车道线、交通标志等。
  72. 图像深度估计(Image Depth Estimation):根据单目或双目图像估计场景中物体的深度或距离。
  73. 室内布局估计(Indoor Layout Estimation):根据室内图像估计房间的布局结构。
  74. 视频深度估计(Video Depth Estimation):根据视频中的帧间信息估计场景中物体的深度或距离。
  75. 全景深度估计(Panorama Depth Estimation):在全景图像中估计场景中物体的深度或距离。
  76. 图像风格迁移(Image Style Transfer):将一个图像的风格应用到另一个图像上,以生成具有新风格的图像。
  77. 面部图像生成(Face Image Generation):生成逼真的面部图像,可以用于人脸数据增强、数据生成等应用。
  78. 图像超分辨率(Image Super-Resolution):通过增加图像的像素级细节来提高其分辨率。
  79. 图像去块效应(Image Debanding):减少图像中由压缩引起的块状伪影或条纹噪声。
  80. 图像人像增强(Image Portrait Enhancement):改善图像中人物主体的外观、肤色等特征。
  81. 商品检索嵌入(Product Retrieval Embedding):将商品映射到向量表示形式,以支持商品相关性检索。
  82. 图像到图像生成(Image-to-Image Generation):根据给定的输入图像生成相应的输出图像。
  83. 图像分类(Image Classification):将图像分类为预定义的类别或标签。
  84. 光学字符识别(OCR Recognition):从图像中检测和识别印刷体或手写体的文字。
  85. 美肤(Skin Retouching):对人脸图像进行美化处理,去除皮肤瑕疵、磨皮等。
  86. 常见问题解答(FAQ Question Answering):根据常见问题回答用户的提问。
  87. 人群计数(Crowd Counting):根据图像或视频中的人群密度估计人数。
  88. 视频单目标跟踪(Video Single Object Tracking):在视频序列中跟踪单个目标对象。
  89. 图像人物再识别(Image ReID - Person):根据图像中的人物外观特征进行身份再识别。
  90. 文本驱动分割(Text-Driven Segmentation):根据给定的文本描述,对图像或视频中的对象进行分割。
  91. 电影场景分割(Movie Scene Segmentation):将电影或视频分割为不同的场景,每个场景代表一个独立的情节或事件。
  92. 商店分割(Shop Segmentation):将商店内的物体或区域从图像或视频中分割出来,用于商品展示、智能监控等应用。
  93. 图像修复(Image Inpainting):根据已有的图像内容,填补缺失或损坏的部分,恢复原始图像的完整性。
  94. 图像按范例绘制(Image Paint-By-Example):根据给定的范例图像,将其他图像修改为具有相似绘画风格或效果的图像。
  95. 可控图像生成(Controllable Image Generation):通过控制输入参数或向量,生成具有特定属性、风格或特征的图像。
  96. 视频修复(Video Inpainting):根据已有的视频内容,填补缺失或损坏的帧或区域,恢复原始视频的完整性。
  97. 视频人像抠像(Video Human Matting):将视频中的人物从背景中分割出来,以便进行后续的编辑或特效处理。
  98. 人体重建(Human Reconstruction):基于给定的图像、视频或传感器数据,重建人体的三维模型或姿态信息。
  99. 视频帧插值(Video Frame Interpolation):对给定的两个视频帧之间的帧进行生成,以增加视频的帧率或平滑过渡。
  100. 视频去隔行(Video Deinterlace):将隔行扫描的视频转换为逐行扫描,提高视频播放的质量和流畅度。
  101. 全身人体关键点检测(Human Wholebody Keypoint Detection):在图像或视频中检测和定位人体的关键点,例如头部、手、脚等。
  102. 静态手势识别(Hand Static):通过分析手掌形状、手指姿势等信息,识别图像或视频中的静态手势。
  103. 人脸、人体和手部检测(Face-Human-Hand Detection):检测和定位图像或视频中的人脸、人体和手部区域。
  104. 人脸情绪分析(Face Emotion):通过分析人脸表情,判断图像或视频中人脸所表达的情绪状态。
  105. 商品分割(Product Segmentation):将图像或视频中的商品或产品从背景中分割出来,用于商品识别、广告推荐等应用。
  106. 参考视频对象分割(Referring Video Object Segmentation):根据给定的参考图像或视频,对图像或视频中的对象进行分割。
  107. 视频摘要(Video Summarization):根据视频的内容和特征,生成视频的摘要或概览,提供视频浏览和检索的便利性。
  108. 图像天空变换(Image Sky Change):将图像中的天空部分替换为不同的天空背景,改变图像的氛围和环境。
  109. 翻译评估(Translation Evaluation):根据给定的翻译结果,评估其质量、准确性以及与原文的一致性。
  110. 视频对象分割(Video Object Segmentation):将视频中的对象从背景中分割出来,以便进行后续的编辑或特效处理。
  111. 视频多目标跟踪(Video Multi-Object Tracking):在视频中同时跟踪多个移动目标,实时定位和追踪目标的位置。
  112. 多视角深度估计(Multi-View Depth Estimation):通过多个视图或图像,估计场景中物体的三维深度信息。
  113. 少样本检测(Few-Shot Detection):在只有少量标注样本的情况下,进行目标检测任务,提高模型的泛化能力。
  114. 人体形状重塑(Body Reshaping):根据图像或视频中的人体区域,调整人体的形状、姿态或比例,改变人体外貌。
  115. 人脸融合(Face Fusion):将一个人的面部特征或表情融合到另一个人的头像上,生成具有两者特点的合成图像。
  116. 图像匹配(Image Matching):在图像库或数据库中,找到与给定图像最相似或匹配的图像。
  117. 图像质量评估 - 主观评分(Image Quality Assessment - MOS):通过主观评分的方法,评估图像的质量,反映人眼对图像的感知。
  118. 图像质量评估 - 降质度量(Image Quality Assessment - Degradation):通过客观度量的方法,评估图像在不同变换或压缩条件下的质量。
  119. 视觉高效调优(Vision Efficient Tuning):通过自动化的方法,快速调优和优化视觉模型和算法,提升计算效率和准确性。
  120. 三维目标检测(Object Detection 3D):在三维空间中,检测和定位目标物体的位置、尺寸和姿态。
  121. 坏图像检测(Bad Image Detecting):识别和检测出图像中存在的噪点、模糊、失真等不良或低质量的图像。
  122. Nerf重建精度评估(NeRF Reconstruction Accuracy):评估神经辐射场(NeRF)模型在建立3D场景重建时的准确性和质量。
  123. Siamese UIE:Siamese网络用于UIE任务,即输入用户界面元素识别或生成的相关问题。
  124. 数学公式识别(LatexOCR):图片中数学公式的latex识别。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/872332.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

代码审计-ASP.NET项目-未授权访问漏洞

代码审计必备知识点: 1、代码审计开始前准备: 环境搭建使用,工具插件安装使用,掌握各种漏洞原理及利用,代码开发类知识点。 2、代码审计前信息收集: 审计目标的程序名,版本,当前环境(系统,中间件…

词法分析器的设计与实现

1、实验目的及要求 1.1、实验目的 加深对词法分析器的工作过程的理解;加强对词法分析方法的掌握;能够采用一种编程语言实现简单的词法分析程序;能够使用自己编写的分析程序对简单的程序段进行词法分析。 1.2、实验要求 1)对单词…

深入理解JVM之.intern()的用法

intern只在常量池里记录首次出现的实例引用 来看一段代码 public class RuntimeConstantPoolOOM {public static void main(String[] args) {String str1 new StringBuilder("计算机").append("软件").toString();System.out.println(str1.intern() st…

学习左耳听风栏目90天——第六天 6/90(学习左耳朵耗子的工匠精神,对技术的热爱)【如何拥有技术领导力】

学习左耳听风栏目90天——第六天 6/90(学习左耳朵耗子的工匠精神,对技术的热爱)【如何拥有技术领导力】

2022年下半年信息安全工程师下午真题及答案解析

试题一 (20分) 已知某公司网络环境结构主要由三个部分组成,分别是DMZ区、内网办公区和生产区,其拓扑结构如图1-1所示。信息安全部的王工正在按照等级保护2.0的要求对部分业务系统开展安全配置。图1-1当中,网站服务器的IP地址是192.168.70.14…

Leetcode-每日一题【剑指 Offer 29. 顺时针打印矩阵】

题目 输入一个矩阵,按照从外向里以顺时针的顺序依次打印出每一个数字。 示例 1: 输入:matrix [[1,2,3],[4,5,6],[7,8,9]]输出:[1,2,3,6,9,8,7,4,5] 示例 2: 输入:matrix [[1,2,3,4],[5,6,7,8],[9,10,11,…

向量数据库 Milvus Cloud Partition Key:租户数量多,单个租户数据少的三种解决方案

三种解决方案 这个问题提出的时候,Milvus 的最新版本是 2.2.8,我们做个角色互换,在当时站在这个用户的角度,留在我们面前的选择有这么几个: 为每个租户创建一个 collection 为每个租户创建一个 partition 创建一个租户名称的标量字段 接下来,我们依次分析下这三种方案的可…

刷了3个月的华为OD算法题,刷出感觉了,如洁柔般丝滑,文末送《漫画算法2:小灰的算法进阶》

目录 一、考研二战,入职华为,反向调剂电子科大深圳下面分享一道2023 B卷 朋友抽中题 简易内存池:二、题目描述三、输入描述四、输出描述样例:输出样例: 五、解题思路六、Java算法源码七、效果展示1、输入2、输出3、说明…

请解释一下CSS中的rem和em单位有什么不同,分别如何使用?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ CSS中的rem和em单位的区别和使用⭐ em单位使用示例: ⭐ rem 单位使用示例: ⭐ 区别和适用场景⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何…

阿里云PolarDB数据库倚天ARM架构详细介绍

阿里云云原生数据库PolarDB MySQL版推出倚天ARM架构,倚天ARM架构规格相比X86架构规格最高降价45%,PolarDB针对自研倚天芯片,从芯片到数据库内核全链路优化,助力企业降本增效。基于阿里云自研的倚天服务器,同时在数据库…

PatchMatchNet 训练dtu数据集、训练曲线查看、实操教程图图文详解、

文章目录 1 查看要求 下载数据集2 训练2.1 路径配置2.2 训练2.3 模型输出 与 训练曲线查看2.4 输出训练 log文件1 查看要求 下载数据集 在代码文件加下打开 README.md文件找到训练说明,查看那要求、下载训练集、训练方法 ## Training Download pre-processed [DTUs trainin…

提升效率!Go语言开发者不可错过的必备工具集合!

🌷🍁 博主猫头虎 带您 Go to Golang Language.✨✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~&#x1…

jxls导出问题

![请添加图片描述](https://img-blog.csdnimg.cn/bc74c4207818491c93b75e19b3333451.png 为什么最后导出的文件还是按原样导出啊,没有填充数据 ![在这里插入图片描述](https://img-blog.csdnimg.cn/d4500b9a98c042f6b64a5d0650071303.png

AI绘图(5)stable diffusion如何写好prompt 三

这里是写好prompt的最后一节,如果对其还不够了解的,可以查看 AI绘图(3)stable diffusion如何写好prompt 一 和 AI绘图(4)stablediffusion如何写好prompt 二。 1.正向提示词&反向提示词 Stable Diffu…

【Apollo】自动驾驶的平台背景,平台介绍

作者简介: 辭七七,目前大一,正在学习C/C,Java,Python等 作者主页: 七七的个人主页 文章收录专栏: 七七的闲谈 欢迎大家点赞 👍 收藏 ⭐ 加关注哦!💖&#x1f…

SpringBoot复习:(41)配置文件中配置的server开头的属性是怎么配置到Servlet容器中起作用的?

ServletWebServerFactoryAutoConfiguration类: 可以看到其中使用了EnableConfigurationProperties导入了ServerProperties 而ServerProperties通过使用ConfigurationProperties注解导入了配置文件中已server开头的那些配置项。 可以看到ServletWebServerFactory定…

软测百科之 日常测试工作中哪些是必须知道的 SQL 语句?

SQL 简介 SQL(Structured Query Language,结构化查询语言)是一套用于管理关系数据库管理系统(RDBMS),基于 ANSI(American National Standards Institute 美国国家标准化组织)标准的计算机语言,比较重要的版本是 SQL92 …

Nginx:网站服务

目录 绪论 1、nginx的主要功能 1.1 静态文件服务 1.2 反向代理 1.3 处理动态内容 1.4 实现SSL和TLS加密 1.5 虚拟主机 1.6 URL重定向 1.7 缓存功能 1.8 日志功能 2、nginx如何实现高并发 3、同步,异步,阻塞,非阻塞的概念补充 4、…

安卓源码分析(10)Lifecycle实现组件生命周期管理

参考: https://developer.android.google.cn/topic/libraries/architecture/lifecycle?hlzh-cn#java https://developer.android.google.cn/reference/androidx/lifecycle/Lifecycle 文章目录 1、概述2、LifeCycle类3、LifecycleOwner类4、LifecycleObserver类 1、…