引言
随着人工智能技术的不断进步,"AI+"已经成为一个热门话题,它代表着人工智能与其他行业的深度融合。"AI+"不仅仅是技术的进步,更是一场影响深远的社会变革。在这篇文章中,回望历史我们将探索历史经验,展望未来我们将探讨AI+的发展趋势,以及它如何塑造我们的未来。
回望历史
中国互联网发展史分为以下几个阶段
引进探索期:
各种研究所和高校,可以进行科研联网,中科院、清华、北大、中关村地区
快速发展期:
PC互联网时代,新浪、搜狐、网易、百度等,解决人人与信息交互的形式,人们从看报纸、杂志的习惯转变为看门户网站新闻,纸媒衰落。
成熟期:
以淘宝、腾讯为代表的互联网企业,解决了人与商品、人与人之间的社交方式,人们习惯以互联网方式购物,交友。手机移动时代QQ、微信的兴起让短信业务变得一蹶不振,信息交互的速度成指数及增长,信息爆炸时代来临。
繁荣期:
互联网+开始兴起,服务行业开始被O2O整合。以美团、饿了么、大众点评等团购网站为代表,互联网渗透到社会各个角落,线上线下融合成为共识,互联网成为社会基础公共设施,数据信息量级呈现进一步提升。各种“智能”家具家电进入大众生活。
互联网+渗透到最难最坚硬的金融领域,支付宝、微信支付、考拉、云闪付、各个银行APP等线上支付体系普及;大批量P2P公司如雨后春笋般发展,随之而来的是泡沫和重新洗牌,互联网金融行形成新的行业格局。大数据时代来临。
AI+:
信息大爆炸时代,不关是公司级别会产生各种庞大的数据信息,个人也会接收庞大的信息。因此推测个人信息助理、垂直细分领域助理将是一个方向。同时各种智能家具、家电、汽车进行真实的智能时代。
现状
AI大模型
ChatGPT、腾讯混元大模型、阿里的通义千问、百度的文心一言等。(产品展示)
1、主要功能:
文本生成:
- 文件草案
- 回答有关知识库的问题
- 分析文本
- 一系列科目的导师
- 翻译语言
图像生成: - 根据文本提示从头开始创建图像
- 根据新的文本提示,通过让模型替换预先存在的图像的某些区域来创建图像的编辑版本
图像分析:
最擅长回答有关图像中存在的内容的一般问题。虽然它确实理解图像中对象之间的关系,但尚未优化以回答有关图像中某些对象位置的详细问题。例如,您可以询问它汽车是什么颜色,或者根据冰箱里的东西提出一些关于晚餐的想法,但如果您向它展示房间的图像并询问它椅子在哪里,它可能不会回答问题正确。
局限性
虽然具有视觉功能的 GPT-4 功能强大并且可以在许多情况下使用,但了解该模型的局限性也很重要。以下是我们意识到的一些限制: - 医学图像:该模型不适合解释 CT 扫描等专业医学图像,也不应用于提供医疗建议。
- 非英语:在处理包含非拉丁字母文本(例如日语或韩语)的图像时,模型可能无法获得最佳性能。
- 小文本:放大图像中的文本以提高可读性,但避免裁剪重要细节。
- 旋转:模型可能会误解旋转/颠倒的文本或图像。
- 视觉元素:模型可能难以理解颜色或样式(如实线、虚线或点线)变化的图形或文本。
- 空间推理:该模型难以完成需要精确空间定位的任务,例如识别国际象棋位置。
- 准确性:在某些情况下,模型可能会生成不正确的描述或标题。
- 图像形状:模型难以处理全景和鱼眼图像。
- 元数据和调整大小:模型不处理原始文件名或元数据,图像在分析之前会调整大小,从而影响其原始尺寸。
- 计数:可以给出图像中对象的近似计数。
- 验证码:出于安全原因,我们实施了一个系统来阻止验证码的提交。
文字转语音
语音转文字 - 将音频转录成音频所使用的任何语言。
- 将音频翻译并转录成英语。
2、AI大模型的缺陷
对于很多人而言,与AI大模型的交流只是体会到了大模型的逻辑能力和好玩,无法应用到自己的实际工作环节中,大模型存在着以下两个明显问题:
1. 模型知识实时性差
在我们的某些实际使用场景中,是希望其能了解一些实时信息的。
2. 私有化的知识大模型并不具备
企业的客服机器人、产品问答、个人的文档辅助阅读、资料整理等场景都需要AI大模型了解我们一些独有的知识内容。而且传给大模型也存在泄密和合规风险。
3、AI大模型缺陷的解决思路
为了解决上面两个问题,我们第一时间想到的肯定是通过某种途径把我们的知识告诉给AI大模型,知识传递给AI大模型有两种形式:
- 通过构造传递给AI大模型的问题(问题中就携带相关的私有知识)
- AI大模型微调训练 Fine-tune
这两种方式中,Fine-tune的效果肯定更好,但是其需要硬件和训练时间,同时信息后续更新也无法做到实时训练。相比之下,大部分场景我们采用将相关私有知识构造到问题中就可以满足需求。
如何构造呢,比如下面这个发送给AI大模型的问题
你是一个XX领域的专家,请根据提供的业务资料为用户解答问题
提供的资料: 小米汽车蓝图现世,汽车智能化进程加速
11月15日,小米汽车首款车型获批生产,型号分别为SU7和SU7MAX,列示在工信部发布的《道路机动车辆生产企业及产品公告》(第377批)名单中,由北汽越野车有限公司进行代工,生产地点定为小米自身的生产基地,并计划于2024年上半年上市。用户的问题: 小米汽车什么时候上市
这个构造内容中,变量只有提供的资料和用户的问题,其他地方都可以是固定的文本,那么就涉及到一个比较关键的问题,如何找到和用户问题相关的资料拼接到给AI大模型的问题中?
这个问题我们第一时间会想到传统检索中的关键词检索,关键词检索场景中针对具体关键词的检索表现是非常好的,但是用户输入的问题是一段话,其中可能同时涉及到N个关键词,并且有明确语义关系表达,这个时候采用关键词检索并不能很好的返回相关的内容。
我们希望有一个搜索服务,可以针对用户问题的语义,来搜索到私有知识库中语义相近的标题或段落,在这个场景下,向量检索闪亮登场。
什么是向量
AI大模型训练过程中,对文本的语义关系在计算机底层是数字化处理的,提供普通聊天接口的同时,每一个AI大模型也都提供了一个将文本语义向量化的服务。
向量是一组浮点数,例如[0.1, 0.2, …],在高中数学中我们学习到一个二维向量可以表达在一个直角坐标系中,两个向量之间可以通过欧氏距离来计算向量间距离,也可以通过余弦距离来衡量两个向量相对于原点的方向近似度。
向量检索实际上是将文本分段转换成了一个个向量,通过余弦距离或欧式距离来计算两个向量之间的相似度,向量相似度越高,表示对应的2个文本语义相似度越高。我们可以通过这种方式来获得与用户问题语义最相近的私有知识库的资料,如下图所示:
那么相比传统的关键词检索,向量检索不需要提取用户问题的关键词,不用我们去处理关键词之间的语义关系,也不用知识库里面的资料必须包含用户问题中的关键词,只要两者内容存在语义相关性就可以被搜索到,例如下面的向量搜索示例:
搜索内容 = “国际争端” 搜索到的结果 = [
“联合国就苏丹达尔富尔地区大规模暴力事件发出警告”,
“土耳其、芬兰、瑞典与北约代表将继续就瑞典“入约”问题进行谈判”,
“日本岐阜市陆上自卫队射击场内发生枪击事件 3人受伤”,
“国家游泳中心(水立方):恢复游泳、嬉水乐园等水上项目运营”,
“我国首次在空间站开展舱外辐射生物学暴露实验”, ]
向量数据库+AI大模型工作描述
- 通过文本转向量接口初始化原有知识库文档,将向量化后的内容存入向量数据库
- 将用户的提问问题也通过文本转向量接口转换成向量,去向量数据库检索相似的资料
- 将用户的问题和检索到资料组装成新的问题
- AI大模型根据私有化的知识资料,回答用户的问题
[图片]
demo展示
1、敏感词过滤;
2、对话信息引导;
3、TO-B:个人助理,培训知识等文件解读、学习;产品信息快速学习和了解;根据提供的用户信息对人员购买的欲望和意愿进行分析;
4、TO-C:用户私人助理,引导用户进行产品了解和留资;推荐和引导用户购买产品;
落地DEMO:GPT+向量数据库+Function calling=垂直领域小助手
展望未来
1、行业融合与创新
"AI+"的核心在于人工智能技术与各行各业的结合。我们已经看到AI在医疗、教育、金融、制造业等领域的应用,但这只是冰山一角。未来,随着AI技术的成熟和普及,更多的行业将会经历颠覆性的变革。例如,在医疗领域,AI能够帮助医生进行更精准的诊断,甚至预测疾病的发生;在教育领域,个性化的学习计划将根据学生的学习进度和能力进行调整,提高教育效率。
2、 数据驱动的决策
大数据是AI发展的基石。随着数据采集、存储和分析技术的进步,未来的决策将更加依赖于数据。企业和政府机构将利用AI分析大量数据,从而做出更加科学、高效的决策。这不仅能够提高运营效率,还能够在危机管理、城市规划等领域发挥重要作用。
结语
AI+的发展预示着一个充满机遇和挑战的未来。通过跨行业的融合、数据驱动的决策、智能自动化、伦理和隐私的重视,以及普及教育,我们可以期待一个更加智能、高效的世界。然而,这同时也要求我们在技术发展的同时,不断审视和解决伴随而来的社会问题。只有这样,我们才能确保AI+的发展能够惠及全人类,为我们创造一个更加美好的未来。