NLP创业破局,如何摘取更高处的果实

news2024/11/24 11:50:03

点击蓝字

75f8e3b0576de5cc4966a51a69d77a2f.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

513fab751df1faf8b85def9670e00f90.gif

2022年,云从科技、商汤科技先后登陆资本市场,计算机视觉四小龙中的旷视科技、依图科技也在摩拳擦掌。反观NLP领域,相关企业的发展速度、融资规模、上市进程仿佛都要略逊一筹,那么:

1. 与CV相比,NLP领域目前的投资规模、市场规模、落地行业、产品有什么优劣势?

2. 投资NLP领域,在创业上的战略该如何布局与调整?

3. 在如今全球金融与资本大环境背景下,NLP领域的创业前景在哪里?

为了帮助大家拨去迷雾,直达本质,2022年11月30日19:30-21:00,AI TIME特别邀请了四位嘉宾,一起聊透“NLP的创业破局之路”。

2810ebb644f8c153d61f0f758299fd35.png

嘉宾简介

启明创投投资人,科技及消费团队成员胡奇

香港大学计算机学院助理教授,博士生导师黄超

规格科技CEO,连续创业者,青年投资家俱乐部副理事长陈能杰

浙江大学计算机创新技术研究院算法工程师王翔

AI TIME志愿者、天津大学硕士、某新锐AI公司算法总监李健铨

起点

活动伊始,主持人李健铨首先介绍了启明创投。作为中国最活跃的创投机构之一,早在2013年,启明创投就布局了人工智能领域的投资,是中国最早一批投资AI领域的创投机构,投资了最早期的一批AI独角兽企业,而后又投资了众多的AI芯片公司,通过长期投入和全产业布局,截至2022年12月,启明创投投资了超过480家高速成长的创新企业,在人工智能领域已经构建了强大的生态。

随后,李健铨描述了AI目前的发展情况,对比了CV和NLP领域的企业,顺势提出了第一个问题

AI创业、NLP创业的现状是怎么样的?

针对这个问题,胡奇首先开门见山地表达了自己的观点:机器学习、CV、NLP是目前主流的创业方向,强化学习、机器人等细分领域也都是在这个领域里面。这个市场是非常大的,很多研究和分析指出,2025年在AI的全球市场中,仅软件和应用部分就达到1200亿美元的市场规模,其中CV和NLP是最大的两部分,CV的市场规模大概为500-600亿美元,NLP的市场规模大概为400亿左右。但是具体到NLP领域来看,NLP的整体发展,尤其是在中国的发展是落后于CV领域的。CV领域已经产生了四小龙,其中有两家(商汤科技、云从科技)已经上市,整体表现还是不错的,但在NLP领域还没有类似的上市企业。

紧接着,黄超揭露了NLP未来的发展趋势。首先,黄超提到CV领域率先涌现出四小龙等企业的原因——CV领域的技术发展、模型落地、产品面市流程更加闭环。反观NLP领域,NLP技术更多地是辅助一些领域、业务的发展,如辅助法务、财会等重度依赖于文字处理的一些业务。所以,要想把NLP业务发展成一个非常大型的、独角兽级别的企业,未来可能还需要更多的探索。未来的趋势也许是:NLP会有更多闭环化的业务、产品,将学术界的模型更好地放到整个业务场景里面去。

陈能杰沿着黄超的介绍,从创业者的角度进行了展开。首先,CV的场景比较直接、比较多,如金融领域的验证场景、交通领域的识别场景等,这些都是高频、规模大的场景,容易实现规模经济效应。反观NLP领域,场景比较碎,规模也不够大。其次,由于上述原因,CV四小龙相对而言更容易受到资本、政府的青睐,收到的助推因而更多。此外,结合实际参与项目的经验来看,陈能杰感受到NLP产品提供的价值有时候非常不确定,在效率等方面的价值优势不容易被感知。

NLP大火的产品比较少,落地困难,原因是什么?

胡奇结合自己和同事的观察,总结了几个点:(1)NLP领域诞生过很多优秀的巨头,如搜索领域的谷歌、百度;推荐领域的头条;广告领域的美团和阿里等。如果没有NLP领域的发展,上述企业的发展也会受限。今天之所以觉得NLP领域的创业难以破局,相对CV创业存在不足,很大程度上是因为今天“低垂的果实”——大家抬手能够得着的东西——已经在互联网、移动互联网这两波浪潮里被大厂抢占了。因此,剩下的只是一些碎片化的场景,如外呼机器人、智能销售、写作助手等。这些场景其实并不是没有价值,也不是诞生不了大公司,根本原因是这些场景在每个行业、每个企业内部被个性化了,在2020年GPT-3诞生之前,也没有一个好的技术能够去解决这些问题,因此不能做出一个让人满意的产品。

顺着胡奇的思路,黄超也认为,之前大厂占据了一些主流的NLP场景,NLP领域的创业公司更加专注在一些垂直领域上,如金融、文本相关领域等。原因是大厂中NLP相关的业务场景可能会更多一些,因为大厂的线上平台可能需要大量处理的是一些文本的信息,所以大厂的各个部门都会有涉及NLP的团队,如推荐系统、知识图谱等相关团队。因此,可以说大厂留了更多的机会,给一些CV初创企业去填补空隙,这也是商汤、旷视等一些CV企业蓬勃发展的背景和原因。而在当下,在NLP领域去做一个普适的应用、去创业的话,可能就会面临着跟大厂的各个部门的竞争,此时,初创企业在业务壁垒上还有一些劣势,只能选择垂直领域开展业务。

基于前面两位的分享,陈能杰从商业的角度进行了论述。陈能杰作为一个创业者,进场的时候发现已经没有那么多选项可供选择了,只能从一个小而美的垂直领域里面去做。大厂基于资金优势、人才优势,做了好多基础设施出来,基于此背景,创业者不应该重复发明轮子,而是去伸手摘“上面的果实”。因为很多时候创业都具有时代性,如果上桌了且一直在桌子上面,才有可能成为大企业,不然的话,只能是依托一些生态来做。

NLP领域哪些技术有价值?创业者该如何落地?如何创业?

如何站得更高?如何去摘取更高处的果实?胡奇从投资人的角度,分享了启明创投内部的一个方法论。去看一个行业的时候会有两个点:技术奇点、市场引爆点。

技术奇点是指当我们到达这个点的时候,会发现某件事情的效果会有十倍、百倍的提升,即今天的技术是不是达到了市场可用。

市场引爆点是指是不是有一个公众事件或现象级产品,让企业界、C端用户能够关注到产品,进而去规模化传播,也就是通俗来说的“东风”。

启明创投在投资过程中,首先就是判断技术奇点是不是到了?如GPT-3就是一个很好的技术奇点,因为它其实在某种意义上导致了很多NLP公司多年的积累被消解掉,一些企业拿着GPT-3去改装,可能会在一些场合堪比另一些公司好不容易积累出来的模型,甚至超越。顺着这条路去看的话,会发现:(1)原来技术上很难做的产品(如写作助手、企业级的翻译),GPT-3让其变得可行了;(2)一些原来就存在,并且有一些效果的场景,GPT-3提升了它的效果,如外呼机器人、智能客服、企业级的搜索、内容审核等。

从市场的角度,陈能杰分享如何从宏观角度看待NLP创业,并分享自己的方法论。首先,要找到一些场景,例如,做监管合规的背景是监管的加强、法治的建设、国家一直在提数字经济,因此需求变大了,且需要技术与之结合。其次,业务、产品要在技术上面是确实可行的,要能保证产品能交付。

学术来看,黄超认为要将NLP的一些先进的模型应用到实际的场景中。创业者需要考虑场景是To B还是To C,进而从业务场景角度分析了舆情分析、医疗问询、智能谱曲等产品的一些基本特性,然后从技术场景角度介绍了如何使用现有的模型。一个可行的方式可能是把开发、维护整个大模型的任务交给大公司,创业者只专注在自己业务场景下的东西,把自己的业务给嵌入模型。并指出,如果有一些平台能够借助联邦学习、隐私保护的技术,把私密数据作为training的数据使用,但是对于里面的内容并不知晓,还是非常有意思的,这将会很好地推进整个NLP的发展,给大家更多的想象空间。

从市场的角度来讲,NLP如何避免难以盈利?

其实,NLP创业很难一开始就做到盈利,这对企业的要求太高了。胡奇表达了自己的观点,并分享了一些观察。发展和利润在企业生存的前几年都比较矛盾,经过对美股SaaS市场的分析,会发现大多数跟新技术有关的企业(如网络安全、基础软件、AI等优秀的软件企业)都处于亏损状态,因为营销的费用一定花得非常多,而新技术(如AI)又需要很重的研发成本,因此,AI初创企业就很难做到既成长,又少花钱,还能够将业务、产品做得特别好。NLP企业、AI企业很烧钱,因为无论是挖人,还是训练模型,这些成本都非常高,而此时客户和收入都很有限,因此很难实现盈利。不过,情况正在转变,无论是GPT-3、智源的“悟道”、百度的“文心”,他们都提供了模型的API服务,这时候初创企业的人才需要可能会少很多,并把精力集中投入在业务上,进而使得企业可以快速地迭代产品。顶级机构的基础设施可以大幅降低研发成本。并列举了Jasper.ai和Copy.ai的情况。

顺着胡奇的思路,陈能杰分享了自己借助第三方的技术能力,在场景中落地、实践的一些情况。在做内容审核的过程中,陈老师首先找了合作方——中科院自动化所,借助自动化所的技术能力,陈能杰又联合人民网打造了特征库,最终以较低的成本满足了场景需求。接着,陈老师又分享了自己的To C、To B、To G过程中踩过的一些坑。

针对学术界与产业界的配合,黄超首先总结了其余两位老师的分享:如果是要专注在技术层面的话,小步迭代,即基于现有的一些成熟的技术,可能会增强整个创业过程中技术落地的效率。随后,黄超指出学术界和工业界的差异:学术界更加专注于技术的推进,即不断提升某个指标、数值;工业界不在乎模型是否是可能最新的,而是能否更好地服务于业务场景,即更简单、更轻量、更加好用、上手更快、更易于维护才是重要的。因此,未来想要创业的话,可以尝试现有的一些东西,不用花太多的精力去打磨或精细化技术的一个模块;如果想要在技术上有更多的探索,可以先和高校、科研机构等合作,把业务在一定程度上稍微挪开一点;然后去跟fine-tuning的工作人员结合,看是否能够落地到相应的这个场景里面。这样的话,试错的成本相对不会太高,对创业者可能会更好。

当前时间节点和环境,NLP创业如何?

当前市场比较冷,投资机构也比较“躺平”,创业真的不太容易,陈能杰首先表达了自己的看法,并进一步分析。(1)做技术类的场景的创业,产品跟市场的匹配过程需要试错的空间,除非是已有传统业务能够提供稳定的现金流。NLP场景比较碎,竞争者也比较多,能形成规模及收入路要比较长,需要不断的PK,需要较长的时间。(2)融资环境没有前几年那么好了,一般来说,企业发展需要在几个关键节点得到资本的加持,但是现在融资周期很长,可能还没等到融到钱,业务就关掉了。(3)全球都在收紧预算。综上所述,选择目前的节点创业对创业者的挑战真的是大很多。

创业的时间节点和环境不是投机取巧,而是真的有好有坏,顺着陈能杰的话,胡奇分析了当下创业的好处:(1)技术奇点已经过了,目前是海阔凭鱼跃,天高任鸟飞的时代。无论是GPT-3还是其他大公司的产品,目前其实已经可以用比较低的成本拿到比较好的AI能力,能够找到什么样的场景,能够做到什么地步,那就要看创业者自己的本事了。(2)技术红利尚未挖掘殆尽,以Stable diffusion等为例,图像、视频领域具有视觉冲击力的东西还在不停涌现,这也在帮助NLP领域,特别是生成式NLP获得关注、热度。(3)在当下这个大家都不愿意创业、不敢创业的时候,站出来创业的人,竞争者更少,而且从创业者与VC交流、与客户共创的角度来看,都会有一些利好。

从学术界的角度来看,黄超认为AI的热度持续了可能已经有10年了,无论是CV、NLP,还是数据挖掘、检索,每个领域都已经太卷了,每个新的topic出来之后,可能都会有成千上万的人冲进去。不过,虽然大家每年都感觉卷不动了,但是每年都会有新东西出来,让大家有饭吃。这一点对于创业而言有一定的借鉴意义,结合目前的技术发展,多模态的结合、生成式的产品也许是一个机会,是一个值得探索的点。AI在各个领域的范式,不是判别式,就是生成式。判别式就是去预测的更准,生成式就是生成一个东西,如AI绘画、AI谱曲等。Diffusion模型已经出来了,在技术线上有了进一步的推进,所以大家从技术层面不用担心,每年都会有成千上万的学者,不停地推动前沿科技的点。

创业是要敢为天下先?还是敢为天下后?

要先区分“先”是“先烈”,还是“先知”,对于主持人的问题,陈能杰先讨论了“先”的含义,并从投资人的角度先进行了剖析。从投资角度看,VC阶段一定要敢为天下先,因为这一阶段的关键是别漏了;在PE阶段就要敢为天下后,要看投资项目的商业化程度、规模化路径是否清晰,能否形成规模化收入,能否占据一定的市场份额。结合自己的创业经历,陈能杰对于是先还是后,提出了几个关键指标:(1)时间点选择;(2)卡位;(3)创业是失败概率比较高的事。

敢为天下后,但是也别“落后”太多的公司,成功的概率会相对高一些。结合自身的投资实践,胡奇分享了自己看到的现象,并剖析了背后的原因。在科技创业和投资领域,“敢为天下先”适用学术界或实验室里面(1)真正能摸到最前沿的东西;(2)能够解决前沿问题的关窍、命门;(3)能把产品做出来;(4)能够把产品从实验室拿到工业的人。创业者不应该成为技术研究本身的“天下先”,因为创业要务实,要给股东和投资机构带来回报。

学术界的老师们,相比于产业界的创业者而言,没有盈利的压力,也没有交付时间点的压力,他们可能为自己负责就行,黄超认为这可能是两者的区别,所以,学术界的老师们可能最追求的就应该是尽量去敢为天下先,去做一些是里程碑式、开创式的工作,这样可能会更有一些学术的影响力。从学术界和创业的关系来看,一个特别活跃的学术氛围对创业者而言是好的,因为学术界提供的百家争鸣的场景,给创业者提供了更多的选择。创业团队只需要少量关注学界进展的人,就可以获得各个领域的前沿进展,这样创业者就不会处在一个非常滞后的状态,而是一个中间的状态,这不仅能在一定程度上避免失败,还能在一定程度上带来更好的技术保障,从而给创业者腾出精力更多地关注、探索业务场景,思考如何把技术迁移到自己场景来落地,这对工业界而言是非常重要的。

畅想NLP的未来

学术界每年都有新的东西,大家不用担心模型不可用,这时候,大家不应该总想着“copy-paste”,而是要比拼原创,比拼敢为天下先。通过对比中美国情的不同,胡奇结合前面的问题进行了总结与展望,如果想在中国走好NLP,要借助最好的技术,借助最好的API,最专注地去打磨自己的产品,带来十倍好的用户体验。

生存是第一位,只有活下来才有机会。陈能杰认为现在正处于“今天很残酷,明天很残酷,后天很美好”中的明天晚上,创业者,特别是NLP领域的创业者要有几个认识:(1)只要不下牌桌,就还有机会。(2)要放宽历史的视野,可持续增长要比快速增长更接近商业本质。(3)要看到一个整体,创业PK的是一个综合性的整体。(4)要放松,有些东西是创业者无法控制的。

站在学术界的角度来看,黄超认为目前大家更多的是在鼓励跨学科的合作,希望AI技术、AI方案可以与金融、法律、医疗、能源等结合,并介绍了香港大学数据科学院(data science institute)的初衷——各个领域的老师通力合作。目前,在互联网行业中,NLP技术互联网更多的服务于互联网产品、业务,未来NLP领域如果有更多跨领域的落地,会把蛋糕做得更大。如果我们衣食住行中与文字打交道的东西都被NLP技术、AI技术所服务的话,可能会更多出更多的垂直的领域,对各个行业也都能起到很大的促进作用。

审核:胡奇、黄超、陈能杰

往期精彩文章推荐

2c31b76dc2a245396c8d7f509c1bf6dd.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了900多位海内外讲者,举办了逾400场活动,超400万人次观看

027f392b1dcc501ce084178a326f3c35.png

我知道你

在看

~

2de073c639c51e37437e5014b694c8cb.gif

点击 阅读原文 查看回放!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/90947.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java计算机毕业设计基于安卓Android的二手交易app-闲置物品交易app-ssm

项目介绍 首先,论文一开始便是清楚的论述了系统的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了系统的需求基础上需要进一步地设计系统,主要包罗软件架构模式、整体功能模块、数据库设…

数组 reduce 方法使用记录

概述 reduce()方法对数组中每个元素执行一次 reduce()函数 —升序执行,将其结果汇总为单个返回值。 reduce方法可做的事情特别多,就是训话遍历能做的,reduce都可以做,比如:数组求和&#…

Vue基础快速入门

目录 1.vue基础 1.1vue项目创建 1.2 el挂载 1.3.data数据对象 2.本地应用 2.1.内容绑定,事件绑定 v-text ​v-html 传递自定义参数,事件修饰符 总结: 结合使用:计数器 2.2.显示切换,属性绑定 v-show v…

【笔记】计算机组成原理复习重点——篇一

计算机组成原理复习重点笔记 计算机组成原理计算机体系结构 学科基础必修课 研究生入学考试全国联考45分,占比30% 64学时,4学分,上课56,实验8 教材:计算机组成原理(第二版 ) 唐朔飞 高等教育出版社 目录(已…

快速创建servlet(doGet和doPost)

目录 前言必读 一、概述 一、创建方式 1.在需要创建的包下进行创建 2.自定义类名--->类这里添加一个类名(和上面的名称一样名字) ------>勾选创建并确定 3.创建完成代码 4.删掉多余的 二、升级生成的模板 1.点击文件--设置里面 2.在编…

Simulink| “双碳”背景下汽车减少碳排放建模与仿真

目录 一、概述 二、模型 三、Simulink模型 四、matlab代码 一、概述 温室气体的过量排放会增强温室效应,造成全球极端气候的出现,严重影响人类的生存与发展,因此,控制温室气体减排已成为当前环保的重点。根据联合国政府间气…

Linux系统搭建redis-cluster集群案例

Linux系统搭建redis-cluster集群案例(一)redis下载及安装【1】前言介绍【2】redis下载以及安装(1)首先要进入Linux系统的根目录(2)安装redis所需的环境(3)下载redis源码包&#xff0…

k8s 中部署kafka集群

由于开发过程中使用到了kafka,又不想自己部署kafka,索性采用k8s 部署kafka集群,以求做到随时插拔。 创建命名空间 apiVersion: v1 kind: Namespace metadata:name: "kafka"labels:name: "kafka"sudo kubectl apply -f …

linux篇【12】:计算机网络——tcp

目录 一.TCP套接字接口 1.inet_aton (和inet_addr一样,换一种方式而已) 2.listen——把套接字设置为监听状态 3.服务器获取客户端的连接 accept 返回值中套接字和参数中套接字的作用: 4.用到的部分函数 (1&…

技术分享 | MySQL 多版本并发控制「MVCC」

作者:贲绍华 爱可生研发中心工程师,负责项目的需求与维护工作。其他身份:柯基铲屎官。 本文来源:原创投稿 *爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。 一、MySQL InnoD…

TaxiBGC ——分类学指导下的生物合成基因簇鉴定流程

谷禾健康 当前合成基因簇预测限制较大 微生物基因组中的生物合成基因簇 (BGC) 编码具有生物活性的次级代谢物 (SM),它可以在微生物-微生物和宿主-微生物相互作用中发挥重要作用。 鉴于次级代谢物的生物学意义和当前对微生物组代谢功能的深刻兴趣,从高通…

通过 ffmpeg 串流对接 OBS 等直播软件

我们要将设备通过私有通道输出到 H264 流,传给 OBS 等直播软件使用。为此,设计了上图所示的串流工具。 设计思路 私有通道通过 API 接口提供 H264 流,要传给 ffmpeg ,最简单的方法是通过进程间管道传输数据。这里 Dump 工具直接…

2023最新SSM计算机毕业设计选题大全(附源码+LW)之java美丽华驾校信息管理系统t93d7

毕业设计也不需要做多高端的程序,毕业设计对于大多数同学来说,为什么感觉到难,最重要的一个原因,那就是理论课到实践课的转变,很多人一下不适应,本能开始拒绝,如果是一个考试,大家都…

使用自定义函数实现数据编解码、格式处理与业务告警

背景 在物联网平台的设备数据接入场景中,开发者总是希望平台接入的设备数据格式标准统一,以便对数据进行统一处理。在实际情况中,由于业务需要,平台常常会面对不同类型、不同厂商的设备接入。即使设备接入协议已经统一使用 MQTT …

傻白探索Chiplet,Chiplet技术带来的“新四化”(三)

目录 一、IP芯片化 二、异质集成(HeteroMaterial Integration) 三、异构集成(HeteroStructure Integration) 四、IO增量化 五、总结 一、IP芯片化 IP(Intelligent Property)是具有知识产权核的集成电…

腾讯前端常考vue面试题(必备)

虚拟DOM的优劣如何? 优点: 保证性能下限: 虚拟DOM可以经过diff找出最小差异,然后批量进行patch,这种操作虽然比不上手动优化,但是比起粗暴的DOM操作性能要好很多,因此虚拟DOM可以保证性能下限无需手动操作DOM: 虚拟DOM的diff和patch都是在一次更新中自动进行的,我们无需手动…

driftingblues2靶机(nmap提权)

环境准备 靶机链接:百度网盘 请输入提取码 提取码:9qkq 虚拟机网络链接模式:桥接模式 攻击机系统:kali linux 2021.1 信息收集 1.探测目标靶机 2.探测目标靶机开放端口和服务 3.用dirsearch扫描目录 dirsearch -u 192.168.…

π120E31兼容Si8620EC-B-IS 双通道数字隔离器

π120E31兼容Si8620EC-B-IS 双通道数字隔离器。具有出色的性能特征和可靠性,整体性能优于光耦和基于其他原理的数字隔离器产品。 传输通道间彼此独立,可实现多种传输方向的配置,可实现3.0kVrms隔离耐压等级和 DC 到 600Mbps 信号传输。该系列…

2023最新SSM计算机毕业设计选题大全(附源码+LW)之java校园兼职招聘系统x6u36

毕业设计说实话没有想象当中的那么难,导师也不会说刻意就让你毕设不通过,不让你毕业啥的,你只要不是太过于离谱的,都能通过的。首先你得要对你在大学期间所学到的哪方面比较熟悉,语言比如JAVA、PHP等这些,数…

腾讯会议一直显示正在加入会议如何处理?

我们在使用腾讯会议时,一直显示正在加入会议,但是经过很长时间也没有反应,这该怎么办?下面小编就给大家带来了相关的解决办法,说不定有用。 腾讯会议一直显示正在加入会议怎么办? 1、手机上打开腾讯会议。 …