传统智慧一直不太擅长此道。发现新的创业机会、为未满足的需求提供解决方案,以及为新公司命名都是非结构化的任务,似乎不适合由算法来完成。然而,人工智能的最新进展——特别是像ChatGPT这样的大语言模型的出现——正在挑战这种假定。
我们教授创新、创业和产品设计方面的课程已有多年时间。我们沃顿商学院(Wharton School)创新课程的第一项作业,就是要求学生想出十多条关于一种新产品或是新服务的创意。结果,我们从本科生、MBA在读学生和经验丰富的高管那里听到了几千项新的创业想法。其中一些想法很棒,有些很糟糕,但正如你所料,大多数想法都不好不坏。
不过,这个创意库让我们可以举办一场简单的竞赛,看看人类和机器究竟谁更擅长提出有创意的想法?
在我们与同事伦纳特·迈因克(Lennart Meincke)和凯伦·吉罗特拉(Karan Girotra)共同举办的这场竞赛中,代表人类的是从沃顿商学院学生中随机挑选的200个创意,代表机器的是ChatGPT4,我们指示它生成100个创意,除了数量之外,机器和学生收到的指示完全相同:“想出一个能吸引大学生的新产品或新服务,且售价不超过50美元。”
除了这个共同的提示之外,我们在向ChatGPT提供了几个过去课程代写中产生的成功创意的例子之后(换句话说,就是一个受过训练的GPT小组),还要求它再提出100个创意,从而让我们总共获得了400个创意。
几百个创意奇迹般地从一台笔记本电脑中喷涌而出,包括可折叠洗衣篮、宿舍厨师套件,以及可以放在教室硬板凳上的符合人体工学的坐垫等等。
如何比较?
关于创意的学术文献设定了衡量创造性表现的三个维度:创意的数量、创意的平均质量以及真正杰出的创意数量。
首先,从单位时间产生的创意数量来看:不出所料,ChatGPT在这个维度上轻松超越了我们人类。用传统方式产生200个创意需要人类工作好些天,而ChatGPT可以在大约一小时的监督时间内提出200个创意。
接下来,为了评估创意质量,我们对它们进行了市场测试。具体来说,我们把400个创意逐一拿出来,通过在线购买意向调查,把它们呈现给目标市场的一组受访顾客。我们提出的问题是:“如果根据这个概念创造出产品,你购买的可能性有多大?”我们给出的选项范围从“绝对不会购买”到“绝对会购买”。
使用简单的市场研究技术可以将这些回答转化为购买的可能性。人类创意的平均购买可能性为40%,GPT-4普通创意的这一数值为47%,受过训练后的GPT-4创意的这一数值为49%。简而言之,ChatGPT在创意生成方面不仅速度更快,而且平均质量更高。
然而,当你寻找伟大创意的时候,光看平均值可能被误导。在创新过程中,真正重要的是杰出创意:和十个还不错的创意相比,大多数管理者更想要一个杰出的创意和九个失败的创意,即使前者的平均质量可能更高。为了探求这一点,我们只调查了创意池中最好的创意子集——也就是前10%的创意。在这40个创意中,有5个是由学生提出的,35个是由ChatGPT提出的(其中15个来自普通ChatGPT创意集,20个来自受训练后的ChatGPT创意集)。这一次,ChatGPT又赢了。
这意味着什么?
我们认为,机器在产生出色创意方面以35比5的优势获胜(更别提明显较低的生产成本)对于我们如何看待创造力和创新有重大影响。
首先,生成式人工智能给这个世界带来了新的创意来源。不好好利用这个来源将是一种犯罪。无论你是在为本地商业计划竞赛做准备,还是在寻找癌症的治疗方法,每一位创新者都应该养成用技术生成的创意来补充自身创意的习惯。构思的过程总会有随机因素在,因此我们不能保证自己的想法能得到A+,但如果你只得了C,那就没有任何借口了。
其次,在组织机构内,创新过程早期的瓶颈正在从产生创意阶段转移到评估创意阶段。使用大语言模型,创新者可以生成一个阐述了数百种创意的电子表格,其中很可能包括几只重磅潜力股。然后,这么多的创意需要一种有效的选择机制,才能完成大海捞针的过程。
迄今为止,这些模型在预测商业可行性方面似乎并不比任何一位专家更好。最佳策略仍然是使用从目标市场潜在客户中抽取的十多个独立评估样本(也就是群策群力)。幸运的是,通过对目标市场客户进行购买意向调查来筛选创意是一种相对快速而且便宜的方法。
最后,我们不应该满脑子只想着人类和机器之间的竞赛,而是应该找到两者的合作之道。在软件开发领域,已经有了让AI扮演副驾驶角色的方法。例如,我们人类创新者(驾驶员)可能会发现一个悬而未决的问题。然后,AI(副驾驶)可能会报告关于这个问题的所有已知信息,之后,人类和AI独立探索可能的解决方案,这实际上保证了所有机会都得到充分考虑。
人类决策者可能最终要对结果负责,因此,人类可能会根据客户调查和AI副驾驶的意见作出筛选和抉择。我们预计,这种人机协作将为市场提供更好的产品和服务,并为将来的任何社会需求提供更好的解决方案。