人工智能(Artificial Intelligence, AI)的概念可以追溯到20世纪50年代,当时数学家和计算机科学家开始探讨如何让机器模拟人类智能。1956年,达特茅斯会议被认为是人工智能研究的正式起点。然而,生成式人工智能(Generative Artificial Intelligence, GAI)的发展历程当从20世纪60年代的诞生开始,到了今天,生成模型不仅限于文本生成,还扩展到图像生成、音乐生成和视频生成等领域。
(1960年代)的ELIZA的出现
生成式人工智能的旅程始于约瑟夫·韦森鲍姆(Joseph Weizenbaum)在1966年开发的ELIZA开发。ELIZA的重要性不仅在于其技术成就;它是第一个以智能对话形式出现的程序之一,是现代聊天机器人(chatbot)的先驱,也是早期尝试解决图灵测试的著名案例。
ELIZA,这个名字取自乔治·萧伯纳的戏剧《皮格马利翁》中的纯真少女。ELIZA可以与用户进行聊天,使用韦森鲍姆自己创建的SLIP编程语言编写。该程序应用模式匹配规则来生成回复(这类程序现在被称为聊天机器人)。ELIZA由一个名为DOCTOR的脚本驱动,能够与人类进行对话,其对话风格令人惊讶地类似于富有同理心的心理学家。韦森鲍姆还模仿了心理治疗师卡尔·罗杰斯(Carl Rogers)的对话风格,后者引入了开放性问题,以鼓励患者更有效地与治疗师交流。
其实,刚开始的时候,韦森鲍姆开发ELIZA的初衷是探索人机交流的动态。但是,他发现尽管ELIZA并不真正理解用户与机器之间的对话,但它通过模式匹配和替换技术创造了理解的假象。然而用户对ELIZA的情感反应感到惊讶,许多人将人类般的特质归因于该程序。这种现象后来被称为“ELIZA效应”。
“ELIZA 效应”指的是人们在与看似智能的计算机程序交流时,倾向于赋予其超出实际能力的理解和智能感知。例如,当用户向 ELIZA 倾诉自己的烦恼时,即使回复只是一些模式化的语句,用户也可能会觉得得到了有意义的回应和理解。这种效应揭示了人们在与技术交互时,容易产生对技术智能程度的过高估计。
这促使韦森鲍姆深刻反思人工智能的影响及其误导人们对机器能力的潜在风险。韦森鲍姆的后续著作,特别是他的书《计算机的力量与人类的理性》(Computer Power and Human Reason),阐述了他对人工智能伦理问题的担忧,强调了人类判断与机器计算之间的区别。
(1980年代–2000年代)深度学习的年代
1980年代至2000年代是深度学习的早期阶段,主要特点如下:这一时期主要关注神经网络的基本理论和算法发展,包括前馈神经网络和卷积神经网络等。在应用领域,深度学习算法开始在图像识别和自然语言处理等领域进行初步探索。然而,由于计算能力的限制,深度学习在这一时期的发展相对缓慢。1980年代个人计算机和大规模计算的普及为深度学习的发展奠定了基础。
然而,从2010年代至今,随着计算能力和数据存储的快速增长,深度学习开始大规模应用于各个领域。云计算和GPU等技术的快速发展为深度学习提供了强大的计算支持,促进了技术突破。深度学习的应用范围不断扩大,广泛应用于自动驾驶、医疗诊断、金融风险评估等领域。同时,深度学习算法也逐渐发展成多种类型,如递归神经网络和生成对抗网络等。
深度学习(Deep Learning)是机器学习的一个分支,是一种基于人工神经网络的数据表征学习算法。它的主要特点包括:多层结构,使用多层神经网络来处理数据,通过逐层提取特征来学习复杂的表示;自动特征提取,能够从原始数据中自动学习特征,无需人工设计;强大的学习能力,能够处理大规模数据,并在图像识别、语音识别、自然语言处理等领域取得突破性成果;多种网络架构,包括卷积神经网络(CNN)、循环神经网络(RNN)、深度置信网络(DBN)等,适用于不同类型的任务;高度非线性,通过多层非线性变换,能够学习和表示复杂的数据模式;端到端学习,可以直接从原始输入到最终输出进行学习,无需中间步骤。
(2014年-2017年)生成对抗网络的突破
伊恩·古德费洛(Ian Goodfellow)出生于1987年,在斯坦福大学获得了计算机科学的学士和硕士学位,导师是吴恩达。随后,他在蒙特利尔大学获得机器学习博士学位,导师是约书亚·本希奥和亚伦·库维尔。2014年,它引入了生成对抗网络(Generative adversarial network,GAN),这是生成式人工智能领域的一个里程碑。
GAN有两个核心组件:生成器(Generator)和判别器(Discriminator)。生成器负责生成假数据,试图欺骗判别器;判别器则负责区分真实数据和生成的假数据。在对抗训练过程中,生成器不断学习生成更逼真的数据,而判别器则不断提高识别真假数据的能力。两个网络相互竞争,不断改进,最终目标是生成器能够产生与真实数据无法区分的假数据,而判别器将无法准确区分真假数据,只能随机猜测(50%概率)。简单来说,这种创新的框架包括两个互相对抗的网络:一个生成内容,另一个评估内容,推动了更为逼真和复杂输出的创造。
GAN在多个领域有广泛应用,包括图像生成(创建逼真的图像、提高图像分辨率等)、数据增强(为机器学习模型生成训练数据)、3D模型生成(根据2D图像生成3D模型)和艺术创作(生成新的艺术作品)。GAN的优势在于能够更好地建模数据分布,生成清晰、锐利的图像,并且理论上可以训练任何类型的生成器网络,无需使用马尔可夫链反复采样。然而,GAN的训练过程不稳定,容易出现模式崩溃等问题,并且需要大量计算资源。
得益于GANs和深度学习技术的进步,生成式人工智能的领域蓬勃发展。这一时期见证了生成模型的多样化,包括用于文本和视频生成的卷积神经网络(CNNs)和循环神经网络(RNNs),以及用于图像合成的变分自编码器(VAEs)和扩散模型的出现。大规模语言模型(LLMs)的发展始于GPT-1,展示了前所未有的文本生成能力,标志着该领域的重大飞跃。
(2017年-至今)快速扩展期
现在的生成模型不仅限于文本生成,还扩展到图像生成、音乐生成和视频生成等领域。以GPT系列为代表的大规模语言模型在自然语言处理方面取得了显著进展,能够生成高质量的文本内容。这些模型的成功展示了生成式人工智能在多个领域的广泛应用潜力。
ChatGPT 4.0 展示了令人印象深刻的自然语言理解和生成能力,能够处理复杂的对话、回答问题、撰写文章以及生成创意内容。其核心优势在于能够生成连贯且上下文相关的文本,这使得它在各种应用场景中得到了广泛使用,从客户服务到内容创作,再到编程助手。
MidJourney是一个基于生成式人工智能的图像生成平台,专注于从文本描述生成高质量的图像。用户只需输入简短的文本描述,MidJourney就能生成相应的图像,展示出生成式人工智能在视觉内容创作中的强大潜力。MidJourney的出现使得非专业用户也能够轻松创作出复杂的图像,为艺术创作、设计和媒体制作提供了新的可能性。
在今天的高科技时代,回顾ELIZA的故事和GAI的发展历程,我们不仅能看到技术进步的轨迹,也能反思人工智能与人类社会之间不断演变的关系。虽然ChatGPT等现代模型在功能和复杂性上超越了ELIZA,但正是这种最早的尝试,开启了我们对智能机器无尽可能性的探索之路。