2. 技术:从无法工作到神经网络
人工智能的繁荣基于传统与现代想法的结合。
人工智能如何从刚开始的傲慢与失望,突然成为科技界最热门的领域呢?人工智能(artificial intelligence)这个术语最早被写在 1956 年的一份研究计划中,该计划声称「如果一个精心挑选的科学家小组花一个夏天一起研究,就能使机器解决各种人类无法解决的问题……」,从而实现重大的进步。那被证明只是疯狂过度地乐观,人工智能虽然偶有突破,但其承诺的远比其所能提供的多得多。最终,大多研究者都避免使用这个术语,而更喜欢用「专家系统」或「神经网络」。现在「人工智能」的名誉恢复和重新兴起要追溯到 2012 年被称为 ImageNet 挑战赛的在线竞赛。
ImageNet 是一个拥有数百万张图片的在线数据库,所有图片都有人工做的标签。对于任何给定词,例如「气球」或「草莓」,ImageNet 里都能找到上百张对应的图片。每年的 ImageNet 竞赛鼓励该领域的人在计算机识别和自动标记图片上进行比赛,并衡量他们的进展。这些系统首先使用被正确标记的图片集进行训练,然后挑战标记之前没见过的测试图片。在后续的研讨会上,优胜者会分享并讨论他们的技术。2010 年获胜的系统可以正确标记 72% 的图片(人类平均有 95% 的准确率)。2012 年,多伦多大学的 Geoff Hinton 带领的团队实现了 85% 的准确率,这要归功于一项叫「深度学习」的新技术。这带来了一种长远快速的改进,在2015 年的 ImageNet 竞赛上,一个深度学习系统以 96% 的准确率第一次超过了人类。
2012 年的成果被认为是一项突破,但 Yoshua Bengio 说,他们依靠的是「结合以前已经有了的东西。」Yoshua Bengio 是蒙特利尔大学的计算机科学家,他与 Hinto 以及另外几个人被称为深度学习的先驱。大体上,这项技术使用了大量的计算和训练数据,对来自人工智能发展初期的一个旧思路进行改进,这个旧思路也就是人工神经网络(ANN)——这是生物学启发的人工神经元(脑细胞)网络。
在生物大脑中,每个神经元都能被其它神经元触发,将输出的信号馈送给另一个神经元,而且此神经元的输出也能继续触发其它神经元。一个简单的 ANN 网络有一个输入神经元层,在这里数据被馈送进网络中;还有一个输出层输出结果,中间可能还会有三两个隐藏层对信息进行处理。(实际中,ANN 网络全部在软件中模拟。)网络中的每一个神经元都有一系列的「权重」和一个「激活函数」控制着输出的信号发射。训练一个神经网络涉及到对神经元权重的调整,以便一个给定的输入产生期望的输出。ANN 在 20 世纪 90 年代早些时候就已经实现了一些有用的结果,例如识别手写数字。但在完成更为复杂的任务上,ANN 陷入了困境。
在过去的十几年中,新技术的出现和对激活函数的一种简单调整使得训练深度网络变得可行。同时,互联网的兴起产生了数十亿可用于目标训练的文档、图片、视频数据。这所有的一切都需要大量的数字操作能力,而 2009 年左右当几个人工智能研究团体意识到个人计算机和视频游戏机上用于生成精致画面的 GPU 也同样适用于运行深度学习算法之后,计算能力也不再是个问题了。斯坦福大学由吴恩达带领的一个人工智能团队发现 GPU 能够几百倍地加速深度学习系统。然后,训练一个四层的神经网络突然就变得很快了,由之前需要花费几周的时间变成了不到一天时间。GPU 生产商 NVIDIA 的老总黄仁勋说这是一个令人高兴的对称:GPU 这一游戏工作者用于为游戏玩家构建幻想世界的芯片也能用于帮助计算机通过深度学习理解真实世界。
ImageNet 的结果显示了深度学习的能力。突然间,深度学习就获得了关注——不只是在人工智能界,而是在整个科技产业界内!深度学习系统因此变得更加的强大:20 或 30层的网络变得很常见,微软的研究人员曾建立过 152 层的网络。更深层的网络能进行更高水平的抽象并产生更好的结果,事实证明这些网络擅长解决众多领域的难题。
「让人们激动的是这一领域的一种学习方法:深度学习,能够应用于众多不同的领域,」谷歌机器智能研究部门负责人、如今负责搜索引擎的 John Giannandrea 表示,谷歌正在使用深度学习提升其网页搜索结果的质量、理解智能手机端的口语指令、帮助人们在他们的照片中搜索特定的图片、推荐电子邮件的自动回复、改善网页的翻译服务,并且帮助它们的自动驾驶汽车理解周围环境。
学习如何学习
深度学习有很多不同的方式。最普遍使用的是「监督学习(supervised learning)」,这项技术能使用标记样本集训练系统。例如,过滤垃圾邮件:收集出邮件信息样本的大数据集,每一个都标上「垃圾邮件」或者「非垃圾邮件」。一个深度学习系统能够使用这些数据集进行训练,重复的进行样本训练进而调整神经网络内的权重,提高评定垃圾邮件的准确率。这一方法的巨大优点是不需要人类专家写出规则列表,也不需要程序员用代码编写这些规则,系统能直接从有标签的数据中进行学习。
使用有标签数据训练系统也被用于图片分类、语音识别、信用卡交易欺诈侦测、垃圾和恶意软件识别以及广告定位,所有这些应用领域中的正确答案都可通过之前的大量案例获得。Facebook 能在你上传一张照片后识别、标记照片里你的朋友和家人,它们近期还发布了一个能够为盲人描述照片中的内容(比如两个人、微笑、太阳眼镜、户外、水等)的系统。有大量的数据可用于监督学习,吴恩达先生说,这一科技的应用已经使现在的金融服务领域、计算安全领域和销售领域的公司将自己重新标记为了人工智能公司。
另一项技术是无监督学习(unsupervised learning),其通过将网络暴露在大量样本中来对网络进行训练,但不会告诉它要寻求什么模式。相反,该网络学习识别相似样本的特征和聚类,从而揭示数据中的隐藏分组、连接和模式。
无监督学习能在你不知道会是什么样的情况下被用于事物搜索:例如,监控网络中反常的通信模式,那可能代表着网络攻击;或检查大量的保险声明以检测新类型的诈骗方式。一个经典的案例:2011 年当吴恩达在谷歌工作时,他领导的一个名为谷歌大脑(Google Brain)项目中的一个大型的无监督学习系统本是用于在千部无标记 YouTube 视频中发现共同模式。一天,吴恩达的一个博士生给了他一个惊喜。吴恩达回忆说「我记得他把我叫道他的电脑前说,『看这个』」,电脑屏幕上是一个毛茸茸的面孔,从数千的样本中发现的模式。系统发现了猫。
强化学习位于监督学习和无监督学习之间,它涉及到训练一个神经网络与只以奖励作为偶然的反馈的环境进行交互。本质上,训练涉及到调整网络的权重,从而获得能带来更高奖励的搜索策略。DeepMind 是这个领域的专家。2015 年 2 月,它们在 Nature 上发表的一篇论文描述了一个能够学习玩 49 种经典的 Atari 视频游戏的强化学习系统,它只使用屏幕上的像素和游戏分数作为输入,输出则连接到一个虚拟的控制器上。这个系统从头学起玩游戏,最终在其中 29 种游戏中达到或超过了人类水平。
把系统游戏化
电子游戏是人工智能研究的理想训练场,DeepMind 的 Demis Hassabis 说,因为「它们是真实世界的缩影,但更纯净和约束化。」 游戏引擎也可以轻松生成大量训练数据。Hassabis 先生以前从事过电子游戏行业的工作,后来取得了认知神经学的博士学位并创立了 DeepMind。这家公司现位于伦敦国王十字车站附近,相当于谷歌的人工智能研究分部。
今年三月,AlphaGo 于首尔的五轮比赛中打败了世界顶尖围棋选手李世石,作为开发公司的 DeepMind 因此登上头条。AlphaGo 是一个有着独特特性的强化学习系统。它由几个相互连通的模块组成,包括两个深度神经网络,它们各有所长——像人脑中模块一样。其中一个通过大量的棋局分析训练提出一些可能的走法,另一个网络则负责根据随机采样技术来评估这些走法。这个系统把生物启发的技术与纯机器化的技术结合了起来。人工智能研究者们就哪种技术更优越这个问题已经争论了几十年,而 AlphaGo 却另辟蹊径两者都用。「这是一个复合型系统,因为我们认为解决智能问题只有深度学习是不够的」,Hassabis说。
他和其他研究者们已经开始探寻一种叫做迁移学习(transfer learning)的新技术了。这种技术能让强化学习系统把基础建立在已习得的知识上,而不用每一次都从头开始训练。Hassabis 先生解释道,人类可以毫不费力地做到这一点。Giannandrea 先生回忆起他四岁的女儿已经能辨别出 penny-farthing(一种前轮大后轮小的脚踏车)就是一种自行车,即使她之前从没见过这样的东西。「但计算机无法做到,」他说。
一家最近被 Salesforce 收购的初创公司 MetaMind 也在研发一种相关的技术——多任务学习(multitask learning),这种系统用同样的神经网络架构解决多种不同的问题,在一件事情上获得的经验能用来更好地解决其它事情。跟 DeepMind 类似,它也在探寻模块化的架构;其中一个被称为「动态记忆网络(dynamic memory network)」的系统能消化一系列陈述,然后回答相关问题,并且推断出其中的逻辑联系(Kermit 是一只青蛙;青蛙是绿色的;所以 Kermit 是绿色的)。MetaMind 还把自然语言网络和图像识别网络融合到一个系统中,它可以回答有关图像的问题(「这里面的汽车是什么颜色的?」)。这种技术可以用到智能客服聊天机器人中,或者用于 Salesforce 的客户呼叫中心。
过去,很多有前景的人工智能技术发展都会逐渐疲软。但深度学习却不同。「这东西真的能起作用,」 MetaMind 的 Richard Socher 说。人们每天都会用到它,虽然他们并未意识到。Hassabis、Socher和其他人的长远目标是开发出「通用人工智能(AGI )」—一种能完成各种各样任务的系统,有了它就不必再为每个特定问题都专门开发出一个系统了。人工智能多年来的研究方向都集中在解决专业化的特定问题上,Socher先生说,但现在研究人员们「正努力用更先进的乐高积木块拼出不一样的东西」。即使他们中最乐观的人也认为还需至少十年才能做出人类智力水平的 AGI 。但 Hassabis 说,「我们认为我们已经知道实现接近 AGI 的系统所需的几十种关键元素了」。
同时人工智能已经在发挥作用了,而且很快会更有用。例如谷歌的智能回复系统,它通过两个神经网络推荐邮件回复,从研究项目到产品上线只用了四个月(虽然刚开始它因为对每条信息建议回复的有「我爱你」而令人失望)。「在科研期刊上发表文章刚一个月,就有某个公司正确使用你的系统了,」Socher 说。人工智能公司,不论规模大小都能都能定期发表学术文章;人工智能研究者即使在转行进入公司后也能继续在同行评议期刊上发表研究成果。很多人都是边为公司工作边发表科研文章。「如果你不允许他们发表,他们就不会为你工作了,」Andreessen Horowitz 的 Chris Dixon 解释说。
谷歌,Facebook,微软,IBM,亚马逊,百度以及其他公司都开源了某些深度学习软件。部分原因是这些公司中的研究人员想要发表自己的成果,因为这有利于公司招募更多人才。从更现实的角度来看,这也是因为大型互联网公司不在乎把自己的人工智能软件公之于众,因为他们真正的优势在于能获取大量用于训练的用户数据。一家投资基金公司 Bloomberg Beta的Shivon Zilis说,这使得他们能在某些方面占尽优势,但初创公司也在寻求打入市场的独特途径。比如无人机初创公司能在人群密集的地方通过模拟数据进行飞行训练。而且很多训练数据都能从网上找到,孵化器公司 Y Combinator 的董事长 Sam Altman 说道。他注意到人类可以用有限的数据进行学习,「这意味着大量训练数据并不是实现智能的必要条件」。像 Numenta 和 Geometric Intelligence 这样的初创公司正在探索低数据依赖性的新智能系统。
在这股人工智能淘金热中,公司们排着队为参与者提供铁锹。出现最为频繁的名字是英伟达,Dixon 先生说;似乎每一家人工智能创业公司都在使用它的 GPU 芯片来训练神经网络。GPU 能力也可从亚马逊和微软的云中租用。与此同时,IBM 和谷歌则正为更快更高效地运行人工智能软件而设计专门的新芯片。谷歌、微软和 IBM 也正使其语音识别、句子解析和图像分析等人工智能服务免费在线提供,让创业公司可以结合这些开发模块来构建新的人工智能产品和服务。IBM 的 Guru Banavar 说:来自多个行业的 300 多家公司已经使用 IBM 的 Watson 平台开发出了人工智能驱动的应用,其中包括筛选应聘者和挑选葡萄酒。
对大多数人而言,所有这些人工智能领域的进步都将体现为他们每天都在使用的互联网服务的不断进步。搜索引擎将得到更相关的结果;推荐将会更加准确。Hassabis 预测说:几年之内,所有东西都将会嵌入某种程度上的智能。人工智能技术将让计算机接口变成对话式和有预测力的,而不只是简单的菜单和按钮。而且对话式的交互让不能阅读书写和目前不能使用互联网的人也能使用计算机,Bengio 说。
厚积多年,一朝薄发;机器将能够执行之前只有人类才能完成的任务。自动驾驶汽车正快速变得越来越好,到某个点时它们也许能够取代出租车司机,至少在市中心等受控环境中可以做到。送货无人机,不管是地上跑的还是天上飞的,类似地可以与人类送货员竞争。改进后的视觉系统和机器人技术让机器人可以码放超市货架和在仓库中移动物体。而且还给意想不到的突破留下了很多余地,Dixon 说。
其他人却很担心,担忧人工智能技术会增压特定任务中现有的计算机化和自动化;就像 200 年前的蒸汽动力一样,让很多工人成了多余。英国诗人 Robert Southey 宣称 :「蒸汽可怕地加剧着已经正在进行的过程,但太快了。」他担心「这强大之力的发现」已经在「我们知道如何正确使用它」之前到来。许多人对今天的人工智能也这么想。
评论