若想对未来下注,先要厘清人工智能为何仍然无法超越人类智能

智能是个手提箱

对于任何谈论人工智能的人来说,定义“人工智能”都是一个挑战。因为人工智能的核型概念——智能,仍然没有明晰的定义。针对蕾丝“智能”及其引申义,如“思想” “认知” “意识” “情感” 这样的词语,明斯基肠燥了 “手提箱式词汇” 这一术语,其意思是:每个词语就像是打包封装了不通含义的手提箱。人工智能就经过了“打包”,在不同的上下文中承担不同的含义。

大多数人会认同人类是智能的,而尘埃颗粒不是。同样的道理,我们普遍认为人类比虫子更加智能。对于人类智能,智商是在单一尺度上衡量的,但我们也会探讨智能的不同纬度,如情感、语言、空间、逻辑、艺术、社交等。因此,智能的定义可能是二元的(一个物体是或不是智能的)、在一个连续统上(一个物体比另一个物体更智能),或者是多维的(一个人可以具有高语言智能和低情感智能)。确实,“智能”这个词语是一个满载的手提箱,而拉链就在随时可能撑破的边缘上。

神经网络是现代人工智能的基础

20世纪80年代中期,依赖人类创建并反映特定领域专家知识规则的符号人工智能方法——专家系统,越来越暴露出自身的脆弱性:容易出错,且在面对新情况时往往无法进行一般化或适应性的处理。在分析这些系统的局限性时,研究人员发现,便携规则的人类专家实际上或多或少依赖于常识以便明智地行动。这种常识通常难以通过程序化的规则或逻辑推理来获取,而这种常识的缺乏严重限制了符号人工智能方法的广泛应用。简而言之,在经历了过度承诺、巨额的资金支持和媒体炒作的一轮周期之后,符号人工智能又将面临另一个人工智能的寒冬。

根据联结主义的支持者观点,智能的关键在于构建一个合适的计算结构以及系统从数据或现实世界的行为中进行学习的能力,这是受到了大脑的启发。突然之间,神经网络又流行起来。

强弱人工智能之争

尽管深度学习近年来取得了很大成功,但和迄今为止所有的人工智能实例一样,这些程序仍然只是所谓的“狭义”或“弱”人工智能的例子。此处的“狭义”和“弱”是用来形容哪些仅能执行一些狭义任务或一组相关任务的系统。AlphaGo可能是世界上最好的围棋玩家,但除此之外什么也做不了,它甚至不会玩跳棋、井字棋等游戏。谷歌翻译可以把英文的影评翻译成中文,但它无法告诉你影评者是否喜欢这部电影,更不用说让它自己来观看和评论电影了。

“狭义”和“弱”人工智能往往是与“强” “人类水平” “通用” 或 “全面” 人工智能(有时候也称作AGI,即通用人工智能)对比而言的,后者即那种我们在电影中常看到的,可做我们人类所能做的几乎所有的使其,甚至更多事情的智能。通用人工智能是人工智能领域研究最初的目标,但至今还没有创建出任何能够在通用意义上被称为“智能”的人工智能程序。该领域最近的一项研究表明:“一堆狭义智能永远也不会堆砌成一种通用人工智能。通用人工智能的实现不在于单个能力的数量,而在于这些能力间的整合。“

视觉识别:始终是“看”起来容易“做”起来难

从大脑识别到ConvNets识别

大脑识别模式: 当人的眼镜聚焦于一个场景是,眼睛接收到的是有场景中的物体发出或其表面反射的不同波长的光,这些光线激活了视网膜上的细胞,本质上说是激活了眼睛后面的一个神经元网格。这些神经元通过位于眼睛后面的纤长的视觉神经来交流彼此的激活信息并将其传入大脑,最终激活位于大脑后部视皮层的神经元。视皮层大致是由一系列按层排列的神经元组成,就像婚礼蛋糕那样一层一层堆在一起,每一层的神经元都将其激活信息传递给下一层的神经元。

ConvNets识别模式: C哦女N额头上由一些列模拟神经元组成,在这里,我还是将这些模拟神经元称为单元。每层中的单元为下一层的单元提供输入,当一个ConvNets处理一张图像时,每个单元都有一个特定的激活值——根据单元的输入及其连接权重计算所得的真实的数值。ConvNets的输入是一幅图像,即与图像每个像素的颜色和亮度一一对应的一个数值组。它的最终输出是网络对于每种类别(狗或猫)的置信度(0~100%)。我们的目标是让网络学会对输入图像所属的正确类别输出高置信度,对其他类别输出低置信度。这样,网络将了解输入图像的哪些特征对完成这项任务最有帮助。

机器视觉智能的3个致命短板

如今,机器智能在ImageNet上的目标识别能力是否已经超越人类的争论众说纷纭。这一论断是基于人类的错误率约为5%,而机器的错误率接近2%的一个声明,这难道无法证明计算机在这项任务上的表现比人类更好吗?答案是否定的。

第一,当你读到“一台机器正确地识别了目标”时,你会认为,给定一张篮球的图像,机器会输出“篮球”这一结果;但在ImageNet竞赛中,正确地识别仅意味着正确类别出现在机器给出的前5个输出类别中。如果给机器输入一张篮球的图像,机器按顺序输出的是门球、比基尼、疣猪、篮球和搬家货车,即可被判定是正确识别。

第二,对于“人类在ImageNet上的识别错误率为5%”这个声明,其中的“人类”一词实际上表述得并不是非常准确,因为这一结果来自被试只有一个实验。

第三,当一个人说照片中有一条狗时,我们认为这是因为人类在图像中实际上看到了一条狗,但是如果ConvNets“说”图像中有狗时,也许知识图像中有一些其他对象,如网球、飞盘、被叼住的鞋子,这些对象在训练图像中往往与狗有关,而ConvNets在识别这些对象时就会假设图像中有一条狗。这类关联的结果往往会愚弄程序,使其做出误判。

难以避免的长尾效应

知名的深度学习专家本吉奥说:“实事求是地讲,我们不可能对世界上的所有食物都进行标注,并一丝不苟地把每一个细节都解释给计算机听。” 这一情况由于长尾效应的存在而进一步恶化:人工智能系统可能要面临各种可能的意外情况,自动驾驶汽车在一天的行驶期间可能会遇到各种假设情况的可能性可以很好地说明这一现象。遇到红色交通灯或停车标志等都是常见的情况,被评定为具有高可能性;中等可能性的情况包括遇到碎玻璃或者风吹过来的塑料袋;不太常见的情况是自动驾驶汽车遇到了被水淹没的道路或者被雪遮挡住的车道标志,等等。

“长尾”这个术语来自统计学,其中包含的一长串可能性低,但却可能发生的情况被称为一个概率分布的“尾巴”,尾巴上的情况优势被称为“边缘情况”。人工智能在先是世界的大多数领域中都会面对这种长尾效应;现实世界的大部分时间通常是可预测的,但仍有一长串地概率的意外事件发生。如果我们的单纯依靠监督学习来提升人工智能系统对世界的认知,那么就会存在一个问题:尾部的情况并不经常出现在训练数据中,所以当遇到这些意外情况时,系统就会更容易出错。

“新机器人三定律”

  1. 有用的人工智能
    在考虑人工智能在我们社会中的作用时,我们很容易把注意力集中在不利的一面,但是,有必要记住,人工智能系统已经为社会带来了巨大好处,并且它们有潜力发挥更大的作用。

  2. 可解释的人工智能
    在人工智能“自动决策制定”的情况下,任何一个影响公民的决策都需要提供其中所涉及的与逻辑有关的有意义信息,并且这些信息需要使用清晰明了的语言,以简洁、透明、易懂和易于访问的形式来沟通和传达,这打开了有关解释问题的闸门。

  3. 可信的人工智能
    在赋予计算机“道德智能”方面的进展不能与其他类型智能的进展分开,真正的挑战是创造出能够真正理解它们所面临的场景的机器。换句话说,可信任的道德理性的一个先决条件时通用的尝试,而这,正如我们所见,即使在当今最好的人工智能系统中也是缺失的。

游戏与推理:开发具有更接近人类水平的学习和推理能力的机器

强化学习,让AlphoGo名声大噪的幕后推手

在最纯粹的形势下,强化学习不需要任何被标记的训练样本。代替它的是一个智能体,既学习程序,在一种特定环境(通常是计算机仿真环境)中执行一些动作,并偶尔从环境中获得奖励,这些间歇出现的奖励是智能体从学习中获得的唯一反馈。

强化学习的目标是:让智能体自己学习并获得能对即将到来的奖励进行更好的预测的值,前提是智能体在采取相关行动后一直在做正确的选择。正如我们阿奎那道德,习得给定状态下特定动作的值通常需要经过许多次试错。

尽管计算机程序可能不会对一个吻或一局热情的“你是最棒的”做出反应,但是它可以被设置为能够对与这种赞美等价的奖励做出响应,比如向机器的内存中添加正数,然后算法会高速机器如何从自己的经验中学习。

强化学习的实践者几乎都会构建机器人和环境的模拟,然后在模拟世界而非在现实世界中执行所有的学习片段,然而,环境愈复杂和不可预测,讲机器人在模拟中学到的技能转移到现实世界的尝试就愈加难以成功。迄今为止强化学习最大的成功不是在机器人领域,而是在那些能够在计算机上进行完美模拟的领域,特别是游戏领域。

好的游戏,可以从更好的猜测中学习猜测

如果你是那个学习智能体,当前状态下某个动作是对你在选择某一动作并持续选择高价值动作的条件下,本片段结束后你将获得多少奖励的估计,那么,越接近这一片段的结尾,估值就越准确,因为在一个片段的结尾处,你能计算出你将获得的实际讲理!其中的诀窍是:假设网络在当前迭代的输出比上一次迭代的输出更接近于正确值,然后,通过反向传播学习调整网络权重,从而使得当前与先前迭代输出之间的差异最小化。

理查德·萨顿是这种方法的鼻祖之一,他把该方法称为:从猜测中学习猜测。我把它修改为:从更好的猜测中学习猜测。简而言之,强化学习不是将其输出与人类给定的标签进行比较,而是假设后续迭代给出的值比前面迭代给出的值更好,网络学习的是使其输出在一次迭代到下一次迭代的过程中保持一致。

像人一样学会迁移

在机器学习领域,迁移学习是一个充满前景的学习方法,它是指一个程序将其所学的关于一项任务的知识进行迁移,以帮助其获得执行不同的相关任务的能力。对于人类来说,迁移学习是自动进行的,比如,学会打乒乓球之后,我们就能讲其中的一些技巧进行迁移来帮助我们学习打羽毛球和网球;知道如何下西洋跳棋,也有助于我们学习国际象棋。

人类这种从一种任务到另一种任务的能力迁移看起来好不费劲,我们对所学知识进行泛化的能力正式思考的核心部分。因而,我们可以说,迁移学习的另一种表达就是学习本身。

与人类形成鲜明对比的是,当今人工智能领域中的大多数学习算法在相关的任务之间是不可迁移的。在这一点上,该领域离哈萨比斯所说的通用人工智能仍然有很远的距离。尽管迁移学习是目前机器学习从业者最活跃的研究领域之一,但这方面的研究仍然处于初级阶段。

自然语言:让计算机理解它所“阅读”的内容

理解语言,理解我们赖以生存的隐喻

理解语言,特别是理解其中隐含的部分,是人类智能的一个基本部分。图灵把他著名的图灵测试,构造为一场关于语言之生成和理解的比赛,这决非偶然。

语言常常是充满歧义的,极度依赖语境,而且通常语言沟通的各方需要具备大量共同的背景知识。与人工智能的其他领域一样,自然语言处理相关的研究在最初的几十年集中在符号化的、基于规则的方法上,就是那种给定语法和其他语言规则,并把这些规则应用到输入语句上的方法。这些方法并没有取得很好的效果,看来通过使用一组明确的规则来捕捉语言的微妙是行不通的。自动语音识别是深度学习在自然语言处理中的第一个重大成就,并且我敢说,这是迄今为止人工智能在所有领域中取得的最重要的成就。

在深度网络开始在计算机视觉和语音识别上“得心应手”后不久,自然语言处理的研究者就开始试着把它们应用于情感分析。

破解机器翻译,攀登人工智能的天梯

在线翻译系统可以为人们提供全天候的即时翻译服务,而且通常可以处理100多种不同的语言,但是,其水平仍然远低于优秀的人类翻译员。

机器翻译的原始方法依赖于人类制定规则的复杂集合,所以,它们相当脆弱,需要面对来自自然语言处理领域所面临的所有挑战。

从20世纪90年代开始,一种被称为“统计机器翻译”的新方法开始占据主导地位,此方法依赖于从数据而非从人类制定的规则中学习。

谷歌翻译可能是目前最为广泛使用的自动翻译程序,使用的是一种更加优越的基于深度学习的翻译方法,也就是神经机器翻译。

深度学习时代的机器翻译所取得的巨大成功是由大数据和快速计算造就的,但这种成功完全是基于对单个句子翻译水平的评估,而非篇幅更长的文章。

阅读理解的关键不仅在于“提取答案”,还在于“具备常识”

《星际迷航》或许给我们许多人都编织了一个梦想:能够向计算机询问任何事情,并且它可以做出准确、简洁和有用的回应。如果你使用过当今任意一款人工智能语音助手,如Siri、Alexa、Cortana、Google Now,你就会知道这个梦想还尚未实现——这些系统并不能理解我们所问的问题的含义。

虽然计算机目前已经可以准确地转述我们的请求,但我们的终极目标是:让计算机真正理解我们所问的问题的含义。这本质上是一种阅读理解任务,但目前计算机其实并不能完全读懂一个特定文本中字里行间的意思,也无法做到真正的推理,比起阅读理解,计算机能做到的应该叫做“答案提取”。答案提取对机器来说是一项有用的技能,事实上,答案提取也正是Alexa、Siri以及其他数字助理软件所需要做的:将接收道德问题转换为一个搜索引擎查询序列,然后从搜索结果中提取答案。

“提问-回答”的话题一直是自然语言处理研究的一个重点。若想正确回答这些问题,不仅需要答案提取的技能,还需要具备自然语言处理和常识推理的集成能力,以及一些必要的背景知识。尽管深度学习已近在语音识别、语言翻译、情感分析及自然语言处理的其他领域取得了一些非常显著的进展,但人类水平的语言处理能力仍然是一个遥远的目标。

常识——人工智能打破意义障碍的关键

理解力是一种预测力,而预测力与我们的经历息息相关

我们都拥有心理学家所说的关于世界的重要方面的“心智模型”,这个模型基于的是我们掌握的物理学和生物学上的事实、因果关系和人类行为的知识,并揭示了世界是如何运作的。心智模型不仅能够使你预测在特定情况下可能会发生什么,还能让你想象如果特定事件发生将会引发什么。

我们通过核心物理知识来理解抽象概念。如果物理意义上的“温暖”概念在心理上被激活,例如,通过手持一杯热咖啡,这也会激活更抽象、隐喻层面上的“温暖”概念。如果我们对概念和情境的理解是使用心智模型来进行模拟的,那么,也许意识以及我们对自我的全部概念,都来自我们构建并模拟自己的心智模型的能力。

我们拥有的与物理感觉相关的概念可能会激活关于自我的抽象概念,后者通过神经系统的反馈,产生一种对自我的物理感知,你也可以将这里的“自我”称为意识。这种循环因果关系类似侯世达所说的意识的“怪圈”:“符号和物理层面相互作用,并颠倒了因果关系,符号似乎拥有了自由意志,并获得了推动例子运动的自相矛盾的能力。” 我们所谓的感知、分类、识别、泛化和联想都涉及我们对所经历过的情境进行抽象的行为。

我们是否可以为机器赋予常识

在人工智能发展的早期阶段,机器学习和神经网络还尚未在该领域占主导地位,那时候,人工智能研究人员还在人工地对程序执行任务所需要的规则和知识编码,对他们来说,通过“内在构建”的方法来捕捉足够的人类常识以在机器中实现人类水平的只能,看起来是完全合理的。

当深度学习开始展示其一系列非凡的成功时,不管是人工智能领域的内行还是外行,大家都乐观地认为我们即将实现通用的、人类水平的人工智能了。然而,正如本书中反复强调的那样,随着深度学习系统的应用愈加广泛,其智能正逐渐露出“破绽”。即便是最成功的系统,也无法在其狭窄的专业领域之外进行良好的泛化、形成抽象概念或者学会因果关系。此外,它们经常会犯一些不像是人类会犯的错误,以及在对抗样本上表现出的脆弱性都表明:它们并不真正理解我们教给它们的概念。

要想令人工智能实现真正的进步,就需要让及其具备常识,但是,很多处于我们潜意识里的知识,我们甚至不知道自己拥有这些知识,或者说常识,却是我们人类所共有的,而且是在任何地方都没有记载的知识。这包括我们在物理学、生物学和心理学上的许多核心直觉知识,这些知识是所有我们关于世界的更广泛的知识的基础。如果你没有有意识地认识到自己知道什么,你就不能成为向一台计算机明确地提供这些知识的专家。

思考6个关键问题,激发人工智能的终极潜力

  1. 自动驾驶汽车还要多久才能普及?
  2. 人工智能会导致人类大规模失业吗?
  3. 计算机能够具有创造性吗?
  4. 我们距离创建通用的人类水平AI还有多远?
  5. 我们应该对人工智能感到多恐惧?
  6. 人工智能中有哪些激动人心的问题还尚未解决?

Reference

[1] AI 3.0