制造常识-萃嶺网

只要人们还在幻想思维机器，就会有批评家向我们保证机器的无能之处。这些批评指向——机器没有“常识”，就好像一个人工智能系统可能会建议你在饼干食谱中加入“煮熟的苹果蛋黄酱”或“重水”。

已故的人工智能哲学家约翰·豪格兰德（John Haugeland）在一篇开创性的论文《表征属》（Representational Genera）中提到，人类理解力的一个独特之处是能够描述一幅图像或根据想象描述一个场景，而这正是机器所缺乏的。豪格兰德写道，对表征的理解取决于“对表征内容的一般背景熟悉程度，也就是说，取决于世俗的经验和技能。”正是我们对表征的熟悉，比如文字的“逻辑表征”（“logical representations” ）和图像的“图像表征”（“iconic representations”），使我们能够忽略纸上的涂鸦或声音，去领悟它们是关于什么的，在世界上代表什么。

这就是为什么OpenAI（由诸多硅谷、西雅图科技大亨联合建立的人工智能非营利组织）最近发布的神经网络CLIP和DALL-E如此令人惊讶的原因。CLIP可以描述图像中的内容；DALL-E的功能是计算想象，从描述中创建出物体或场景。两者都是多模态神经网络，也是一种可以通过视觉和听觉访问同一情景，从海量数据中发现统计规律的人工智能系统。

“只要人们还在幻想思维机器，就会有批评家向我们保证机器的无能之处。”

输入文字和图像后的CLIP和DALL-E，将识别特定词语和对象、短语和事件、名称和地点或人等之间的对应关系。尽管研究结果与当代所有人工智能一样，结合了巨大的成功与尴尬的失败，但它们的能力揭示出一些关于如何让我们了解这个世界的见解。

在许多对人工智能的批评中，CLIP和 DALL-E所表示的常识的含义是模棱两可的。许多观察者似乎把“常识”想象成词语问题，比如头脑中的一堆句子，把一个人持有的信念进行编录。另一种方式是将常识建立在心理图像的基础上，就像我们的大脑可以参考的一个庞大的世界模型一样。

豪格兰德开辟了另一种研究常识的路径（他并没有采取这种以神经网络为中心的“分布式表征”）。这种表征世界的方式不如逻辑表征和图像表征那么熟悉，但可以说是最常见的。它不把常识当作了解世界的问题，而将之视为在世界中实践的问题。

逻辑表征和图像表征之间的区别

豪格兰德在他的文章《表征属》中指出，人类使用了多种类型的表征，就像我们装裱并挂在房子周围的图片或摆满书籍的描述。他认为，区分逻辑表征、图象表征和分布式表征的是它们能否代表关于世界的内容。每一个仅代表世界的一小部分，并以一种仅捕捉特定特征却忽略了许多其他特征的独特方式来实现这一点。

人类利用背景知识吸收这些表征，根据常识“充实”缺失的细节。除去背景知识、逻辑内容，诸如一个词语或短语、乐谱上的几个音符、等式或句子中的标记，这些通常只代表哲学家所说的“离散事实”：物体和属性、音乐乐谱或等式中的数字关系。

相比之下，图像、地图、音乐唱片或视频等图像表征所涉及的元素只有在相互关系中才有意义：图片中的形状、山脉的位置或电影中演员的各种位置和动作。图像表征取决于元素和它们的位置之间的关系，比如一张黑白照片如何表示不同位置的特定波长的光。这两种表征都是表现性的，但是逻辑表征无法在不添加更多信息的情况下捕获元素之间的关系，而图象表征不能描述无关系的元素。

这两种表征形式都不能反映出我们是如何体验的。音乐家们看着熟悉的乐谱这种逻辑表征，他们会立刻想象到他们最喜欢的乐曲录音：即一种图像表征。但这是我们熟悉这两种表征背景的结果。

“DALL-E和CLIP不仅识别和复制骨骼内容，还能使其变得有血有肉。”

以一篇关于纽约市长最近一场辩论的文章为例。一张照片可能会显示出一群人笨拙地站在领奖台后面，身后有明亮的红色、白色和蓝色的形状和图案。相比之下，这篇文章讨论了政策理念、人身攻击、单句笑话和对警察的尖锐指责。在骨骼层面上，这些都是指完全不同的东西：一方面是一组主体，另一方面是一组主题。我们对文本和图像的理解建立在我们对新闻报道背景的理解基础上，因为我们知道主体是竞选公职的人，他们在互相交谈。

这些都是豪格兰德认为的机器无法完成的表征之间转换所需的技能。这就是为什么DALL-E和CLIP的成功如此令人惊讶。这些系统不仅能识别和复制骨骼内容，还能使其变得有血有肉，用逻辑形态所隐含的隐性信息将它与图像形态模式中应该被描述的内容联系起来。

举个具体的例子：当“足球运动员避开对方后卫”时，DALL-E无法生成通用图像，机器也无法学习一一对应关系来记忆正确答案。相反，它需要识别一种多对多的对应关系，捕捉不同的特征：两个球员，全副武装，在场地上，在灯光下，脚上或者手里有一个足球(但不是两者都有)，近距离或远距离，身边有其他球员或裁判，但没有老鹰或自行车等等。

这意味着DALL-E需要根据人们对场景的描述来表现世界，或者至少是静态图像中可见的世界。分布式表征，其中神经网络最为常见，它提供了独特的事物表示方式，一种能够像人类一样毫不费力的方式，从逻辑和图象表征中获取的方式。

将分布式表征引入视图

我们熟悉逻辑表征和图像表征，因为它们是我们日常生活中无处不在的人工制品。另一方面，尽管比任何人工表征都更古老、更常见，分布式表征直到最近才得益于深度学习的成功，成为人工制品。进化论很早就偶然发现了这种大脑解决方案，因为这些网络提供了一种非常有效的手段，用以发现用什么来代表世界对智能体采取适当行动来说才是最重要的。当代人工智能大致模仿了大脑中的一些建筑设计和学习策略，以接近大自然的造诣。

豪格兰德表示，我们将分布式表征视为代表的技能或诀窍。说一种技能“代表”某种东西似乎有些奇怪，但技能取决于识别任务中的相关模式，把握哪些细微差别和差异较为重要，以及哪些反应最为合适。

例如，打乒乓球的技巧需要表现出一个旋转的球的外观，这种旋转与球拍的特殊摆动有关，以及哪些反应是有效的。打球的速度要求即时的识别和反应，远远快于我们有意识地理解旋转和决定如何反应。生物和人工的神经网络将识别和反应浓缩在同一行为中。

人工智能中一个熟悉的例子是高速公路驾驶。这是一项相对简单的任务：确保车辆在车道标记之间保持等距，与下一辆车保持恒定的距离，并在有必要改变车道时，找出邻近车辆的相对位置。这意味着该系统可以精确地调整车道标记、汽车形状和相对距离这些视觉数据模式并忽略所有其他的东西，比如汽车的颜色或车道标记上脱落的油漆。只有少数诸如保持车速、加速、减速、停车、左转、右转的输出可用，而正确的输出很大程度上由视觉输入定义：如果太近就刹车，进行轻微转向以保持在车道上等等。

“当代人工智能大致模仿了所有大脑中存在的一些建筑设计和学习策略，以接近大自然的造诣。”

因此，高速公路驾驶的分布式表征的骨骼内容只是输入内容中的相关的视觉模式之间的关联，它们将触发一个输出而不是另一个。其结果是对情景的一个高度详细的表征，但它不同于逻辑表征或图像表征。分布式表征中没有任何“看起来像”汽车或作为道路的“描述”的内容。相反，编码特定的视觉模式如何以一种可靠的方式组合在一起监测汽车，由此可见，应该以一定的方式处理。当人类在驾驶时进入“自动驾驶”模式时，他们似乎会求助于类似的表征方法，即使基本上没有注意到什么仍能毫不费力地、无意识地对车道、汽车和坑洼做出反应。

这些技能面临的主要挑战与人类面临的挑战相同：预防出现“车灯前的鹿”。许多不常见的事件将在模型中表现出来，比如在湿滑的道路上或能见度有限的情况下驾驶。但真正罕见的事件将根本无法被表现出来，而是被当作别的东西来对待；道路上很可能不会出现鹿，所以系统会(希望)把它归入普通障碍物的大类，并通过紧急刹车来回应。

这表明了表征的局限性，即许多可能的输入根本不会有足够的区别，因为它们在统计上不够常见，没有相关性。从这个意义上说，这些分布式表征具有一种隧道视觉，它们代表了任务中最重要的元素，而忽略了其他元素。但这对于生物和人工网络，以及逻辑和图标表征都是如此，没有任何表征可以代表一切。

“神经网络，无论是生物的还是人工的，都将识别和反应浓缩成同一个行为。”

对于CLIP和DALL-E来说，重要的是捕捉事物在与特定短语相关的情况下应该是怎样的。这显然需要深入了解词语是如何描述对象的。但他们也需要弄清楚这个短语暗指什么，诸如物体是在前景还是背景中，是在摆姿势还是在运动，是在看镜头还是从事某种任务等等。

理解一个短语的重要性需要建立一个粗略的多模态表征，一方面是映射词语与其他词语的关系；另一方面是影射词语与各种各样的图像。一个带有“民主党”字样的短语不仅需要拉起乔·拜登，还需要拉起蓝色旗帜、俗气的保险杠贴纸和穿着西装的“驴子”。CLIP和DALL-E完成这些壮举表明它们有一些类似常识的东西，因为以看似合理的方式表示任何特定的元素需要对许多其他元素及其相互联系有一个默契的普遍理解，也就是说，事物可能以其它潜在方式是被看到或被描述。

但是把常识赋予于CLIP和DALL-E感觉不太对，因为任务是如此的艰巨。任何生物都不仅仅需要掌握连接字幕和图片的技能。标题和图片都是社会的产物，它们受到规范的约束以保持公式化：简短而亲切的描述和清晰而集中的图像。在类似的任务上，比如为视频制作字幕或制作短片，它们都是无用的。整个活动过于人为了，因为太具体了，与世界脱节。这似乎是常识，如果说有什么区别的话，常识似乎比这更具有普遍性。

反思常识

一个古老的哲学传统认为，常识是思维方式的汇聚，我们的触觉、味觉和视觉在头脑中统一起来，形成外部世界的多模态图像模型。对于20世纪的人工智能研究人员来说，更常见的是设想一本巨大的书面百科全书，将我们的信念用交叉引用的句子记录下来，即一个逻辑表征的数据库。

但无论是哪种情况，都需要有人去查阅这些模型或数据库，由一个中心推理机来找出模型或数据库（或两者）中的重要内容，从而将其全部弄清楚。人们创造常识性人工智能的过程非常困难，这并不奇怪，因为在解决一个常识性难题时，你似乎需要一个无所不知的系统，而且还要了解如何获取所有相关信息。

但当普通人谈论常识时，往往是因为有人缺乏常识，比如有人行为笨拙或说了蠢话。当我们认为具有常识时，它是指那些行为正常的人，即那些拥有管理世界的技能和诀窍的人。这种常识模型不太像逻辑和图像版本，将常识认作是大脑中的一个巨大的知识体系，相反，它更接近我们在分布式表征中看到的东西。

“对每个物种有意义的东西是相对于他们所居住的世界而言的，没有意义的东西就不需要被表征。”

神经网络通常生成一个分布式表征，它能捕捉到理解并执行特定的任务的正确方式。多模态神经网络使这些分布式表征变得更加稳健。在CLIP和DALL-E的例子中，逻辑表征和图像表征之间的丰富联系为他们提供了对世界熟悉的背景，不仅能够辨别词语是如何连在一起的，而且还能辨别词语对事物外观的隐含内容。

从进化的角度来看，这种理解方法更有意义：让每个物种想出与其身体、形态和技能相关的适当表述。对每个物种有意义的东西是相对于他们所居住的世界而言的，没有意义的东西就不需要被表征。狗的常识是它能做好很多“狗”能做的事情，但狗体内肯定没有任何中心推理机制，也没有任何语言形式的语句数据库来表达它们的信念和欲望。一个物种根据它应该如何反应来表征它的世界，剩下的就无需被表征。

这种对常识适度的理解暗示了人们对超级智能机器收集大量数据的担忧，这些数据可能是信念百科全书或万物模型，而后产生一个无所不能的一般推理机。但是CLIP和DALL-E证明了这是反向的：实践先于理解，我们需要做什么决定了我们知道什么。任何对世界的描述，诸如逻辑的、图象的或分布式的，都包含一个关于什么重要什么不重要的假设，例如你不能给声音拍照。人类知道的多是因为他们实践的多，反之则不然。

机器理解并不是一个全有或全无的问题。机器将继续通过零碎的技能积累来进行更多探索，从而扩展自己。这意味着通用人工智能看起来不会是我们想象的那样，但很可能与我们相似，诸如用一系列技能对其完成各种任务所需知道的东西进行粗略的表征，对于通用智能来说，没有比这更重要的了。

天蒙「睿ⁿ」 | 编

# 热门搜索 #