文:戴伦.艾塞默鲁(Daron Acemoglu)、赛门.强森(Simon Johnson)
「通用AI」的幻觉
目前AI的发展路线是以图灵的主张为圭臬,追求的就是通用、达到人类水准的智能。尽管GPT-3与推荐系统(recommendation system)已有长足的进展,但就目前由人类处理的许多决策而言,要想凭着目前的AI路线来破解人类智能,甚至光是达到极高水准的生产效率,都还言之过早。
在人类认知上与社交及情境层面有关的任务,对於机器智能来说仍然会是巨大的挑战。如果我们仔细看看人们目前现有的成就,就会发现把人类擅长的事情全都交给机器处理会有多困难。
举例来说,AI最为人乐道的成功案例之一,是第一章曾谈过的AlphaZero西洋棋程式,有人甚至认为AlphaZero具有「创意」,因为它能够下出人类西洋棋大师未曾见过或想像的棋路。然而,这还称不上真正的智能。首先,AlphaZero的用途非常局限,只能用来下西洋棋这样的游戏,一旦超出这个范围,就算只是简单的算术或是需要更多社交互动,AlphaZero都无力处理。
更麻烦的是,目前还没有办法调整AlphaZero的架构,让它做到许多人类觉得很简单的事,像是找出相似之处、玩一些规则不那麽严格的游戏,又或是学习某种语言,而这些事每年都有几百万个一岁小孩能够做得又快又好。
此外,AlphaZero的西洋棋智能其实也非常局限,虽然常常能够走出既符合规定、又叫人赞叹的棋路,但这种「创意」的性质却不像人类常常会做出的那种「创造性活动」(能够在各种非结构性的不同环境当中做比较,或是对各种全新的问题找出解决办法)。
就算是GPT-3,已经比AlphaZero更通用、效能也更令人赞叹,但依然有其局限,只能完成曾受过预先训练的任务,而且也不具备判断力,所以一旦碰上矛盾或不寻常的指示,就可能被难倒。更麻烦的一点在於,这项技术并不具备人类的社交或情境智能元素,因此执行任务时,GPT-3无法判断情境的脉络,或从中推论因果关系。这套程式有时就连很简单的指令也会出现误判,难以对不断变化或全新的环境做出充分的回应。
事实上,从这些讨论还让我们看到一个更大的问题:统计方法虽然能够辨识模式、做出预测,但掌握不到许多人类技能的本质。首先,由於所谓确切的情境难以定义与编码,也就很难应对情境的资讯。
统计方法长期以来还有另一项问题,称为「过度配适」(overfitting),一般指的是为了想要精确呈现实证上的关系,结果在统计过程参考太多的参数。令人担心的地方在於,一旦出现过度配适,统计模型会把资料当中其实无关的部分也纳入计算,於是所做的预测或结论都出现失准。
统计学设计出很多方式来避免出现过度配适,像是研发演算法时先用另一份样本,而不是最後真正要应用演算法的样本。尽管如此,过度配适仍然是统计上的一大难题,因为它与目前AI路线的缺点直接相关:对於正要建立模型的现象,缺乏一套真正的理论。
想要解释这个问题,就必须先针对最後应用的目标,了解有哪些不相关、不是长久存在的特徵,从中对过度配适的问题进行更广泛的认识。让我们以「区分狼和哈士奇」这项任务为例。对人类来说,区分哪只是狼、哪只是哈士奇并不难,但这项任务对AI来说却很困难。
後来有某些演算法似乎表现得很不错,但後来发现这是因为过度配适:如果背景是都市,像是有平整的草皮、消防栓,AI就会判断为哈士奇;如果背景是雪山那样的自然情境,AI则会判断是狼。
但这两种配对方式根本是不相关的特徵,原因有二:首先,人类不是用这样的背景因素来定义或分辨动物;第二,随着气候暖化,狼的栖地可能会改变,因此程式需要能在不同环境中辨别狼只。换言之,正因为「背景」并非狼的决定性特徵,所以一旦周遭世界或环境改变,这种判断方式就会导致错误的预测。
对於机器智能来说,过度配适特别麻烦,因为那会让人误以为机器的表现十分出色,但其实错误百出。举例来说,虽然「温度」与「各国每人平均GDP」这两个变数在统计上相关,但并不代表气候会对经济发展造成巨大影响,原因可能只是在某段特定的历史中,欧洲殖民主义对於不同气候的不同地区有了不同的影响。但如果没有一套正确的理论,就很容易误把「因果」与「相关」混为一谈,而机器学习就常常出现这种情况。
在一种情况下,演算法过度配适的影响还会更为严重,那就是在社交情境中,人类会不断对新资讯做出回应。在这种时候,整个需要判断的情境会不断因为人的反应而改变,甚至这种改变正是因为有人参考了演算法的资讯。
让我们举个经济上的例子。当某人想要应徵某个职缺,这时演算法可能会以职缺远远少於应徵人数,判断此人的决定是错误的并加以纠正。而不管先前曾用怎样的方式来消除过度配适的问题(例如区别培训用与测试用的样本资料库),问题还是可能存在(例如两个样本资料库都属於还有诸多职缺的情形)。
此外,正因为这是个社交情境,所有人都会不断依据现有证据做出回应,所以未来的情境很有可能还会改变。举例来说,由於太多人被演算法鼓励去申请某个职缺,会让申请应徵的人数超过职缺数目,那麽这个职缺就不再是个理想的选择了。要是机器智能无法从这种情境与社交层面来了解人类的认知、掌握人类行为会如何动态调整,就会不断碰上过度配适的问题。