AI

人工通用智能的终点在哪里?

人工通用智能的说法越来越普遍。但大家能就人工智能的定义达成一致吗?
听 ChatGPT 的 OpenAI 等公司说,人工通用智能或 AGI 是机器学习和人工智能研究的终极目标。但是,衡量通用智能机器的标准是什么?1970 年,计算机科学家马文-明斯基(Marvin Minsky)预言,即将开发出来的机器会 “读莎士比亚、给汽车加油、玩办公室政治、讲笑话、打架”。多年后,苹果公司联合创始人史蒂夫-沃兹尼亚克(Steve Wozniak)提出了 “咖啡测试”,认为当机器能够进入陌生人的家中煮一壶咖啡时,就能实现 AGI。

对于什么是 AGI,很少有人达成一致,更不用说实现它了。计算机和认知科学领域的专家,以及政策和伦理学领域的其他专家,往往对这一概念有着各自不同的理解(对其含义或合理性也有不同的看法)。如果不能达成共识,就很难解读有关 AGI 的公告或有关其风险和益处的说法。不过,与此同时,这个词越来越频繁地出现在新闻稿、访谈和计算机科学论文中。微软的研究人员去年宣布,GPT-4 显示出了 “AGI 的火花”;5 月底,OpenAI 证实它正在训练下一代机器学习模型,该模型将在 “通往 AGI 的道路上 “拥有 “更高水平的能力”。而一些著名的计算机科学家则认为,通过文本生成大型语言模型,AGI 已经实现了。

要知道如何谈论 AGI、测试 AGI 以及管理 AGI 的可能性,我们就必须更好地掌握 AGI 的实际描述。

通用智能
圣费研究所(Sante Fe Institute)教授兼计算机科学家梅兰妮-米切尔(Melanie Mitchell)说,20 世纪 90 年代末和 21 世纪初,AGI 成为计算机科学家中的一个流行术语,他们认为自己的研究领域越来越窄,因而感到沮丧。这是对 “深蓝 “等项目的一种反应。”深蓝 “是一种国际象棋下棋系统,它击败了国际象棋大师加里-卡斯帕罗夫(Garry Kasparov)和其他人类冠军。一些人工智能研究人员认为,他们的同事过于专注于训练计算机掌握游戏等单一任务,而忽略了目标:具有广泛能力、类似人类的机器。”米切尔说:”AGI 被用来试图回到最初的目标。

但从另一个角度来看,AGI 是一个 “贬义词”,当时在德国赫蒂学院从事人工智能研究的伦理与技术教授乔安娜-布赖森(Joanna Bryson)认为。她认为,这个词武断地将人工智能研究划分为两类计算机科学家:一类被认为是在为 AGI 做有意义的工作,他们明确追求的是一个能做人类能做的一切事情的系统;另一类则被认为是在为更有限的–因此也是更无意义的–目标打转。(布赖森指出,这些 “狭隘 “的目标,比如教计算机玩游戏,后来帮助推动了机器智能的发展)。

关于 AGI 的其他定义似乎也同样广泛而模糊。最简单地说,它是等同于或超越人类智能的机器的简称。但 “智能 “本身是一个很难定义或量化的概念。威斯康星大学麦迪逊分校的认知神经科学家和心理学教授加里-卢比扬(Gary Lupyan)说,”通用智能 “就更棘手了。在他看来,人工智能研究人员在谈论智能以及如何测量机器的智能时,往往 “过于自信”。

一个多世纪以来,认知科学家一直在试图找出人类智能的基本组成部分。人们普遍认为,在一组认知问题上表现出色的人往往在其他问题上也表现出色,许多人把这归因于人类思维中某些尚未确定的、可测量的方面,即通常所说的 “g 因子”。但卢比扬和其他许多人对这一观点提出异议,认为智商测试和其他用于量化一般智力的评估只是当前文化价值观和环境条件的缩影。学习计算机编程基础知识的小学生和通过微积分课程的高中生所取得的成就 “甚至在几百年前都是完全不可能的”,卢比扬说。然而,这并不意味着今天的孩子一定比过去的成年人更聪明;相反,作为一个物种,人类积累了更多的知识,并将我们学习的重点从与种植和获取食物直接相关的任务转移到了计算能力上。

“加州大学伯克利分校心理学教授艾莉森-戈普尼克(Alison Gopnik)也认为:”无论是人工智能还是自然智能,都不存在通用智能。她指出,不同类型的问题需要不同类型的认知能力;没有一种单一类型的智能可以做到面面俱到。戈普尼克补充说,事实上,不同的认知能力之间可能存在矛盾。例如,幼儿具有灵活、快速的学习能力,可以迅速建立许多新的联系。但由于他们的心智正在迅速成长和变化,因此他们并不是很好的长期规划者。戈普尼克说,类似的原则和限制也适用于机器。在她看来,AGI 不过是 “一个非常好的营销口号”。

一般性能
莫拉维克悖论(Moravec’s paradox)于 1988 年首次被描述,它指出,对人类来说容易的事情对机器来说却很难,而人类认为具有挑战性的事情对计算机来说往往更容易。例如,许多计算机系统都能进行复杂的数学运算,但要让大多数机器人叠衣服或拧门把手,那可就麻烦了。米切尔指出,当机器显然仍难以有效操控物体时,AGI 的常见定义就失去了与物理世界的联系。AGI 开始代表对认知任务的掌握,然后代表人类坐在联网的电脑前所能做的事情。

OpenAI 在其章程中将 AGI 定义为 “在最具经济价值的工作中胜过人类的高度自主系统”。不过,在一些公开声明中,该公司创始人萨姆-奥特曼(Sam Altman)提出了一个更加开放的愿景。”他在最近的一次采访中说:”我不再认为[AGI]是一个时间瞬间。他在最近的采访中说:”你和我可能不会同意在哪一个月甚至哪一年,我们会说’好吧,这就是 AGI'”。

其他人工智能进展的仲裁者也没有接受模棱两可的说法,而是钻研具体细节。在 2023 年的一篇预印本论文中,谷歌 DeepMind 的研究人员提出了六个智能等级,可以对各种计算机系统进行分级:系统完全不具备 “人工智能 “能力,然后是 “新兴”、”胜任”、”专家”、”超人 “和 “超人 “AGI。研究人员进一步将机器分为 “狭义”(特定任务)或 “广义 “类型。”AGI通常是一个非常有争议的概念,”主要作者梅雷迪斯-林格尔-莫里斯(Meredith Ringel Morris)说。”我认为人们非常欣赏这是一个非常实用的经验定义。

莫里斯和她的同事们明确地把重点放在展示人工智能能做什么上,而不是如何完成任务。莫里斯说,关于大型语言模型和其他人工智能系统如何实现其输出,以及它们是否真正复制了任何类似人类的东西,还有 “重要的科学问题 “要问,但她和她的合著者希望 “承认正在发生的事情的实用性”。

根据 DeepMind 的提案,包括 ChatGPT 和 Gemini 在内的一些大型语言模型符合 “新兴 AGI “的条件,因为它们在 “广泛的非物理任务(包括学习新技能等元认知任务)”方面 “与非熟练人类相当或略胜一筹”。然而,即使是这种结构严谨的限定也留下了未解之谜。论文没有明确说明应该使用哪些任务来评估人工智能系统的能力,也没有说明区分 “狭义 “和 “广义 “系统的任务数量,更没有说明如何建立人类技能水平的比较基准。莫里斯说,确定比较机器和人类技能的正确任务,仍然是 “一个活跃的研究领域”。

然而,一些科学家表示,回答这些问题并确定适当的测试是评估机器是否智能的唯一方法。在这方面,目前的方法可能也存在不足。米切尔说,已经流行起来的人工智能基准,如SAT、律师资格考试或其他针对人类的标准化测试,无法区分重复训练数据的人工智能和展示灵活学习和能力的人工智能。”她解释说:”给机器一个这样的测试并不一定意味着它就能出去做人类能做的事情,如果人类得到类似的分数的话。

普遍后果
随着各国政府试图对人工智能进行监管,他们的一些官方战略和政策都提到了 AGI。米切尔指出,不同的定义可能会改变这些政策的应用方式。坦普尔大学计算机科学家王培也同意这一观点: “如果你试图建立一个适合所有[AGI 的定义]的法规,那是根本不可能的”。王培说,现实世界的结果,从新兴法律涵盖哪些类型的系统,到谁对这些系统的行为负责(是开发者、训练数据编译者、提示器还是机器本身?所有这些都对人工智能的安全和风险管理有着至关重要的影响。

AI相关的一切

留言

您的邮箱地址不会被公开。 必填项已用 * 标注