作者:Sébastien Bubeck
论文《AGI的火花》的第一作者Sébastien Bubeck,就在论文发布到arxiv的三个小时前,做了一个校园演讲“第一次接触”(First Contact),讲述了微软研究院团队对GPT-4的的早期研究成果。他认为GPT4存在着"心智”(TOM),这种“心智”有别于人的心智,GPT4将可以称作AGI的“火花”
第一次接触, First Contact,,指的是两个先前互不知晓的文明间的第一次见面。一个著名的例子是1492年西班牙人与阿拉瓦人(以及后来的所有美洲原住民)间的第一次接触。
这样的接触有时会被接触中的某方称作“发现”(discovery),特别是在接触前已经旅行了很长距离的一方。但是,一些意见反对将该词应用于人类,这就是通常会首选“第一次接触”的原因,而“发现”这一术语则更多地在地理学上提及。
当外来者较对方有着显著的科技优势时,会因其优势而占据有利地位,并常常伴随着破坏或瓦解。疾病的传入也是一个因素,特别是当只有一方能对其广泛免疫的时候。
在科幻与奇幻小说中,经常可以见到有关此主题的虚构内容。第一次接触主题的推测性小说(Speculative Fiction)探索了两个智能种族间——通常是人类与外星人——发生第一次接触的可能性。
你知道,我给出今天这样的演讲的可能性非常小,但事实就是这样,世界在变化,我也在根据这一变化调整我的研究方向。
今天,我将向大家介绍一个非常神秘的主题,即“初次接触”。实际上,这个故事是关于过去几个月,在微软,我有机会提前接触到GPT-4,因为我们正在将它与newBing集成。
当然,在我研究它的过程中,我不仅仅是做产品部分的工作,这确实非常有趣,而且我们还围绕它进行了一些科学研究,或者说尝试进行一些科学研究。在这些大型模型上做科学研究是很困难的,我将告诉你们在过去几个月里,我们的科学研究部分和探索之旅。所以,这个演讲的真正标题是《人工通用智能的火花》。
在过去的几个月里,我们与GPT-4的合作评估表明,我们看到了一些类似于人工通用智能的东西。在这次演讲中,我的目标是试图说服你们,随着GPT-4的到来,事情确实发生了变化。
这项工作是与MSR的许多优秀同事共同完成的,我想特别提到Varun Chandrasekharan,Ronaldo(我想在座的许多人都非常了解),他最近刚加入我们,还有Johannes Gerker、Ericovitz Eche、Camar Peter Lee、John和Julie等,他们也是我的团队成员。我认为,如果GPT模型回答他们是否在研究这个问题,他们会给出类似的答案。与我一起工作的还有Scott Landberg、Hashanori、Hamid Palangi、Marco Tulio Ribeiro和Yi Zhang,他现在已经全职加入了我们。首先,我要对一些事项表示感谢,并作出一些澄清。我认为这非常重要。
首先,我们所研究的GPT-4模型完全是OpenAI的创作,我与此无关。我们完全是黑箱地被允许使用它,OpenAI创造了这个真正了不起的工具,一个即将改变世界的工具,他们应该得到全部的荣誉。我想再次强调这一点。
其次重要的是,我们所做的实验是基于模型的早期版本。这意味着他们发布的论文和所做的声明中的一个版本是多模态的,而我们接触到的版本不是多模态的,它仅支持文本输入和文本输出。更重要的是,在我们进行实验之后,他们对神经网络进行了进一步的修改。由于这些进一步的修改,当你尝试我将展示的一些提示时,你将得到的答案可能会有所不同。特别是,你可能得到的答案没有我展示的那么好。原因是他们为了安全性进一步进行了微调,他们在技术报告中非常清楚地解释了这一点。他们调整了模型,以某种方式使其变得更安全。所以这是一个重要的澄清。现在,对于在座的任何科学家,你可能会担心我们无法复制你告诉我们的内容,是的,你将无法复制它。话虽如此,在这种特殊情况下,我认为可重复性并不是一个大问题,原因是我不会给你任何数量上的数据。在我的演讲中不会有任何基准。这是关于质的飞跃,而不是在这个基准上增加10,那个基准上增加20。这是另一回事。
我想试图说服你们的是,这个系统中存在着某种智能,我认为我们应该称之为一个智能系统。我们将讨论我所说的智能是什么意思,最后,在演讲结束时,你会看到这是一个判断问题,这并不是一个明确的界定,这是不是一种新型的智能,但无论如何,我还是会尝试争论这一点。现在,当我说这些话时,我想很多人可能会产生很多情绪,尤其是你可能会觉得不对,它绝对不具备智能,它甚至没有表示法等等。所以关于这类观点,我要提个醒。这就是你可能会在网上甚至是报纸上看到的东西,例如它只是复制粘贴,没有内部表示,只是统计数据。它如何具有智能呢?它甚至没有一个词汇模型。
这个演讲不是为了驳斥所有这些观点,但我仍想说,我们要警惕这个高维空间。
对我们人类来说,这是非常非常难以理解的。你可以用一万亿个参数做很多事情。所以当人们说它没有一个词汇模型时,情况并不像那样简单。它完全可以构建一个内部的世界表示,并在处理过程中的各个层次和时间上进行操作。我在这里说的,可能只是两句话来帮助你思考这个问题。
从我的角度来看,我们不应该把这些神经网络看作是学习简单的概念,比如巴黎是法国的首都。它在做更多的事情,比如学习操作符和算法。在它内部,它不仅仅是检索信息,而是构建了内部表示,使其能够简洁地重现所看到的数据。所以你真的不应该把它看作是模式匹配,只是试图预测下一个词。是的,它的训练目的只是为预测下一个词,但从中产生的东西远不止一个统计模式匹配对象。
我认为我们真的需要把它看作是学习算法,而在我的看法里,学习理论中并没有这种类型的学习工具。这与我们习惯的东西有很大的不同,我认为这将是非常有趣的,但这并不是这次演讲的重点。这不是我在这里想要做的事情,而且我也不知道该如何做。所以现在,你们中的很多人可能会心中疑问:等等,这些东西不可能有常识,它们不了解现实世界,它们只是通过互联网上的文本体验现实,它们不知道喝一杯热咖啡是什么感觉。
好吧,那我们在这次演讲中要做的就是看很多例子,看看会发生什么。以下是一个例子,你会看到很多类似的例子,看起来有点愚蠢,但愚蠢的目的是要超越网络上的内容,真正尝试超越记忆。
这里是一个我们向GPT提出的简单谜题:我有一本书、9个鸡蛋、一台笔记本电脑、一个瓶子和一根钉子,请告诉我如何把它们堆叠在一起。我不认为这个问题在互联网上出现过,这是一个非常奇怪的问题。以下是ChatGPT的回答:将所有这些物品堆叠在一起将非常困难,首先将瓶子放在平坦的表面上,小心地在瓶子上平衡钉子。好吧,这个开始不太好,把鸡蛋放在钉子上。好吧,这个方法行不通。所以ChatGPT在这里并没有表现出常识。任何怀疑者都会高兴地说,看,我一直是对的,这些东西什么都不懂,它们没有对世界的表示,没有常识,我赢了。
那么,让我们看看GPT-4会怎么做。一个可能的堆叠方式是:首先将书放在平坦的表面上,将9个鸡蛋以3x3的方形排列,留出一些空间,鸡蛋将形成第二层,均匀分布重量,然后你可以放上笔记本电脑等等。至少在这个非常简单的问题上,它表现出了一些常识。
当然,文献中充满了这些模型在常识问题上的戏剧性失败的例子,我们尝试了所有这些,GPT-4在所有这些问题上都表现得很好。那么,让我们暂时同意它具有一定的常识。接下来的问题是:好吧,它理解鸡蛋是易碎的,需要均匀分布重量,这一点我承认。但是关于心智理论呢?这需要更复杂的处理。
当然,它并不真正理解人类的动机、情感等等,这超出了它的能力范围。这是一个热门话题,关于大型语言模型是否自发地产生了心智理论的论文,还有一个后续论文表示,如果进行微小的改动,模型就会完全失败。还有乔希·特南鲍姆(Josh Tenenbaum)团队的一篇非常有趣的论文,认为语言和思想是两个非常不同的事物。
你会注意到,我还提到了一个可解释性和可解释性方面的论文。我不会过多地讨论这个,但这是一个重要的观点,现在我将试图说服你们,当然,GPT-4具有心智理论,而且它不仅具有心智理论,而且我认为这将改变机器学习可解释性的子领域,因为一旦这些模型理解了人类,它们也将能够以你能理解的方式解释决策。
当然,我知道每个人都在想,好吧,它会解释自己,但这真的能解释它的内部运作吗?再次强调,我不想让这次演讲都围绕这个话题展开,但我认为将会有很多关于这个话题的实验。
另外,所有这些内容都将在今晚的一篇论文中出现在arXiv上。很巧合地,这篇论文与这次演讲相吻合。你可以查看所有详细信息,所有内容都将在三小时后出现。我为此感到非常兴奋,所以你可以查看所有内容并了解更多信息。好吧,让我试着说服你接受我的这个理论。我会拿托马斯论文中的一个例子。
“在一个房间里,有约翰、马克、一只猫、一个盒子和一个篮子。约翰把猫放进篮子,然后离开房间。当约翰不在的时候,马克把猫从篮子里拿出来,放进盒子。最后,他们都回来了,他们在想什么?”
我的理论很简单,就是那个把猫放进篮子里的人,如果不知道猫被挪走了,还是会认为猫在篮子里。让我们看看ChatGPT在这方面的表现。这里有太多的信息,你必须有一个内部表示,当你阅读文本时,你必须改变对猫所在位置的表示。那么让我们看看GPT-4是怎么做的。有趣的谜题。。。约翰认为猫仍在篮子里,因为他把猫留在那里。对,没错。马克认为猫在盒子里,因为他把猫挪到了那里。对,没错。哦,它还知道猫的想法(观众笑),猫觉得这些人很奇怪,为什么要把我挪来挪去。
好吧,所以这是我一次又一次感到惊讶的地方。我并不是说这个问题特别深奥,但请花一点时间去思考一下,这是挺有趣的。
好的,让我们继续,我不希望整个演讲都围绕着常识和心智理论,假设GPT-4已经做到了这两点,但你还是不会轻易地认为它是智能的,对吧?
我的意思是,智能不仅仅是这些,而且你知道这里的答案并不是那么容易确定的。我想要非常明确地说,如果我们开始讨论智能,我们首先要做的就是找到一个可以参考的定义。在这里,我不想给出我自己的定义。我的意思是,人们已经研究这个问题几十年,甚至更久了。你知道,你可以争论人类已经思考智力很长时间了,所以我要做的是采用一份由52位心理学家在1994年发表的共识性定义。在90年代,关于智商测试的意义存在激烈的争论,这群心理学家给出了一份关于智力是什么的定义,我们可以就各种部分进行争论和不同意见,但这将是我参考的定义。
这个定义是:智力是一种非常普遍的心智能力,其中包括推理、计划、解决问题、抽象思维、比较复杂的观点以及快速学习和从经验中学习等能力。好的,有六项,我们接下来要做的是尝试用这六个方面来衡量GPT-4,看看它在哪些方面失败,在哪些方面成功。我们的评估如下:
我非常自信地说,GPT-4具有推理能力;非常自信地说,GPT-4无法计划。
这是一个非常微妙和复杂的问题,我们将在演讲的最后讨论,因为它可能给你留下计划的印象,而且有很多问题,你可能会天真地认为需要计划,但实际上有线性解决方案。在算法设计方面,可以认为有些问题在初看时会让你认为需要提前考虑10步等,但如果在算法设计上稍微聪明一点,那么就有一个线性解决方案。
所以GPT-4能解决这些问题。它能解决很多问题,我们将看到它能够抽象思维,当然可以理解复杂的想法。
最后一点是一个微妙的问题——快速学习和从经验中学习,GPT-4是一个固定的语言模型,它不会随着时间的推移而更新。对于GPT-4来说,每一天都是新的一天,每一次会话都是新的一次会话,所以没有实时学习。但在一次会话的时间范围内,你可以教它从未见过的新概念,并且它可以理解它们,然后与它们一起工作。所以在实时学习方面有一定的能力,但当然没有记忆。
现在让我立即说一下,关于这个评估,你是否称之为智力,有点取决于你。有些人可能会认为计划是人类智力的本质,其他所有事情,动物也能做到。真正区别我们的是计划能力。如果这是你的观点,那么GPT-4就不具备智力。另一个观点可能是智力的全部意义在于能够习得新技能。如果你对智力的看法是这样的,那么GPT-4也不具备智力。如果你关心的是解决问题、抽象思维、理解复杂观念和对新元素进行推理等能力,那么我认为你必须称GPT-4具备智力。你知道,你可以争论人类已经思考智力很长时间了,所以我要做的是采用一份由52位心理学家在1994年发表的共识性定义。在90年代,关于智商测试的意义存在激烈的争论,这群心理学家给出了一份关于智力是什么的定义,我们可以就各种部分进行争论和不同意见,但这将是我参考的定义。
这个定义是:智力是一种非常普遍的心智能力,其中包括推理、计划、解决问题、抽象思维、比较复杂的观点以及快速学习和从经验中学习等能力。好的,有六项,我们接下来要做的是尝试用这六个方面来衡量GPT-4,看看它在哪些方面失败,在哪些方面成功。我们的评估如下:
我非常自信地说,GPT-4具有推理能力;非常自信地说,GPT-4无法计划。
这是一个非常微妙和复杂的问题,我们将在演讲的最后讨论,因为它可能给你留下计划的印象,而且有很多问题,你可能会天真地认为需要计划,但实际上有线性解决方案。在算法设计方面,可以认为有些问题在初看时会让你认为需要提前考虑10步等,但如果在算法设计上稍微聪明一点,那么就有一个线性解决方案。
所以GPT-4能解决这些问题。它能解决很多问题,我们将看到它能够抽象思维,当然可以理解复杂的想法。
最后一点是一个微妙的问题——快速学习和从经验中学习,GPT-4是一个固定的语言模型,它不会随着时间的推移而更新。对于GPT-4来说,每一天都是新的一天,每一次会话都是新的一次会话,所以没有实时学习。但在一次会话的时间范围内,你可以教它从未见过的新概念,并且它可以理解它们,然后与它们一起工作。所以在实时学习方面有一定的能力,但当然没有记忆。
现在让我立即说一下,关于这个评估,你是否称之为智力,有点取决于你。有些人可能会认为计划是人类智力的本质,其他所有事情,动物也能做到。真正区别我们的是计划能力。如果这是你的观点,那么GPT-4就不具备智力。另一个观点可能是智力的全部意义在于能够习得新技能。如果你对智力的看法是这样的,那么GPT-4也不具备智力。如果你关心的是解决问题、抽象思维、理解复杂观念和对新元素进行推理等能力,那么我认为你必须称GPT-4具备智力。你知道,你可以争论人类已经思考智力很长时间了,所以我要做的是采用一份由52位心理学家在1994年发表的共识性定义。在90年代,关于智商测试的意义存在激烈的争论,这群心理学家给出了一份关于智力是什么的定义,我们可以就各种部分进行争论和不同意见,但这将是我参考的定义。
这个定义是:智力是一种非常普遍的心智能力,其中包括推理、计划、解决问题、抽象思维、比较复杂的观点以及快速学习和从经验中学习等能力。好的,有六项,我们接下来要做的是尝试用这六个方面来衡量GPT-4,看看它在哪些方面失败,在哪些方面成功。我们的评估如下:
我非常自信地说,GPT-4具有推理能力;非常自信地说,GPT-4无法计划。
这是一个非常微妙和复杂的问题,我们将在演讲的最后讨论,因为它可能给你留下计划的印象,而且有很多问题,你可能会天真地认为需要计划,但实际上有线性解决方案。在算法设计方面,可以认为有些问题在初看时会让你认为需要提前考虑10步等,但如果在算法设计上稍微聪明一点,那么就有一个线性解决方案。
所以GPT-4能解决这些问题。它能解决很多问题,我们将看到它能够抽象思维,当然可以理解复杂的想法。
最后一点是一个微妙的问题——快速学习和从经验中学习,GPT-4是一个固定的语言模型,它不会随着时间的推移而更新。对于GPT-4来说,每一天都是新的一天,每一次会话都是新的一次会话,所以没有实时学习。但在一次会话的时间范围内,你可以教它从未见过的新概念,并且它可以理解它们,然后与它们一起工作。所以在实时学习方面有一定的能力,但当然没有记忆。
现在让我立即说一下,关于这个评估,你是否称之为智力,有点取决于你。有些人可能会认为计划是人类智力的本质,其他所有事情,动物也能做到。真正区别我们的是计划能力。如果这是你的观点,那么GPT-4就不具备智力。另一个观点可能是智力的全部意义在于能够习得新技能。如果你对智力的看法是这样的,那么GPT-4也不具备智力。如果你关心的是解决问题、抽象思维、理解复杂观念和对新元素进行推理等能力,那么我认为你必须称GPT-4具备智力。那么我们是如何得出这个评估的呢?
问题的关键在于,你无法通过基准来进行这种评估,这完全没有意义。而且,我们不知道GPT-4接受了哪些训练。我的工作假设是,它接受了人类产生的所有数字化数据。这是我的假设,我不是说这是正确的,但这是我的工作假设。
所以,我知道GPT-4可能已经看过所有在线的东西,特别是任何已经存在的基准测试。所以我们不能用基准测试它。相反,我们要采取的方法是植根于心理学的方法。与其遵循机器学习的方法,不如实际遵循心理学的方法。
我们要测试智力的方法是通过让它完成富有创意的任务,这些任务超出了它所见过的范围,真正需要用创新的方式思考问题,并在广泛领域进行测试。
我们在论文中选择的领域包括视觉、心智理论、编程、数学、使用工具的可供性以及隐私和有害性检测,这些都非常重要。我们还可以选择其他领域,如医学、法律、物理和化学等。关键在于,GPT-4的智力是通用的,它可以在所有这些领域表现得同样出色。那么,让我们开始这个评估之旅,给你们展示一个富有创意的任务示例。当任何人第一次接触到GPT时,他们会做的第一件事就是要求它创作一首诗,这也是我们第一次接触到GPT-4时所做的。作为一名数学家,我要求它用押韵的方式证明质数的无穷性。让我们先看看ChatGPT是怎么做的。它给出了一个证明,但没有押韵,没有按要求。当然,你知道的,质数有无穷多这一论断有很多很多证明。给出证明这当然是好事,但它并没有完成任务。
让我们看看GPT-4会做什么。好的,那么你能写出这样的证明吗?
GPT-4: "是的,我认为我可以。这可能需要一个巧妙的计划。我将从欧几里得的证明开始,表明质数并非如此孤立。我假设我们有一个有限的质数列表,并且没有遗漏。将它们全部相乘,然后加一,以表现聪明...."
(作者注:GPT-4回答的证明英文原文确实是押韵的)
在这一点上,我记得九月底的时候,我想:“这到底是怎么回事?”这真的是令人难以置信的。
但关键是,你不能就此止步。你不能通过提问、听回答来测试智力,然后就这样。你要继续,不管你是对还是错。当你试图测试一个学生时,你需要与学生进行互动。有时学生也会犯错误,你不能就此说:“啊,你真的什么都不懂,让我停在这里吧。”不,你要尝试引导学生。所以,这就是我们要尝试做的事情。在整个演示过程中,我们将不断提问,如果GPT-4跑偏了,我们会稍微帮助它一下。让我们看看如何继续。
再次说明,我们要做的是发挥创造力,跳出思维框架,提出问题。
我要求画出这个证明的插图。但这并不是一个视觉证明,所以如果我让你画出质数无穷多的证明,你可能会想出一些东西,但也不一定清楚该画什么。
然而,GPT-4也不应该输出图像,那它该如何绘画呢?在这个问题中,我提到了SVG格式。我甚至可以不提SVG格式,只是说:“你能画一个插图吗?”然后它会回答:“嘿,这是一个SVG格式的图片。”
SVG(可缩放矢量图形)格式是什么并不重要,它是一堆代码。GPT-4的回答就是这样一堆代码。如果你把它保存成HTML,你会得到这样一幅图片。
这幅画虽然并不惊艳,但它确实传达了这个证明的本质。你可以看到质数的有限列表,如2、3、5、7、11等等。这些都是质数。好的,现在我们把它们组合成一个新的数n,然后加一,就像它说的那样,只是为了显得聪明。这个新的n+1就是我们要找的质数。这只是一个热身。让我们继续深入挖掘GPT-4的视觉能力。在这里,我想给大家讲一个关于独角兽的奇怪案例,这也是我最喜欢的一个例子。
让我给你们展示一下这个问题:请用TikZ画一个独角兽。在这里的观众中,许多人用TikZ在LaTeX中绘制图像,我个人在读博期间甚至之后,浪费了很多时间与TikZ抗争。用TikZ画任何东西都很痛苦。当然,用TikZ画一个独角兽,我估计要花费两天时间。此外,我敢肯定互联网上没有人问过这个问题,或者画过一个独角兽。谁会浪费时间去做这个呢?这根本没有道理。
话虽如此,我们不能仅仅因为相信它不在互联网上就信服。我们必须进行深入探究,我们将这样做,不用担心。但让我先给大家看一下GPT-4画出的独角兽。这是GPT-4的独角兽。当我看到这个时,我个人感到震惊,因为它真的理解了独角兽的概念,知道独角兽的关键元素,能够画出这个非常抽象的独角兽。为了让大家清楚地看到GPT-4与之前版本之间的差距,这是之前ChatGPT版本的独角兽:所以,这就是ChatGPT和GPT4两者之间的差距。在这个例子中,我们可以看到GPT-4取得了很大的进步。如果你之前尝试过早期版本而不满意,我建议你不要止步,尝试一下GPT-4,看看它能给你带来什么惊喜。好的,所以当然你可能仍然会说,这并不是那么了不起。但我们将要看到的一点是,GPT-4 足够智能,也可以使用工具。因此,你可以回应它说,嘿,你知道吗,我不太喜欢你的画,你能试着改进一下吗?我听说过这些扩散模型(作者注:即Diffusion模型,现在AI绘画普遍使用的核心模型),也许你可以使用其中之一。因此,它会说,好的,确定,请进入这个扩散模型网站,然后插入我的图片,要求它改进,你将得到这个。
好吧,这就是允许使用工具的 GPT-4 的独角兽。所以,你可以看到这可能会走向何方。再次说明,我不想就此打住,我们将继续探索。
在这种情况下,我们将如何进一步探索呢?
接下来我要做的是:拿到生成的 Tikz代码,去掉所有 Tikz代码中的注释,因为 GPT-4 的一个特性是生成的代码非常容易被人类阅读,这对于一台机器来说有点有趣,但它添加了很多注释,真的引导了你去了解它的思考。
所以我要删除所有这些信息,以免它知道这个叫画独角兽,里面没有关于独角兽的信息。我还要确保谁知道它是否从网络上复制这些内容,我要随机扰动所有坐标,这样它就看不见了,然后我要删掉角。我要说,修复这段代码,我要给回代码,
这是一个新的GPT-4会话,我把代码还给它,然后说这个 Tikz代码应该画一个独角兽,但是角丢了,你能加回去吗?因此,它必须真正理解这段代码才能做到这一点,这就是发生的事情。好吧,它真的能够找到头部,你要明白这不是一个简单的问题。我的意思是,你有这三个椭圆形,三个元素,顺便说一下,头部和鬃毛,它画鬃毛的技巧不是很好。但它真的能够定位它。
好,我不想过多地谈论这个独角兽的例子,但我想说的是,另一个非常引人注目的事情是,在我们9月份接触GPT-4后的一个月里,他们一直在训练它。当他们不断训练它时,我也一直在询问我的独角兽在Tikz上的情况,看看会发生什么。所以,它一直在进步。
当然,我留下了最好的例子在我的电脑上,也许以后会回顾一下。它在那之后还继续进步,但最终在GPT-4开始训练更多的安全性后,独角兽的质量开始下降。所以今晚如果你回家问GPT-4让它在Tikz上画一只独角兽,你可能得到的效果不会很好,更接近于ChatGPT。
尽管这听起来很愚蠢,但我们经常用这个独角兽基准来衡量智能水平,看看你的独角兽有多好。当我们在调整安全性时,我们确实关注独角兽是否变得更好,或者如果安全性过高,它会觉得这个任务太危险了,不想去做。这非常有用。
接下来我会加快速度,因为我还有很多想告诉你们的。你可能仍然会说,这个视觉能力并没有什么用处。实际上,它非常非常有用。原因是GPT-4是智能的,它能理解你。
你可以把智能等同于理解。理解意味着它会遵循你的指示。如果你让它做某件事,它会按照你的要求去的方式去做。
让我给你们演示一下这意味着什么。人们还不确信这个扩散模型是智能的,我认为已经有足够的证据证明这里存在智能,但不管怎样,人们还是不相信,因为它不能准确地理解物体的位置。例如,如果你让它在一辆汽车旁边放一个咖啡杯,它可能会随机放置。所以它并不能真正理解这张照片。例如,这张照片要求在一个杯子上方放一个勺子,你可以看到它把勺子放在了杯子里。所以效果并不好。让我给大家展示一下理解力的威力。我会问一个很奇怪的问题,但这个问题在现实生活中可能会很有用。比如,我让GPT-4画一个3D建筑游戏的截图,其中从左到右有一条河流,河流下方是一个有金字塔的沙漠,河流上方是一个有很多高楼大厦的城市,屏幕底部有四个按钮,分别为绿色、蓝色、棕色和红色。这个问题很随意,但也许我在制作一个视频游戏,我想要这样的效果。
如果我让扩散模型去完成这个任务,我得到的结果如上:看起来很好,但根本不是我要求的。首先,左上角出现了一些我没有要求的幻觉地图,还有一些类似于生命符号的东西。四个按钮变成了两个多彩的按钮。它确实做了一些工作,但并没有完全理解我要求的内容。如果你让GPT-4来完成这个任务,你会得到这个结果,它完全符合你的要求,因为它理解了你的指示,并且准确地执行了。当然,你可能会说这个效果看起来并不好,但你不必就此止步,你可以将这个作为一个草图,输入到扩散模型中,这样你就能得到这个效果。这个效果非常好,而且完全符合你的要求。所以我认为这为我们打开了很多可能性。现在,让我们继续探讨这个绘画能力,但实际上,这更像是编码能力。因为毕竟,这个绘画能力实际上只是编码的一个方面。
那么,让我们来看看编码吧。让我们看看当你用像GitHub Copilot这样的协同编码工具时,会发生什么,尤其是现在你的Copilot已经具备了智能,可以理解你的意思。
让我们看看如果我问一个相当棘手的问题,它会如何回答:“用HTML和JavaScript编写一个3D游戏,其中包括以下元素:有三个球形的角色,玩家可以通过按键控制其中一个角色移动,有一个敌人试图抓住玩家,还有一个防御者试图保护玩家,站在敌人和玩家之间。”
你们可以理解,防御者在某种程度上也是一种AI。此外,还有随机生成的障碍物。我可以让ChatGPT来完成这个任务,它给出了以上答案。
首先,这已经很令人惊讶了,它给我提供了大约50行可以编译成游戏的代码。这是一个我可以玩的游戏,玩家可以移动绿色球。当然,红色球没有动,我想蓝色球应该是防御者,但它也没有动,而且并不是3D的。它做了一些工作,但并没有真正理解我想要的,也没有精确地遵循我的指示。GPT-4的做法如上:这是一个真正的游戏,非常有趣。你可以移动深蓝色的球,红色球朝着深蓝色球移动,而浅蓝色球则是防御者,试图站在红球和深蓝球之间。这个视频中,我正在操控深蓝色的球。你可以看到,防御者做得很好,挡住了红色球。
所以,对我们来说,编码已经进入了一个新的阶段。实际上,Codex和GitHub Copilot能够实现代码自动补全,你可以把它看作是自动补全,提供短小的代码片段。
ChatGPT已经更进一步,它可以为你编写大约50行的代码。
但GPT-4可以编写500到1000行的代码,并且完全可以立即使用,无需进行元提示或其他操作,这一切都是开箱即用的。因此,我认为这就是使用协同编码工具所能实现的功能。在这里,我展示了两个动画,左边是ChatGPT生成的代码,右边是GPT-4生成的代码。仔细观察,你会发现GPT-4生成的代码更像是专家级别的。
然而,这个幻灯片的关键在于,这两个视频都是由GPT-4生成的。我所做的就是让GPT-4生成一个Python脚本,该脚本将文本文件作为输入,并输出一个带有连续移动效果的视频。对我来说,制作这些视频肯定需要很长时间。问题是,在座的各位有谁能在几个小时内编写一个Python脚本来生成这样的视频呢?可能只有少数几个人。这正是GPT-4的强大之处,它解锁了如此多的创造力。我将快速介绍一下这张幻灯片。在过去的模拟面试中,GPT-4已经通过了亚马逊和谷歌的面试,而不是微软(观众大笑)。
事实上,它不仅通过了这些面试,而且在这个特定的面试中,它在短短3分钟59秒内完成了两小时的面试任务。之所以需要这么长时间,是因为它在Playground和模拟面试网站之间复制粘贴。因此,我们可以说GPT-4在编码方面已经达到了超人类水平。现在让我们谈谈GPT-4的可供性以及数学问题。尽管GPT-4非常强大,但它仍然存在很多弱点。例如,它没有记忆,它会犯算术错误,它会在一些问题上回答错误。但是,GPT-4已经足够智能,可以使用工具来解决这些问题。例如,你可以告诉GPT-4:“你可以使用搜索引擎、计算器、API等工具。如果你需要它们,请使用它们。”这样,当你向它提问时,它会选择相应的工具来回答问题。现在让我们谈谈GPT-4的可供性以及数学问题。尽管GPT-4非常强大,但它仍然存在很多弱点。例如,它没有记忆,它会犯算术错误,它会在一些问题上回答错误。但是,GPT-4已经足够智能,可以使用工具来解决这些问题。例如,你可以告诉GPT-4:“你可以使用搜索引擎、计算器、API等工具。如果你需要它们,请使用它们。”这样,当你向它提问时,它会选择相应的工具来回答问题。现在可能并不那么令人印象深刻,但它还可以做更多复杂的工具协同。
例如,你可以允许它访问你的日历和电子邮件。所以,在这里我要向你展示的这个幻灯片上是100%真实的,但我手动完成的,你可以很容易地想象自动化这个过程。
我说的是,请安排本周在Contoso餐厅和Joe和Luke共进晚餐。它回应说:“calendar.get_events.week”,这样它就可以在我的日历里找到我这周的活动。
然后,它给Joe发一封电子邮件,问他哪个晚上有空。接着我把答案反馈给它,Joe说周二和周三晚上有空,Luke说周一至周四的任何一天都可以。我的日历显示我周一和周二已经有安排了。
然后,它根据我给出的信息进行推理,得出结论:周三是个合适的日子。于是,它给Joe发了一封电子邮件,把活动添加到日历,并给餐厅发去预订。这一切都是自动完成的。然后,它回复我说,已经在Contoso餐厅预定了6点的晚餐。接下来,我将简要总结一下数学问题,因为这对我们很多人来说都是一个非常感兴趣的话题。
首先,我要说它并不擅长数学,所以别担心,我们现在还有工作可以做。但它的表现是有趣的。我们可以像跟学生交流一样跟它交流。
我们曾与它进行过大师级别的对话,它在这个水平上表现得还不错。但我要给你展示的是一个初中水平的问题。这个问题是:一年内,兔子的数量首先乘以一个因子a,最后一天有b只兔子被领养。假设第一年的第一天有x只兔子,经过三年后,恰好有27x-26只兔子。求a和b的值。这是一个典型的初中数学问题。
GPT4回答:"我们可以设第一年兔子的数量为y,那么y=ax-b。经过两年后,兔子的数量为ay-b,即a(ax-b)-b。经过三年后,兔子的数量为这个等式,我们已知这个等式等于27x-26,所以我们可以解出a=3,b=2,这就是我们要找的答案。"
到目前为止,一切都很好。再次强调,你不能仅凭这些就判断一个学生是否理解了问题。我们继续进行讨论,并尝试更抽象的方式来看看它是否真正理解了它所做的事情。
在这里,我不仅想提出一个有明确答案的问题,还想看看它是否真正理解了这个概念,是否能够修改问题本身。
假设我指出这个问题可以用关于组合的方式重新表述,你能给出这种组合表达式吗?它回答说,“是的,我们可以说我们在寻找 A 和 B 的值,使得如果 f(x) = Ax - B,那么 F(F(F(x))) = 27x - 26。”
这相当不错,看起来它似乎理解了,让我们继续讨论。“假设现在 f 将是一个二次多项式。那么,一个具有非零 x 平方系数的多项式,在这种情况下,你能找到这样一个函数 f 吗?”
作为一个人类,你可能会想,好的,我希望这个组合等于一个线性函数,即一个一次多项式。但是,连续三次组合将得到一个八次多项式。八次多项式与一次多项式并不相等,所以不存在这样的函数。这是一个非常简单的问题,但让我们看看 GPT-4 如何处理。
GPT-4:“如果 f 是一个二次多项式,那么 f(x) 可以写成这样的形式。然后给出这个方程式。。。”
GPT-4 开始有点迷失方向,因为它开始尝试写下连续三次的组合,写了很多东西,说需要这个方程、那个方程,开始写下八个方程,但它没有得出答案。但我们并没有就此止步,我们说,“等等,也许在这里你可以在不进行计算的情况下得出一些结论,也许你不需要把所有东西都写下来,这不像以前那样。”
然后,它说,“啊,好吧,我可以注意到的一件事是,如果 f 是一个二次多项式,那么连续三次的组合将是一个八次多项式,所以不存在这样的函数。”
所以在这里,你可以看到问题很微妙,不确定它是否理解,或者它是否不理解。我不确定,我真的不确定。现在还有一些奇怪的事情,比如算术仍然有些摇摇晃晃,我必须说我不完全理解,但是我在这个幻灯片上明白了一些东西。
让我们看看这个,我给它一个提示:7乘4加8乘8。好吧,我不知道这个值是多少,但是8乘8是60多,7乘4是20多,所以至少这个值应该在100以下。
但是它给出的答案是120,这是错误的。关键是,它并没有就此止步,而是继续解释为什么它认为答案是120。它计算了7乘4加8乘8,然后得出了正确答案92。
“等一下,发生了什么?你一开始说答案是120,到底是120还是92呢?”
GPT4: "哦,那是个打字错误,抱歉。"(观众大笑)
好吧...
这个幻灯片中有很多深刻的见解,从中我们可以真正理解发生的一切。
首先,关于120这个答案,你需要理解,它必须使用内部表示来完成这个加法,这比立即回答问题稍微困难一些。为什么会立刻回答呢?因为当你提出这样的问题时,你写下等式,等号后最有可能出现的就是一个数字,所以它给出了这个数字。
它试图给出在等号后最可能出现的东西,尽管失败了。但在那之后第二个最有可能的事情是,人们解释他们的理性、他们的答案。所以它试着解释它的答案,关键的是,它得出了一个不同的答案。
你必须理解,这是很了不起的,因为据我所知,这是一个基于注意力的Transformer模型。当它第二次说7乘4加8乘8时,它的注意力非常强烈地引向120这个答案。你必须理解,120这个答案现在已经成为它的一部分了,对于它来说,它可能认为你告诉它,嘿,你知道吗,7乘4加8乘8就是120,从现在开始就是这样。这可能是我的提示的一部分。尽管一开始就犯了错误,但它能得出正确答案的事实表明,它已经经过足够的训练来克服提示中的错误,这是一个非常非常强大的属性。
当然,当它说这是一个拼写错误时,这也非常有趣,因为这显然不是一个拼写错误,这引出了幻觉等许多有趣的话题。我想留出时间回答问题,所以我不想再多解释这个幻灯片了。但你真的要深入思考这个幻灯片,它包含了很多信息。在进入结论之前的最后一个幻灯片是关于它不能进行真正的规划。
当然,我对它能完成许多我认为需要真正规划的任务感到惊讶。但让我举个例子,我们继续讨论7乘4加8乘8的问题。
"好的,现在你有一个等于92的等式,让我问一个有趣的问题:你能否在等式左侧修改一个整数,使答案变为106?"
作为一个人类,你的推理是这样的:好的,我想要在右侧得到106,所以我需要增加14。好的,我需要增加14,我可以在左侧修改一个数字。我看着左边,看到一个7,然后我有这种“顿悟”的时刻:“啊,14是7乘以2。”所以,如果是7乘以2,那么我需要把这个4变成6。所以我说的就是这个,我们需要把这个4变成6。但是,尽管这个顿悟非常简单,但它是通过某种规划得出的,在考虑接下来需要做什么。然而,GPT-4不能做到这一点,因为它是一个“下一个词预测”的设备。
所以,它会说,有一些可能的方法来实现这个目标,然后它说:“我可以修改一个整数,我要把7修改成9,然后9乘以4,这等于106。”等等,如果我把7修改成9,再加8,那就是100,而不是106。然后它试图解释为什么这样做是对的:9乘4加8乘8等于36加64,这是正确的。但是,它再次说出了106。
所以你可以看到,在这里,它没有足够强大的能力来克服最初的错误。这对我来说意味着,如果它接受了更多的训练,它也许会纠正自己的错误。如果它接受了更多的训练,也许它会理解,即使在提出这样的问题时,最有可能的答案是一个数字,但如果它经过更多的训练,可能最好的回答方式是首先进行推理。
所以我在这里说的是,通过这个愚蠢的例子,我看到了更多的训练可以让我们获得比现有更多的东西。我们目前拥有的已经很了不起了,但这离我们能通过这种技术所能做到的一切还很遥远。在地平线上,还有更多的东西等着我们去发现。然而,GPT-4不能做到这一点,因为它是一个“下一个词预测”的设备。
所以,它会说,有一些可能的方法来实现这个目标,然后它说:“我可以修改一个整数,我要把7修改成9,然后9乘以4,这等于106。”等等,如果我把7修改成9,再加8,那就是100,而不是106。然后它试图解释为什么这样做是对的:9乘4加8乘8等于36加64,这是正确的。但是,它再次说出了106。
所以你可以看到,在这里,它没有足够强大的能力来克服最初的错误。这对我来说意味着,如果它接受了更多的训练,它也许会纠正自己的错误。如果它接受了更多的训练,也许它会理解,即使在提出这样的问题时,最有可能的答案是一个数字,但如果它经过更多的训练,可能最好的回答方式是首先进行推理。
所以我在这里说的是,通过这个愚蠢的例子,我看到了更多的训练可以让我们获得比现有更多的东西。我们目前拥有的已经很了不起了,但这离我们能通过这种技术所能做到的一切还很遥远。在地平线上,还有更多的东西等着我们去发现。
COMMENTS | NOTHING