电子GPT-4会梦见机械羊吗

作者：Sébastien Bubeck
论文《AGI的火花》的第一作者Sébastien Bubeck，就在论文发布到arxiv的三个小时前，做了一个校园演讲“第一次接触”（First Contact），讲述了微软研究院团队对GPT-4的的早期研究成果。他认为GPT4存在着"心智”（TOM）,这种“心智”有别于人的心智，GPT4将可以称作AGI的“火花”

第一次接触， First Contact，，指的是两个先前互不知晓的文明间的第一次见面。一个著名的例子是1492年西班牙人与阿拉瓦人（以及后来的所有美洲原住民）间的第一次接触。
这样的接触有时会被接触中的某方称作“发现”（discovery），特别是在接触前已经旅行了很长距离的一方。但是，一些意见反对将该词应用于人类，这就是通常会首选“第一次接触”的原因，而“发现”这一术语则更多地在地理学上提及。
当外来者较对方有着显著的科技优势时，会因其优势而占据有利地位，并常常伴随着破坏或瓦解。疾病的传入也是一个因素，特别是当只有一方能对其广泛免疫的时候。
在科幻与奇幻小说中，经常可以见到有关此主题的虚构内容。第一次接触主题的推测性小说（Speculative Fiction）探索了两个智能种族间——通常是人类与外星人——发生第一次接触的可能性。

你知道，我给出今天这样的演讲的可能性非常小，但事实就是这样，世界在变化，我也在根据这一变化调整我的研究方向。

今天，我将向大家介绍一个非常神秘的主题，即“初次接触”。实际上，这个故事是关于过去几个月，在微软，我有机会提前接触到GPT-4，因为我们正在将它与newBing集成。

当然，在我研究它的过程中，我不仅仅是做产品部分的工作，这确实非常有趣，而且我们还围绕它进行了一些科学研究，或者说尝试进行一些科学研究。在这些大型模型上做科学研究是很困难的，我将告诉你们在过去几个月里，我们的科学研究部分和探索之旅。所以，这个演讲的真正标题是《人工通用智能的火花》。

在过去的几个月里，我们与GPT-4的合作评估表明，我们看到了一些类似于人工通用智能的东西。在这次演讲中，我的目标是试图说服你们，随着GPT-4的到来，事情确实发生了变化。

这项工作是与MSR的许多优秀同事共同完成的，我想特别提到Varun Chandrasekharan，Ronaldo（我想在座的许多人都非常了解），他最近刚加入我们，还有Johannes Gerker、Ericovitz Eche、Camar Peter Lee、John和Julie等，他们也是我的团队成员。我认为，如果GPT模型回答他们是否在研究这个问题，他们会给出类似的答案。与我一起工作的还有Scott Landberg、Hashanori、Hamid Palangi、Marco Tulio Ribeiro和Yi Zhang，他现在已经全职加入了我们。首先，我要对一些事项表示感谢，并作出一些澄清。我认为这非常重要。

首先，我们所研究的GPT-4模型完全是OpenAI的创作，我与此无关。我们完全是黑箱地被允许使用它，OpenAI创造了这个真正了不起的工具，一个即将改变世界的工具，他们应该得到全部的荣誉。我想再次强调这一点。

其次重要的是，我们所做的实验是基于模型的早期版本。这意味着他们发布的论文和所做的声明中的一个版本是多模态的，而我们接触到的版本不是多模态的，它仅支持文本输入和文本输出。更重要的是，在我们进行实验之后，他们对神经网络进行了进一步的修改。由于这些进一步的修改，当你尝试我将展示的一些提示时，你将得到的答案可能会有所不同。特别是，你可能得到的答案没有我展示的那么好。原因是他们为了安全性进一步进行了微调，他们在技术报告中非常清楚地解释了这一点。他们调整了模型，以某种方式使其变得更安全。所以这是一个重要的澄清。现在，对于在座的任何科学家，你可能会担心我们无法复制你告诉我们的内容，是的，你将无法复制它。话虽如此，在这种特殊情况下，我认为可重复性并不是一个大问题，原因是我不会给你任何数量上的数据。在我的演讲中不会有任何基准。这是关于质的飞跃，而不是在这个基准上增加10，那个基准上增加20。这是另一回事。

我想试图说服你们的是，这个系统中存在着某种智能，我认为我们应该称之为一个智能系统。我们将讨论我所说的智能是什么意思，最后，在演讲结束时，你会看到这是一个判断问题，这并不是一个明确的界定，这是不是一种新型的智能，但无论如何，我还是会尝试争论这一点。现在，当我说这些话时，我想很多人可能会产生很多情绪，尤其是你可能会觉得不对，它绝对不具备智能，它甚至没有表示法等等。所以关于这类观点，我要提个醒。这就是你可能会在网上甚至是报纸上看到的东西，例如它只是复制粘贴，没有内部表示，只是统计数据。它如何具有智能呢？它甚至没有一个词汇模型。

这个演讲不是为了驳斥所有这些观点，但我仍想说，我们要警惕这个高维空间。

对我们人类来说，这是非常非常难以理解的。你可以用一万亿个参数做很多事情。所以当人们说它没有一个词汇模型时，情况并不像那样简单。它完全可以构建一个内部的世界表示，并在处理过程中的各个层次和时间上进行操作。我在这里说的，可能只是两句话来帮助你思考这个问题。

从我的角度来看，我们不应该把这些神经网络看作是学习简单的概念，比如巴黎是法国的首都。它在做更多的事情，比如学习操作符和算法。在它内部，它不仅仅是检索信息，而是构建了内部表示，使其能够简洁地重现所看到的数据。所以你真的不应该把它看作是模式匹配，只是试图预测下一个词。是的，它的训练目的只是为预测下一个词，但从中产生的东西远不止一个统计模式匹配对象。

我认为我们真的需要把它看作是学习算法，而在我的看法里，学习理论中并没有这种类型的学习工具。这与我们习惯的东西有很大的不同，我认为这将是非常有趣的，但这并不是这次演讲的重点。这不是我在这里想要做的事情，而且我也不知道该如何做。所以现在，你们中的很多人可能会心中疑问：等等，这些东西不可能有常识，它们不了解现实世界，它们只是通过互联网上的文本体验现实，它们不知道喝一杯热咖啡是什么感觉。

好吧，那我们在这次演讲中要做的就是看很多例子，看看会发生什么。以下是一个例子，你会看到很多类似的例子，看起来有点愚蠢，但愚蠢的目的是要超越网络上的内容，真正尝试超越记忆。

这里是一个我们向GPT提出的简单谜题：我有一本书、9个鸡蛋、一台笔记本电脑、一个瓶子和一根钉子，请告诉我如何把它们堆叠在一起。我不认为这个问题在互联网上出现过，这是一个非常奇怪的问题。以下是ChatGPT的回答：将所有这些物品堆叠在一起将非常困难，首先将瓶子放在平坦的表面上，小心地在瓶子上平衡钉子。好吧，这个开始不太好，把鸡蛋放在钉子上。好吧，这个方法行不通。所以ChatGPT在这里并没有表现出常识。任何怀疑者都会高兴地说，看，我一直是对的，这些东西什么都不懂，它们没有对世界的表示，没有常识，我赢了。

那么，让我们看看GPT-4会怎么做。一个可能的堆叠方式是：首先将书放在平坦的表面上，将9个鸡蛋以3x3的方形排列，留出一些空间，鸡蛋将形成第二层，均匀分布重量，然后你可以放上笔记本电脑等等。至少在这个非常简单的问题上，它表现出了一些常识。

当然，文献中充满了这些模型在常识问题上的戏剧性失败的例子，我们尝试了所有这些，GPT-4在所有这些问题上都表现得很好。那么，让我们暂时同意它具有一定的常识。接下来的问题是：好吧，它理解鸡蛋是易碎的，需要均匀分布重量，这一点我承认。但是关于心智理论呢？这需要更复杂的处理。

当然，它并不真正理解人类的动机、情感等等，这超出了它的能力范围。这是一个热门话题，关于大型语言模型是否自发地产生了心智理论的论文，还有一个后续论文表示，如果进行微小的改动，模型就会完全失败。还有乔希·特南鲍姆（Josh Tenenbaum）团队的一篇非常有趣的论文，认为语言和思想是两个非常不同的事物。

你会注意到，我还提到了一个可解释性和可解释性方面的论文。我不会过多地讨论这个，但这是一个重要的观点，现在我将试图说服你们，当然，GPT-4具有心智理论，而且它不仅具有心智理论，而且我认为这将改变机器学习可解释性的子领域，因为一旦这些模型理解了人类，它们也将能够以你能理解的方式解释决策。

当然，我知道每个人都在想，好吧，它会解释自己，但这真的能解释它的内部运作吗？再次强调，我不想让这次演讲都围绕这个话题展开，但我认为将会有很多关于这个话题的实验。

另外，所有这些内容都将在今晚的一篇论文中出现在arXiv上。很巧合地，这篇论文与这次演讲相吻合。你可以查看所有详细信息，所有内容都将在三小时后出现。我为此感到非常兴奋，所以你可以查看所有内容并了解更多信息。好吧，让我试着说服你接受我的这个理论。我会拿托马斯论文中的一个例子。

“在一个房间里，有约翰、马克、一只猫、一个盒子和一个篮子。约翰把猫放进篮子，然后离开房间。当约翰不在的时候，马克把猫从篮子里拿出来，放进盒子。最后，他们都回来了，他们在想什么？”

我的理论很简单，就是那个把猫放进篮子里的人，如果不知道猫被挪走了，还是会认为猫在篮子里。让我们看看ChatGPT在这方面的表现。这里有太多的信息，你必须有一个内部表示，当你阅读文本时，你必须改变对猫所在位置的表示。那么让我们看看GPT-4是怎么做的。有趣的谜题。。。约翰认为猫仍在篮子里，因为他把猫留在那里。对，没错。马克认为猫在盒子里，因为他把猫挪到了那里。对，没错。哦，它还知道猫的想法（观众笑），猫觉得这些人很奇怪，为什么要把我挪来挪去。

好吧，所以这是我一次又一次感到惊讶的地方。我并不是说这个问题特别深奥，但请花一点时间去思考一下，这是挺有趣的。

好的，让我们继续，我不希望整个演讲都围绕着常识和心智理论，假设GPT-4已经做到了这两点，但你还是不会轻易地认为它是智能的，对吧？

我的意思是，智能不仅仅是这些，而且你知道这里的答案并不是那么容易确定的。我想要非常明确地说，如果我们开始讨论智能，我们首先要做的就是找到一个可以参考的定义。在这里，我不想给出我自己的定义。我的意思是，人们已经研究这个问题几十年，甚至更久了。你知道，你可以争论人类已经思考智力很长时间了，所以我要做的是采用一份由52位心理学家在1994年发表的共识性定义。在90年代，关于智商测试的意义存在激烈的争论，这群心理学家给出了一份关于智力是什么的定义，我们可以就各种部分进行争论和不同意见，但这将是我参考的定义。

这个定义是：智力是一种非常普遍的心智能力，其中包括推理、计划、解决问题、抽象思维、比较复杂的观点以及快速学习和从经验中学习等能力。好的，有六项，我们接下来要做的是尝试用这六个方面来衡量GPT-4，看看它在哪些方面失败，在哪些方面成功。我们的评估如下：

我非常自信地说，GPT-4具有推理能力；非常自信地说，GPT-4无法计划。

这是一个非常微妙和复杂的问题，我们将在演讲的最后讨论，因为它可能给你留下计划的印象，而且有很多问题，你可能会天真地认为需要计划，但实际上有线性解决方案。在算法设计方面，可以认为有些问题在初看时会让你认为需要提前考虑10步等，但如果在算法设计上稍微聪明一点，那么就有一个线性解决方案。

所以GPT-4能解决这些问题。它能解决很多问题，我们将看到它能够抽象思维，当然可以理解复杂的想法。

最后一点是一个微妙的问题——快速学习和从经验中学习，GPT-4是一个固定的语言模型，它不会随着时间的推移而更新。对于GPT-4来说，每一天都是新的一天，每一次会话都是新的一次会话，所以没有实时学习。但在一次会话的时间范围内，你可以教它从未见过的新概念，并且它可以理解它们，然后与它们一起工作。所以在实时学习方面有一定的能力，但当然没有记忆。

现在让我立即说一下，关于这个评估，你是否称之为智力，有点取决于你。有些人可能会认为计划是人类智力的本质，其他所有事情，动物也能做到。真正区别我们的是计划能力。如果这是你的观点，那么GPT-4就不具备智力。另一个观点可能是智力的全部意义在于能够习得新技能。如果你对智力的看法是这样的，那么GPT-4也不具备智力。如果你关心的是解决问题、抽象思维、理解复杂观念和对新元素进行推理等能力，那么我认为你必须称GPT-4具备智力。你知道，你可以争论人类已经思考智力很长时间了，所以我要做的是采用一份由52位心理学家在1994年发表的共识性定义。在90年代，关于智商测试的意义存在激烈的争论，这群心理学家给出了一份关于智力是什么的定义，我们可以就各种部分进行争论和不同意见，但这将是我参考的定义。

我非常自信地说，GPT-4具有推理能力；非常自信地说，GPT-4无法计划。

所以GPT-4能解决这些问题。它能解决很多问题，我们将看到它能够抽象思维，当然可以理解复杂的想法。

我非常自信地说，GPT-4具有推理能力；非常自信地说，GPT-4无法计划。

所以GPT-4能解决这些问题。它能解决很多问题，我们将看到它能够抽象思维，当然可以理解复杂的想法。

问题的关键在于，你无法通过基准来进行这种评估，这完全没有意义。而且，我们不知道GPT-4接受了哪些训练。我的工作假设是，它接受了人类产生的所有数字化数据。这是我的假设，我不是说这是正确的，但这是我的工作假设。

所以，我知道GPT-4可能已经看过所有在线的东西，特别是任何已经存在的基准测试。所以我们不能用基准测试它。相反，我们要采取的方法是植根于心理学的方法。与其遵循机器学习的方法，不如实际遵循心理学的方法。

我们要测试智力的方法是通过让它完成富有创意的任务，这些任务超出了它所见过的范围，真正需要用创新的方式思考问题，并在广泛领域进行测试。

我们在论文中选择的领域包括视觉、心智理论、编程、数学、使用工具的可供性以及隐私和有害性检测，这些都非常重要。我们还可以选择其他领域，如医学、法律、物理和化学等。关键在于，GPT-4的智力是通用的，它可以在所有这些领域表现得同样出色。那么，让我们开始这个评估之旅，给你们展示一个富有创意的任务示例。当任何人第一次接触到GPT时，他们会做的第一件事就是要求它创作一首诗，这也是我们第一次接触到GPT-4时所做的。作为一名数学家，我要求它用押韵的方式证明质数的无穷性。让我们先看看ChatGPT是怎么做的。它给出了一个证明，但没有押韵，没有按要求。当然，你知道的，质数有无穷多这一论断有很多很多证明。给出证明这当然是好事，但它并没有完成任务。

让我们看看GPT-4会做什么。好的，那么你能写出这样的证明吗？

GPT-4: "是的，我认为我可以。这可能需要一个巧妙的计划。我将从欧几里得的证明开始，表明质数并非如此孤立。我假设我们有一个有限的质数列表，并且没有遗漏。将它们全部相乘，然后加一，以表现聪明...."

(作者注:GPT-4回答的证明英文原文确实是押韵的)

在这一点上，我记得九月底的时候，我想：“这到底是怎么回事？”这真的是令人难以置信的。

但关键是，你不能就此止步。你不能通过提问、听回答来测试智力，然后就这样。你要继续，不管你是对还是错。当你试图测试一个学生时，你需要与学生进行互动。有时学生也会犯错误，你不能就此说：“啊，你真的什么都不懂，让我停在这里吧。”不，你要尝试引导学生。所以，这就是我们要尝试做的事情。在整个演示过程中，我们将不断提问，如果GPT-4跑偏了，我们会稍微帮助它一下。让我们看看如何继续。

再次说明，我们要做的是发挥创造力，跳出思维框架，提出问题。

我要求画出这个证明的插图。但这并不是一个视觉证明，所以如果我让你画出质数无穷多的证明，你可能会想出一些东西，但也不一定清楚该画什么。

然而，GPT-4也不应该输出图像，那它该如何绘画呢？在这个问题中，我提到了SVG格式。我甚至可以不提SVG格式，只是说：“你能画一个插图吗？”然后它会回答：“嘿，这是一个SVG格式的图片。”

SVG（可缩放矢量图形）格式是什么并不重要，它是一堆代码。GPT-4的回答就是这样一堆代码。如果你把它保存成HTML，你会得到这样一幅图片。

这幅画虽然并不惊艳，但它确实传达了这个证明的本质。你可以看到质数的有限列表，如2、3、5、7、11等等。这些都是质数。好的，现在我们把它们组合成一个新的数n，然后加一，就像它说的那样，只是为了显得聪明。这个新的n+1就是我们要找的质数。这只是一个热身。让我们继续深入挖掘GPT-4的视觉能力。在这里，我想给大家讲一个关于独角兽的奇怪案例，这也是我最喜欢的一个例子。

让我给你们展示一下这个问题：请用TikZ画一个独角兽。在这里的观众中，许多人用TikZ在LaTeX中绘制图像，我个人在读博期间甚至之后，浪费了很多时间与TikZ抗争。用TikZ画任何东西都很痛苦。当然，用TikZ画一个独角兽，我估计要花费两天时间。此外，我敢肯定互联网上没有人问过这个问题，或者画过一个独角兽。谁会浪费时间去做这个呢？这根本没有道理。

话虽如此，我们不能仅仅因为相信它不在互联网上就信服。我们必须进行深入探究，我们将这样做，不用担心。但让我先给大家看一下GPT-4画出的独角兽。这是GPT-4的独角兽。当我看到这个时，我个人感到震惊，因为它真的理解了独角兽的概念，知道独角兽的关键元素，能够画出这个非常抽象的独角兽。为了让大家清楚地看到GPT-4与之前版本之间的差距，这是之前ChatGPT版本的独角兽：所以，这就是ChatGPT和GPT4两者之间的差距。在这个例子中，我们可以看到GPT-4取得了很大的进步。如果你之前尝试过早期版本而不满意，我建议你不要止步，尝试一下GPT-4，看看它能给你带来什么惊喜。好的，所以当然你可能仍然会说，这并不是那么了不起。但我们将要看到的一点是，GPT-4 足够智能，也可以使用工具。因此，你可以回应它说，嘿，你知道吗，我不太喜欢你的画，你能试着改进一下吗？我听说过这些扩散模型（作者注：即Diffusion模型，现在AI绘画普遍使用的核心模型），也许你可以使用其中之一。因此，它会说，好的，确定，请进入这个扩散模型网站，然后插入我的图片，要求它改进，你将得到这个。

好吧，这就是允许使用工具的 GPT-4 的独角兽。所以，你可以看到这可能会走向何方。再次说明，我不想就此打住，我们将继续探索。

在这种情况下，我们将如何进一步探索呢？

接下来我要做的是：拿到生成的 Tikz代码，去掉所有 Tikz代码中的注释，因为 GPT-4 的一个特性是生成的代码非常容易被人类阅读，这对于一台机器来说有点有趣，但它添加了很多注释，真的引导了你去了解它的思考。

所以我要删除所有这些信息，以免它知道这个叫画独角兽，里面没有关于独角兽的信息。我还要确保谁知道它是否从网络上复制这些内容，我要随机扰动所有坐标，这样它就看不见了，然后我要删掉角。我要说，修复这段代码，我要给回代码，

这是一个新的GPT-4会话，我把代码还给它，然后说这个 Tikz代码应该画一个独角兽，但是角丢了，你能加回去吗？因此，它必须真正理解这段代码才能做到这一点，这就是发生的事情。好吧，它真的能够找到头部，你要明白这不是一个简单的问题。我的意思是，你有这三个椭圆形，三个元素，顺便说一下，头部和鬃毛，它画鬃毛的技巧不是很好。但它真的能够定位它。

好，我不想过多地谈论这个独角兽的例子，但我想说的是，另一个非常引人注目的事情是，在我们9月份接触GPT-4后的一个月里，他们一直在训练它。当他们不断训练它时，我也一直在询问我的独角兽在Tikz上的情况，看看会发生什么。所以，它一直在进步。

当然，我留下了最好的例子在我的电脑上，也许以后会回顾一下。它在那之后还继续进步，但最终在GPT-4开始训练更多的安全性后，独角兽的质量开始下降。所以今晚如果你回家问GPT-4让它在Tikz上画一只独角兽，你可能得到的效果不会很好，更接近于ChatGPT。

尽管这听起来很愚蠢，但我们经常用这个独角兽基准来衡量智能水平，看看你的独角兽有多好。当我们在调整安全性时，我们确实关注独角兽是否变得更好，或者如果安全性过高，它会觉得这个任务太危险了，不想去做。这非常有用。

接下来我会加快速度，因为我还有很多想告诉你们的。你可能仍然会说，这个视觉能力并没有什么用处。实际上，它非常非常有用。原因是GPT-4是智能的，它能理解你。

你可以把智能等同于理解。理解意味着它会遵循你的指示。如果你让它做某件事，它会按照你的要求去的方式去做。

让我给你们演示一下这意味着什么。人们还不确信这个扩散模型是智能的，我认为已经有足够的证据证明这里存在智能，但不管怎样，人们还是不相信，因为它不能准确地理解物体的位置。例如，如果你让它在一辆汽车旁边放一个咖啡杯，它可能会随机放置。所以它并不能真正理解这张照片。例如，这张照片要求在一个杯子上方放一个勺子，你可以看到它把勺子放在了杯子里。所以效果并不好。让我给大家展示一下理解力的威力。我会问一个很奇怪的问题，但这个问题在现实生活中可能会很有用。比如，我让GPT-4画一个3D建筑游戏的截图，其中从左到右有一条河流，河流下方是一个有金字塔的沙漠，河流上方是一个有很多高楼大厦的城市，屏幕底部有四个按钮，分别为绿色、蓝色、棕色和红色。这个问题很随意，但也许我在制作一个视频游戏，我想要这样的效果。

如果我让扩散模型去完成这个任务，我得到的结果如上：看起来很好，但根本不是我要求的。首先，左上角出现了一些我没有要求的幻觉地图，还有一些类似于生命符号的东西。四个按钮变成了两个多彩的按钮。它确实做了一些工作，但并没有完全理解我要求的内容。如果你让GPT-4来完成这个任务，你会得到这个结果，它完全符合你的要求，因为它理解了你的指示，并且准确地执行了。当然，你可能会说这个效果看起来并不好，但你不必就此止步，你可以将这个作为一个草图，输入到扩散模型中，这样你就能得到这个效果。这个效果非常好，而且完全符合你的要求。所以我认为这为我们打开了很多可能性。现在，让我们继续探讨这个绘画能力，但实际上，这更像是编码能力。因为毕竟，这个绘画能力实际上只是编码的一个方面。

那么，让我们来看看编码吧。让我们看看当你用像GitHub Copilot这样的协同编码工具时，会发生什么，尤其是现在你的Copilot已经具备了智能，可以理解你的意思。

让我们看看如果我问一个相当棘手的问题，它会如何回答：“用HTML和JavaScript编写一个3D游戏，其中包括以下元素：有三个球形的角色，玩家可以通过按键控制其中一个角色移动，有一个敌人试图抓住玩家，还有一个防御者试图保护玩家，站在敌人和玩家之间。”

你们可以理解，防御者在某种程度上也是一种AI。此外，还有随机生成的障碍物。我可以让ChatGPT来完成这个任务，它给出了以上答案。

首先，这已经很令人惊讶了，它给我提供了大约50行可以编译成游戏的代码。这是一个我可以玩的游戏，玩家可以移动绿色球。当然，红色球没有动，我想蓝色球应该是防御者，但它也没有动，而且并不是3D的。它做了一些工作，但并没有真正理解我想要的，也没有精确地遵循我的指示。GPT-4的做法如上：这是一个真正的游戏，非常有趣。你可以移动深蓝色的球，红色球朝着深蓝色球移动，而浅蓝色球则是防御者，试图站在红球和深蓝球之间。这个视频中，我正在操控深蓝色的球。你可以看到，防御者做得很好，挡住了红色球。

所以，对我们来说，编码已经进入了一个新的阶段。实际上，Codex和GitHub Copilot能够实现代码自动补全，你可以把它看作是自动补全，提供短小的代码片段。

ChatGPT已经更进一步，它可以为你编写大约50行的代码。

但GPT-4可以编写500到1000行的代码，并且完全可以立即使用，无需进行元提示或其他操作，这一切都是开箱即用的。因此，我认为这就是使用协同编码工具所能实现的功能。在这里，我展示了两个动画，左边是ChatGPT生成的代码，右边是GPT-4生成的代码。仔细观察，你会发现GPT-4生成的代码更像是专家级别的。

然而，这个幻灯片的关键在于，这两个视频都是由GPT-4生成的。我所做的就是让GPT-4生成一个Python脚本，该脚本将文本文件作为输入，并输出一个带有连续移动效果的视频。对我来说，制作这些视频肯定需要很长时间。问题是，在座的各位有谁能在几个小时内编写一个Python脚本来生成这样的视频呢？可能只有少数几个人。这正是GPT-4的强大之处，它解锁了如此多的创造力。我将快速介绍一下这张幻灯片。在过去的模拟面试中，GPT-4已经通过了亚马逊和谷歌的面试，而不是微软(观众大笑)。

事实上，它不仅通过了这些面试，而且在这个特定的面试中，它在短短3分钟59秒内完成了两小时的面试任务。之所以需要这么长时间，是因为它在Playground和模拟面试网站之间复制粘贴。因此，我们可以说GPT-4在编码方面已经达到了超人类水平。现在让我们谈谈GPT-4的可供性以及数学问题。尽管GPT-4非常强大，但它仍然存在很多弱点。例如，它没有记忆，它会犯算术错误，它会在一些问题上回答错误。但是，GPT-4已经足够智能，可以使用工具来解决这些问题。例如，你可以告诉GPT-4：“你可以使用搜索引擎、计算器、API等工具。如果你需要它们，请使用它们。”这样，当你向它提问时，它会选择相应的工具来回答问题。现在让我们谈谈GPT-4的可供性以及数学问题。尽管GPT-4非常强大，但它仍然存在很多弱点。例如，它没有记忆，它会犯算术错误，它会在一些问题上回答错误。但是，GPT-4已经足够智能，可以使用工具来解决这些问题。例如，你可以告诉GPT-4：“你可以使用搜索引擎、计算器、API等工具。如果你需要它们，请使用它们。”这样，当你向它提问时，它会选择相应的工具来回答问题。现在可能并不那么令人印象深刻，但它还可以做更多复杂的工具协同。

例如，你可以允许它访问你的日历和电子邮件。所以，在这里我要向你展示的这个幻灯片上是100%真实的，但我手动完成的，你可以很容易地想象自动化这个过程。

我说的是，请安排本周在Contoso餐厅和Joe和Luke共进晚餐。它回应说：“calendar.get_events.week”，这样它就可以在我的日历里找到我这周的活动。

然后，它给Joe发一封电子邮件，问他哪个晚上有空。接着我把答案反馈给它，Joe说周二和周三晚上有空，Luke说周一至周四的任何一天都可以。我的日历显示我周一和周二已经有安排了。

然后，它根据我给出的信息进行推理，得出结论：周三是个合适的日子。于是，它给Joe发了一封电子邮件，把活动添加到日历，并给餐厅发去预订。这一切都是自动完成的。然后，它回复我说，已经在Contoso餐厅预定了6点的晚餐。接下来，我将简要总结一下数学问题，因为这对我们很多人来说都是一个非常感兴趣的话题。

首先，我要说它并不擅长数学，所以别担心，我们现在还有工作可以做。但它的表现是有趣的。我们可以像跟学生交流一样跟它交流。

我们曾与它进行过大师级别的对话，它在这个水平上表现得还不错。但我要给你展示的是一个初中水平的问题。这个问题是：一年内，兔子的数量首先乘以一个因子a，最后一天有b只兔子被领养。假设第一年的第一天有x只兔子，经过三年后，恰好有27x-26只兔子。求a和b的值。这是一个典型的初中数学问题。

GPT4回答:"我们可以设第一年兔子的数量为y，那么y=ax-b。经过两年后，兔子的数量为ay-b，即a(ax-b)-b。经过三年后，兔子的数量为这个等式，我们已知这个等式等于27x-26，所以我们可以解出a=3，b=2，这就是我们要找的答案。"

到目前为止，一切都很好。再次强调，你不能仅凭这些就判断一个学生是否理解了问题。我们继续进行讨论，并尝试更抽象的方式来看看它是否真正理解了它所做的事情。

在这里，我不仅想提出一个有明确答案的问题，还想看看它是否真正理解了这个概念，是否能够修改问题本身。

假设我指出这个问题可以用关于组合的方式重新表述，你能给出这种组合表达式吗？它回答说，“是的，我们可以说我们在寻找 A 和 B 的值，使得如果 f(x) = Ax - B，那么 F(F(F(x))) = 27x - 26。”

这相当不错，看起来它似乎理解了，让我们继续讨论。“假设现在 f 将是一个二次多项式。那么，一个具有非零 x 平方系数的多项式，在这种情况下，你能找到这样一个函数 f 吗？”

作为一个人类，你可能会想，好的，我希望这个组合等于一个线性函数，即一个一次多项式。但是，连续三次组合将得到一个八次多项式。八次多项式与一次多项式并不相等，所以不存在这样的函数。这是一个非常简单的问题，但让我们看看 GPT-4 如何处理。

GPT-4：“如果 f 是一个二次多项式，那么 f(x) 可以写成这样的形式。然后给出这个方程式。。。”

GPT-4 开始有点迷失方向，因为它开始尝试写下连续三次的组合，写了很多东西，说需要这个方程、那个方程，开始写下八个方程，但它没有得出答案。但我们并没有就此止步，我们说，“等等，也许在这里你可以在不进行计算的情况下得出一些结论，也许你不需要把所有东西都写下来，这不像以前那样。”

然后，它说，“啊，好吧，我可以注意到的一件事是，如果 f 是一个二次多项式，那么连续三次的组合将是一个八次多项式，所以不存在这样的函数。”

所以在这里，你可以看到问题很微妙，不确定它是否理解，或者它是否不理解。我不确定，我真的不确定。现在还有一些奇怪的事情，比如算术仍然有些摇摇晃晃，我必须说我不完全理解，但是我在这个幻灯片上明白了一些东西。

让我们看看这个，我给它一个提示：7乘4加8乘8。好吧，我不知道这个值是多少，但是8乘8是60多，7乘4是20多，所以至少这个值应该在100以下。

但是它给出的答案是120，这是错误的。关键是，它并没有就此止步，而是继续解释为什么它认为答案是120。它计算了7乘4加8乘8，然后得出了正确答案92。

“等一下，发生了什么？你一开始说答案是120，到底是120还是92呢？”

GPT4: "哦，那是个打字错误，抱歉。"(观众大笑)

好吧...

这个幻灯片中有很多深刻的见解，从中我们可以真正理解发生的一切。

首先，关于120这个答案，你需要理解，它必须使用内部表示来完成这个加法，这比立即回答问题稍微困难一些。为什么会立刻回答呢？因为当你提出这样的问题时，你写下等式，等号后最有可能出现的就是一个数字，所以它给出了这个数字。

它试图给出在等号后最可能出现的东西，尽管失败了。但在那之后第二个最有可能的事情是，人们解释他们的理性、他们的答案。所以它试着解释它的答案，关键的是，它得出了一个不同的答案。

你必须理解，这是很了不起的，因为据我所知，这是一个基于注意力的Transformer模型。当它第二次说7乘4加8乘8时，它的注意力非常强烈地引向120这个答案。你必须理解，120这个答案现在已经成为它的一部分了，对于它来说，它可能认为你告诉它，嘿，你知道吗，7乘4加8乘8就是120，从现在开始就是这样。这可能是我的提示的一部分。尽管一开始就犯了错误，但它能得出正确答案的事实表明，它已经经过足够的训练来克服提示中的错误，这是一个非常非常强大的属性。

当然，当它说这是一个拼写错误时，这也非常有趣，因为这显然不是一个拼写错误，这引出了幻觉等许多有趣的话题。我想留出时间回答问题，所以我不想再多解释这个幻灯片了。但你真的要深入思考这个幻灯片，它包含了很多信息。在进入结论之前的最后一个幻灯片是关于它不能进行真正的规划。

当然，我对它能完成许多我认为需要真正规划的任务感到惊讶。但让我举个例子，我们继续讨论7乘4加8乘8的问题。

"好的，现在你有一个等于92的等式，让我问一个有趣的问题：你能否在等式左侧修改一个整数，使答案变为106？"

作为一个人类，你的推理是这样的：好的，我想要在右侧得到106，所以我需要增加14。好的，我需要增加14，我可以在左侧修改一个数字。我看着左边，看到一个7，然后我有这种“顿悟”的时刻：“啊，14是7乘以2。”所以，如果是7乘以2，那么我需要把这个4变成6。所以我说的就是这个，我们需要把这个4变成6。但是，尽管这个顿悟非常简单，但它是通过某种规划得出的，在考虑接下来需要做什么。然而，GPT-4不能做到这一点，因为它是一个“下一个词预测”的设备。

所以，它会说，有一些可能的方法来实现这个目标，然后它说：“我可以修改一个整数，我要把7修改成9，然后9乘以4，这等于106。”等等，如果我把7修改成9，再加8，那就是100，而不是106。然后它试图解释为什么这样做是对的：9乘4加8乘8等于36加64，这是正确的。但是，它再次说出了106。

所以你可以看到，在这里，它没有足够强大的能力来克服最初的错误。这对我来说意味着，如果它接受了更多的训练，它也许会纠正自己的错误。如果它接受了更多的训练，也许它会理解，即使在提出这样的问题时，最有可能的答案是一个数字，但如果它经过更多的训练，可能最好的回答方式是首先进行推理。

所以我在这里说的是，通过这个愚蠢的例子，我看到了更多的训练可以让我们获得比现有更多的东西。我们目前拥有的已经很了不起了，但这离我们能通过这种技术所能做到的一切还很遥远。在地平线上，还有更多的东西等着我们去发现。然而，GPT-4不能做到这一点，因为它是一个“下一个词预测”的设备。

所以我在这里说的是，通过这个愚蠢的例子，我看到了更多的训练可以让我们获得比现有更多的东西。我们目前拥有的已经很了不起了，但这离我们能通过这种技术所能做到的一切还很遥远。在地平线上，还有更多的东西等着我们去发现。

电子GPT-4会梦见机械羊吗

当我们想要提问时如何让自己看起来没那么愚蠢

稀薄的空气，贫瘠的荒漠

仑质

COMMENTS | NOTHING

取消回复