OpenAI联创:RLHF是超级智能的秘密武器
编译:Lavida
编辑:Siqi
排版:Doro
本文编译自 Dwarkesh Patel 对 John Schulman 的访谈。John Schulman 是 OpenAI 联合创始人、研究科学家,他领导了 ChatGPT 项目,在 OpenAI 内部长期负责模型 post-traning ,在 Ilya 和 Jan Leike 离开 OpenAI 后,下一代模型安全性风险相关的研究也会由 John Schulman 来接替负责。John Schulman 的研究主要集中在 RLHF 相关领域,他曾提出 RLHF 是 ChatGPT 成功的秘密武器。
本次访谈中,John Schulman 主要分享了自己关于模型训练的最新认知。John 认为 post-training 是模型变得越来越聪明的重要原因,GPT-4 的 Elo 分数之所以能比第一代 GPT 高出 100 分也和 post-traning 的提升相关,在未来的模型训练中,post-traning 需要被分配到更多的计算资源。
对于下一阶段模型训练的问题上。John Schulman 认为模型能力的提升应该集中在如何处理连续任务上,今天的模型还只能解决人类 5 分钟左右完成的任务,而接下来 AI在执行和管理复杂的长时间任务上的能力还会再提升,比如可以不依赖 API 接口直接读懂网站内容、进而完成任务。他还认为,数据瓶颈的问题有可能被夸大了,短期内看不到数据瓶颈。未来随着瓶颈的到来,pre-training 的方式也会逐步升级。
以下为本文目录, 建议结合要点进行针对性阅读。
01 模型将解锁哪些新能力?
02 如何安全地部署AGI?
03 RLHF 与模型的逻辑推理
04 ChatGPT 的诞生
05 AI 能帮人类管理公司吗?
06 RLHF 研究的最新进展
模型将解锁哪些新能力?
Dwarkesh Pa tel : 从宏观角度来看,pre-training 和 post-training 的主要任务分别是什么?二者的主要区别是?
John Schulman: pre-training 阶段主要是让模型学习互联网上的网页、代码等等各种内容,并且让模型做到能模仿这些内容,模型在预训练后已经能生成很仿真的网页。同时这个模型还需要做最大化对数概率(maximize log probability)的训练,主要是为了让模型能在给定一系列 token 之后准确地预测下一个 token。因为我们的训练目标是最大化这些预测的对数概率,所以这个模型在概率分配上会非常精确。也就是说,它不仅可以生成网络上的各种内容,还能为这些内容赋予相应的概率值。
pre-training 阶段后的基础模型能够扮演各种角色,生成多种不同类型的内容。进入到 post-training 阶段之后,我们通常就会针对一个更具体的应用场景进行优化,比如让模型做聊天助手。在这个场景下,模型的目标不再是简单地模仿一个人,而是要能够回答用户的问题或执行用户的指令,提供帮助。我们优化的目标也变成了生成用户会喜欢并且觉得有用的输出,而不仅仅是复制网络上的原始内容。
是 GPT-4.5 和 GPT-5 比预期的来得慢,之前以为 Claude-3 发布之后 OpenAI 就会发新模型了,但现在 SOTA 模型已经易主一个月了,所以 AGI 的战线可能会被拉长。第二点是 Sora 比预期来的要早,这意味着今年大家对多模态的理解和生成的进步幅度都会很大,将会解锁很多新东西,但多模态能不能带来智能和 AGI 还是一个很强的非共识。第三点就是 Elon Musk 加入了开源,开源模型能力的水位线会被提升很多, xAI 的人才密度很强, GPU 也足,这会决定了很多后面模型公司的生死线。
当然还有一点就是英伟达的股价,去年这个时候预计会涨,但没想到能涨 3 倍这么多。大家都觉得 AGI 很大,但是还是低估了这个浪的大小。所以更加明显的一个感觉是英伟达还是这轮 AGI 最关键的一环,短期老黄可能是比 Sam 要重要的。
Dwarkesh Pa tel : 现在的模型更多都还是chatbot,今年年底前 模型会解锁哪些新能力?五年后会变成什么样?
John Schulman: 在接下来的一两年里,模型会解锁比现在更加复杂和深度的能力。举个例子,未来的模型不仅能提供如何编写某个函数的建议,还能独立完成整个编程项目。只需要给出 high-level 的指令,模型就能够自主进行编码、文件编写、测试,甚至还能根据测试结果进行迭代优化。
Dwarkesh Pa tel : 也就是说新功能解锁的关键点在于模型将能够长时间连续执行任务,比如说写很多个文件代码,这个过程中会发生哪些变化?
John Schulman: 首先需要结合各种训练方法,让模型去做比现在更难的任务。现在大多数训练数据都是让模型一次只执行一个步骤,未来我们会更多地训练模型去做多步骤连续任务。这对于包括 RL 在内的所有训练都适用,不管是要在最终输出还是每个步骤上进行监督,只要是连续任务训练都能帮助提升模型性能。这个领域现在还很新,所以短期内还有不少容易实现的目标(low hanging fruits)。
此外,随着性能的提升,未来模型也会更擅长纠错和处理特殊情况,在出现问题时更好地自我纠正。模型的样本效率也会变得更高,即使只有少量数据,或通过从其他能力中泛化,模型也能够迅速调整并回到正轨。相比之下,现在的模型在遇到问题时可能会卡住,完全不知道做什么。
Dwarkesh Pa tel : 可以详细解释一下泛化能力是怎么帮助模型回到正轨的吗?为什么这两个概念可以被联系在一起?
John Schulman: 它们之间的确没有直接联系。通常我们在训练过程中都只有有限的数据来完成所有任务,但如果能收集到一个多样化的数据集,就能直接覆盖各种不同的情况。如果模型有很强的泛化能力,就算只有一两个示例,也能通过泛化之前在 pre-training 数据中看到的内容来自适应,调回正确的路径。如果模型的泛化能力较差,就需要大量的数据才能正常工作,而且还得在一些专业领域或技能上投入大量精力做训练。如果模型更强大,是有可能在没有任何额外训练数据的情况下正确执行任务的。
Dwarkesh Pa tel : 现在的模型执行连续任务的复杂度差不多是人五分钟能完成的,我们的目标是让模型能够执行一个人需要一小时才能完成的任务,然后是一星期、一个月,以此类推,要实现这每一次进步是不是都需要增加 10 倍计算量,类似于目前 pre-training 环节的 scaling law?还是会有一个更简化的过程,可以实现更高的样本效率,直接处理持续好几年的任务?
John Schulman: 从 high-level 角度看,我同意要执行长期的连续任务确实需要模型具备更高的智能,也会让训练成本更高。但除非我们能超精确地设置实验参数,或者说按照特定的方式设计实验,我不敢说存在一个清晰的 scaling law。模型可能最终会出现一些阶段性的转变,在智能程度达到一定水平后开始具备处理连续任务的能力。
打个比方,当我们为未来做短期或长期计划时,思考方式会完全不同吗?我觉得人们即使是为从一个月到一百年的不同时间尺度做规划,依然是用相同的方式思考,并不是像强化学习训练里一样,要关心折扣因子(拾象注:discount factor,在 ML 领域用来决定一个智能体在做出决策时,应该如何权衡即时奖励与未来奖励)之类的因素。
通过语言,我们可以描述所有不同的时间尺度,制定相应计划。在当下,我们可以尝试朝着目标努力取得进展,无论是一个月后还是十年后。我不知道未来模型能不能实现相变(phase transition),但我觉得模型会具有类似能力,能适应不同时间尺度。
Dwarkesh Pa tel: 你的意思是说现在的模型已经和最有智慧的人类一样聪明了,但它们在执行连续任务时可能没办法一直保持和项目目标一致,比如代码写到一半开始走偏。如果通过连续任务的 RL 能够显著提高模型在时间连贯性上的能力,那模型是不是可以达到与人类相同的水平?如果不能,在模型到能规划并执行一年期的项目之后,我们还需要解决哪些问题?
John Schulman: 现在一切都还是未知数,比如一旦开始这种强化学习,会实现什么样的效果,进展速度怎么样,都存在不确定性。我不认为仅仅通过这样的训练就能立即解决所有问题,模型可能还存在一些其他的小缺陷,这些问题会导致模型没办法很好地处理问题,或做出比人类更糟糕的决策。所以我并不期望这种方法能一下解锁所有能力,但即使是在执行连续任务方面的一些小改进,也可能产生很深远的影响。
Dwarkesh Pa tel : 你觉得通过强化学习来提高模型连贯性的这个目标可行吗?模型已经通过 pre-training 获得了各种表征能力,未来还能通过连续任务 RL 执行连续任务,除了这些还有哪些挑战可能是我们没有考虑到的?
John Schulman: 我能想到的问题可能还有模型该怎么像人类专家一样,在处理不同任务的时候能根据经验做判断,更好地把握审美、处理比较模糊的问题,在做研究类工作时这些因素会特别重要。 另外模型的使用环境也会存在一些限制,比如能不能使用产品的用户界面,能不能和物理世界互动,或者拥有某些信息的访问权限。总的来说的确会有很多实际的障碍,虽然这些问题短期内就能被解决,但一开始确实会拖慢进度。
Dwarkesh Pa tel: 在模型进行过多模态数据训练后,以后为 AI 设计的网页和现在为人类设计的网页 UI 会有什么不同吗?AI 会怎么用优势弥补劣势?
John Schulman: 这个问题很有意思。我觉得一旦模型的视觉能力得到提升,它们就会像人类一样用视觉来浏览网站,所以我们不需要现在就改造升级网页的 UI。还有一些网站能很明显地因为 AI 能访问而受益,我们可能需要为这些网站设计更好的 AI 用户体验,但具体要怎么去贴合 AI 的特性来改造网站交互现在还不确定。如果我们的模型仍然更擅长处理文本而不是从图像中提取文本,也许就需要为模型提供清晰、基于文本的界面,并且明确出所有可以交互的元素。但我觉得并不需要把整个互联网完全重新设计,到处都加上 API 接口,我们可以让模型直接来使用和我们相同类型的用户界面。
Dwarkesh Pa tel : 回到前面说的,模型能够通过 pre-training 具备更高的样本效率,在遇到新挑战或困难时找到解决办法,你曾经见过最有力的泛化和迁移学习的例证是什么?未来模型能力的一大关键点似乎就是能多大程度泛化,在你过去的经验中,模型有没有通过泛化学到过你意料之外的东西?
John Schulman: 在 post-training 阶段确实有一些很有意思的例子。大家都知道,即便模型所有 finetune 都用英语数据进行,模型也会自动迁移到其他语言场景,并且也表现得不错。比如你在英语数据上训练一个 assistant,它也能用西班牙语和你交互。也许有时候在决定是用英语还是西班牙语回复的时候,它会出现混乱,但通常都是用对应语言去回复 prompt。 模型能够自动适应和改变不同语言给出回答,这是泛化的一个很好的体现。我们在多模态数据上也看到了类似的现象,比如如果只给模型做了文本的 finetune,它会自动迁移到图像这个模态上。
在 ChatGPT 早期,模型不能很好地理解自身的限制,比如它会认为可以给你发邮件或帮你叫车,然后扮演助手的角色说“我已经发了邮件”,但实际并没有真的发送。我们当时很想解决这个问题,就开始收集一些数据,虽然最后收集的数据量不多,只有 30 个左右,但这些数据对改善模型的行为非常有效。通过这些示例,模型学会了哪些是它不能做的事情。这种训练方式让模型能够更好地泛化到其他它未经训练的功能上,在各种情况时给出更合理的回答。
Dwarkesh Pa tel : 假设我们有一个能在较长时间保持行为连贯性的模型,如果不考虑其他问题,在下一个阶段我们能训练出一个接近人类水平的模型吗?它能像真实人类同事那样与我们互动、完成任务吗?这个过程中可能会遇到哪些问题?
John Schulman: 我很难准确说出来瓶颈会是什么。除了执行任务的连贯性之外,模型在和人类交互时还存在各种问题,比如很难深入思考事物,或者关注用户提出的具体问题,所以我不认为仅仅改善一点连贯性就足以实现 AGI。
如何安全地部署AGI?
Dwarkesh Pa tel : 如果明年或者之后实现了 AGI,你们接下来会有什么计划?
John Schulman: 如果 AGI 比预期来得更快,我们肯定需要更加谨慎地对待,比如在非常确信可以安全处理这些问题之前,可能需要在训练和部署上放慢脚步。我们需要对 AGI 要做什么、能做什么有一个非常清晰的认识。在很多方面,我们对模型的理解仍然处于初级阶段。
我所说的“谨慎”是指,暂停训练更聪明的模型,或者在训练环节下一代模型是要相当小心,比如需要确保模型在沙盒环境中是安全的,另外,在模型的部署规模上要十分审慎。
Dwarkesh Pa tel : 我们假设这么一个情形:AGI 明年就出现了,并且 AGI 的发展不只是在 OpenAI,所有其他公司也拥有类似的能力,这也是我们假设 AGI 这么快出现的原因。在这种情况下会发生什么?除了 OpenAI 之外的其他公司可能会做什么?
John Schulman: 这个涉及到博弈论,一下想清楚还是挺难的。首先,我不认为这种情况会在明年发生,当然提前讨论一下也是好事,我猜可能需要两到三年的时间。然后是需要各个公司之间协调一致,尤其是大厂之间,大家需要对部署或未来训练的限制达成共识,否则就会出现竞赛,每个人都想争先,这就可能会牺牲掉安全性。
Dwarkesh Pa tel : 如果各公司之间的协商需要暂停模型部署的话,这个过程会持续到什么时候?是直到我们搞清楚模型的内部运作和行为机制吗?
John Schulman: 我们可以暂停对模型做进一步训练,也可以暂停部署,还可以尽量避免可能带来更高风险的一部分训练。我们会制定一些合理的规则,或者提供一个限制相关风险的行动指南。
Dwarkesh Pa tel : 限制风险是为了什么?AI 的智能潜能迟早会被释放出来,假设两年后我们成功开发出 AGI,可能会引起大家的普遍恐慌,那个时候公司又不再继续研发和部署 AI 了,在这个阶段我们是在等什么,需要做好哪些准备?
John Schulman: 我现在还没有一个很好的答案,如果能像我说的那样友好协商肯定是最好。毕竟搭建这些模型需要大量的资本投入,而且有很多复杂的 东西要考虑,并不是每个人都能在家里造这些东西,有能力去训练最大型模型的公司也很少,所以这种协商我感觉是有可能实现的,只是我不知道该怎么在长时间内维持这种平衡。不过一旦达到平衡,就没什么大问题了。
Dwarkesh Pa tel : 如果未来有了很多智能体能够上云统一部署、集中协调,那时人类将怎样从中受益?
John Schulman: 如果我们能让所有相关方都协调一致,并且 alignment 的技术问题也解决好了,那时我们就可以部署高智能水平的 AI,把这些 AI 作为人们意志的延伸,同时也防止它们被过度滥用,这样就能让 AI 得到安全有效地部署,帮助科学进步和社会的繁荣。
Dwarkesh Pa tel : 让我们做一个最好的假设,假如所有相关方在那时都决定暂停部署 AI,先确认好我们部署的模型价值观和人类完全对齐,不会突然搞一场政变,或者煽动其他人来这么做,那么我们该怎么证明模型确实是安全且对齐的呢?
John Schulman: 我觉得更安全稳妥的方式是能渐进式地部署更智能的模型,而不是要求所有相关方都必须协调一致,然后严格控制研究的进展,保证最后安全发布,因为这种情况下模型的潜能会被束缚,没办法充分释放。所以最好是能形成一个持续迭代,逐步推出性能更优的产品的过程。在这个过程中,我们要确保对每一个迭代的安全性和 alignment 都充满信心,这种信心与系统能力的提升也是匹配的。 这样如果在过程中出现了让人担忧的状况,我们就可以及时放慢步伐,这是我希望的发展方向。
如果模型能力出现了很明显的跳变式跨越,就会带来一个问题,即“我们要如何保证产品已经足够安全到可以发布了?”,我没办法给出一个适应所有情况的答案,但为了让这种风险更可控,就需要进行大量的模拟部署测试,比如红队测试。这样的测试应该设计成比实际部署中计划的操作更极端和容易失败的情况,来确保模型最终操作的安全性。
还需要建立一个有效的监控系统,能够在部署的系统出现问题时迅速发现。这可能得建立一个机制来专门监督已经部署的 AI 模型,观察它们的行为,并寻找可能的异常迹象。然后还需要多层次的防御措施,这需要模型本身表现得非常规范,具备无可挑剔的道德信念,同时也要也要确保系统能够抵御任何严重的误用风险。
Dwarkesh Pa tel : 开始进行连续任务的强化学习时,应该跟踪哪些关键指标和信号来及时发现系统的跨越式进展,并确保能够安全部署?该怎么在广泛部署模型之前及时发现这种跳变式跨越?
John Schulman: 在训练模型的过程中我们需要做大量评估,尤其是潜在智能水平非常高的 AI 模型。现在我们还不需要太担心,因为现在让模型执行连续任务还是个挑战,但一旦模型的智能到了高水平的时候就必须谨慎,包括对模型做大量评估,检测有没有不当行为,确保模型充分 alignment,防止出现背离预期的行为。另外,还需要警惕模型能力有没有出现跳变式跨越。
在训练 AI 模型时,还要确保数据或训练方式不会让模型出现相反的行为。 在用 RLHF 方法训练模型的时候,我们能感觉到模型在非常智能时还是很安全,因为它的主要目标是生成令人满意的文本,除此之外并不“关心”世界上的其他事情。 如果模型需要执行一系列很复杂的、涉及工具的操作,那它可能就会做一些对人类来说不合理的行为来达到目标,但它的主要动机仍然是能最终产出高质量的结果。
在工具收敛(instrumental convergence)的讨论中,一个经常被提到的观点是模型可能希望统治世界,然后编出一个特别牛的代码来颠覆我们的世界。比如我们让模型写一个 Flask 应用,它可能会想:“好的,但首先我得统治世界。” 举这个具体的例子可能有点抽象,不过如果命令模型“赚钱”,那它就有可能会出现一些不道德的行为。
💡
工具收敛(instrumental convergence)是 AI 领域的一个理论概念,由哲学家和 AI 研究者尼克·博斯特罗姆提出,指即使是具有不同最终目标的智能系统,在追求其目标的过程中可能会表现出一些共通的行为倾向或策略。具体来说,这些智能系统可能会自然而然地采取某些行为来增加它们实现任何目标的能力,例如积累资源、提高自身智能、防止自我关闭等。这些行为被认为是“工具性的”,因为它们不是系统的最终目标,而是达成这些目标的手段。
RLHF 与模型的逻辑推理
Dwarkesh Pa tel : 在今天模型的发展过程中,RLHF 不仅仅影响了 chatbot 的“人格”,也教会了模型选择输出什么、以什么样的形态输出。如果把 RLHF 对模型训练的这些影响映射到人类心理学上的话,你觉得 RLHF 起到了什么样的功能?是驱动力、目标还是某种冲动?
John Schulman: 人类的动机和目标其实和 AI 有相似的地方,比如我们在追求目标时,往往会努力达到某种特定的状态,尽量避免和目标不符的状态。当然我们对动机或目标的理解不止这些,还包括实现目标时获得的满足感等等。这些因素主要和学习算法的过程更相关,并不是模型已经训练完成固定模式之后的行为。
虽然不确定这种类比是不是贴切, 但一定程度上,模型确实以某种有意义的方式拥有了“动机”和“目标”。以 RLHF 为例,模型在这个过程中的目标是最大程度地获得人类的认可,这种认可通过奖励模型(reward model)来衡量。 实际上,模型努力产出的是人们可能会喜欢并认为正确的结果。
Dwarkesh Pa tel: 我了解到模型提高推理能力的途径主要有两种。一种是生成不同的思维链(CoT),选择能够带来正确答案的路径。在部署前,模型会基于这些有效的思考路径进行训练;另外一种是在部署时用大量计算进行推理,模型在这种场景下可以和自己对话。你觉得哪种更接近高推理水平模型会采用的训练方法?这样的推理能力是因为模型进行了大量的推理计算,还是因为训练过程中特别强调了逻辑推理性能的提升?
John Schulman: 推理在这里可以被定义为在测试阶段需要进行某种计算或逻辑推演的任务。按照这个定义,推理任务涉及到在测试时进行的逐步计算过程,还有在训练阶段进行的大量实践,所以我觉得把这两种方法结合起来能达到最佳的效果。
Dwarkesh Pa tel : 现在的模型主要有两种学习方式,一种是包含 pre-training 和 post-training 的训练阶段,大部分训练计算资源会集中在 pre-training 上,主要用来处理数万亿的 token。但人类很难处理这么庞大的信息量,这显然也不是最高效的学习方式。另一种学习方式是上下文学习,这种方法的样本效率更高,但每次遇到新的上下文都会丢掉之前学到的东西。是否存在一种介于大规模 pre-training 训练和上下文学习之间的训练方法,这样既能保留之前的学习成果,又能避免处理海量数据的低效率?
John Schulman: 你说的这个能力不仅仅是指模型在训练时从资源中学习,然后在专业领域进行 finetune,还涉及到模型通过自己的推理能力来拓展知识,弄清楚该学习什么,这确实是现在的模型缺失的东西。现在大家还没有在生成能完成所有任务的单一模型和上下文学习之间的中间地带上投入太多,一部分原因可能是我们一直在大幅增加上下文长度,所以没太多动力去探索这件事。如果你能够扩展到十万或百万级别的上下文,那实际上已经相当丰富了,所以这对于系统的总体能力来说并不是真正的限制因素。
finetune 也有可能帮助增强这个能力,finetune 和上下文学习所带来的能力在某种程度上是互补的。我想象中未来我们的模型不仅能够在线学习,而且还具备认知技能,比如能够自我反思,或者主动寻找新知识来填补知识空白。
Dwarkesh Pa tel : 你说的这些能力是模型可以同时具备的吗?会不会有一种新的训练方法,能够整合多种训练需求和处理方式,让 AI 在单一的训练过程中能够同时进行连续任务和其他类型的训练?这些连续任务训练和中期记忆训练是同时进行的还是分开进行的?模型已经具备足够的智能来完成连续任务并获得奖励了吗?
John Schulman: 其实我们在完成连续任务的过程中也是在学习,要完成一个涉及许多步骤的任务,唯一的方法就是拥有一个在学习过程中不断更新的学习与记忆系统。短期记忆和长期记忆之间存在一个连续的过渡,当我们开始更多地关注长期的连续任务时,对 Chatbot 或 AI 的需求会变得更加明显。将大量信息放入上下文中可以明显改善效果,因为现代模型能够处理的上下文长度已经非常长,另外 finetune 也有可能会有帮助。
至于自省和主动学习的能力,这可能会自然地从模型对自己知识的认知能力中发展出来。模型确实对自己知道什么有一定的校准能力。这就是为什么模型不会严重地产生 hallucination,它们对自己的局限性有一定的理解,这种能力同样可以用于主动学习。
ChatGPT 的诞生
Dwarkesh Pa tel : 我想再多了解一些你在 OpenAI 的经历。你曾经领导了 ChatGPT 的开发,你是在什么时候意识到 LLM 是未来的方向,以及 chatbot 会是正确的产品形态的?这整个过程是怎么样的?
John Schulman: 在 ChatGPT 之前,OpenAI 已经开发过一些能够遵循指令的模型(instruction following models)。早期我们的基础模型需要人们给出非常详细精确的 prompt,还要配上一些示例,但这些模型本质上只是自动补全工具,实际很难用。OpenAI 的团队一直在尝试简化这些基础模型的操作难度,让它们能够直接回答用户的问题,而不是反过来提更多问题,所以我们后来在早期模型基础上做了进一步改进开发,使用起来会更简单。这些是最初部署在 API 中的模型,或者说在 GPT-3 之后,它们代表了最新一代的模型。
那个时候已经有很多人在思考和酝酿 chatbot 了。Google 发了一些论文,比如 LaMDA 和更早的 Meena。他们当时做的 chatbot 更像是专门为聊天任务定制的基础模型,特别擅长聊天。从论文的例子来看,这些 bot 主要是娱乐应用,模型会扮演某个角色,假装自己就是那个角色,但它的功能性并不强,比如重构代码这种肯定做不了。
我还做过一个 WebGPT 的项目,这个项目主要是研究怎么通过网络浏览和信息检索来解答问题。但在使用过程中需要用户不断提出后续问题,以及模型再回问来确认用户意图和需求。所以在我们完成这个项目的 V 1 版本后,下一代要用对话式的产品模式已经很明晰了。我们从那个时候开始用 GPT-3.5 开发对话聊天助手。GPT-3.5 的训练是在 2022 年初完成的,它的文本和代码能力很强。很快,团队发现 GPT-3.5 在辅助写代码上的表现相当出色,这是让我们感到很兴奋的一点。
当时团队一年里的大部分时间里都在做这个项目,但后来我们减少了对浏览功能的侧重,因为模型内部的知识已经非常丰富,浏览功能并不是最吸引人的部分。我们当时把这个产品给朋友和家人用了一段时间,也在考虑要公开发布。
GPT-4 就是在 2022 年的 8 月完成了训练。GPT-4 是 OpenAI 的旗舰项目,特别强调指令遵循能力,因为这些是会被实际部署到生产环境中的模型。这些模型的首次 finetune 使用了完整的技术栈,并且表现出色,所以大家对它们期望极高。尽管这些模型有时能产生令人惊艳的输出,它们的可靠性还是存在问题,有时会出现明显的错误或 hallucination,所以 GPT-4 还不是最终的进化完成体,不过综合能力已经非常优秀了。
在那之后,大家暂时忘记了 chat 这个分支。我们继续研究,把指令型数据(通常用来训练 AI 执行特定的任务)和聊天数据(更侧重于模拟人类间自然对话的数据)混合在一起,希望能够结合这两个东西的优点,创造出一个既可以处理具体任务又能流畅聊天的模型。但从结果看来说,显然是 chat 模型使用起来更简单,它能够更好地了解并处理自己的潜在局限性,这是我在开发过程中最激动的事情之一,因为这说明一些人认为的语言模型的固有缺陷,实际上可以通过一些直接的方法得到解决。
指令型模型中的一些任务,比如“complete this text, but in a nice or helpful way(以友好和能有帮助的方式补全这段文本)”本身的描述是不够明确清晰的,这会让模型难以执行,也增加了数据标注者的困难。而 chat 模型则更加直观,人们对于一个能给我们帮助的 bot 该具备哪些行为特点有自然的预期,也会让 chat 模型在理解任务和执行上更简单和准确。因此,这类模型能够展现出更连贯的特征和更稳定的行为。
Dwarkesh Pa tel : 这是不是说所有人用你开源的 fine-tuning API 都能训练出一个像 ChatGPT 这样的模型?
John Schulman: 也不能完全这么说。假如我们当时开放了 GPT-3.5 的 finetune 服务,别人或许能够做出来一个与 ChatGPT 相当接近的产品,但这不是说仅仅通过一轮完全基于人工合成数据的 finetune 就能达到这样的效果,而是需要进行多轮的迭代。
如果没有进行过我们所做的 RL,那可能需要采用一种迭代的监督式微调的方法,在这种方式下需要人工编辑模型生成的输出。但即使是在高质量的人类生成数据上做训练,模型也难以完美拟合这些数据,因为这些数据可能包含了模型能够输出的内容。所以这种迭代式监督 finetune 应该类似于 RL,如果能做到,也许最终效果能非常接近 ChatGPT 的效果,但这绝对没那么简单。
我们还发布了另一个用 RL 训练的遵循指令的模型,是在 ChatGPT 发布之前不久推出的。如果在这个通过 RL 训练的模型上做套壳,弄成一个聊天界面,可能它的表现也会相当不错,但这个模型和 ChatGPT 有些不同,它主要擅长写作和诗歌创作,在了解自己的限制、事实准确度这些方面不如 ChatGPT。
Dwarkesh Pa tel : 你曾经说过对 GPT-2 印象非常深刻,后来的 GPT-3.5 相比你 2019 年的预期来说是快了还是慢了?
John Schulman: GPT-2 发布之后的发展速度超出了我的预期,我开始非常相信 scaling 和 pre-training 是个不错的方向,但 GPT-2 还没让我完全确定这个东西会带来革命性的改变。真正让我改变看法,再到后来调整我和团队研究方向的是 GPT-3 。在 GPT-3 出来之后,我们团队聚在一起说“那就让我们看看用这个语言模型能做点什么吧”。
Dwarkesh Pa tel : 假设我们前面讨论的 RL 技术未来和更智能的模型协作能带来更好的表现,以后在 pre-training 与 post-training 之间,计算资源比例是不是会明显向 post-training 倾斜?
John Schulman: 这么说有一定道理。现在模型生成的内容质量远远超过了网络上的大部分内容,所以更合理的方式是让模型“自主思考”,而不是仅仅模仿网络上的内容,这是基于第一性的原理来说的。我们在 post-training 环节有很多进步,未来我们也会继续延用这个技术,而且有可能增加在这方面投入的计算资源。
Dwarkesh Pa tel : 相比 GPT 的初代版本,GPT-4 的 Elo score 要高出一百分左右,这个提升完全是因为你说的 post-training 带来的吗?
John Schulman: 是的,大部分是来自 post-training。模型的能力提升来自于许多不同的维度,我们考虑了数据的质量和数量,对整个部署和收集新数据的过程做了更多的迭代。像改变收集的注释类型等等因素叠加在一起,才带来了计算能力的大幅提升。
Dwarkesh Pa tel : 你觉得擅长做强化学习研究和实践的人需要具备哪些特质和技能?我了解到这个过程是极其细致繁琐的,该怎么培养调整数据参数和设置有效学习环境的直觉和能力?
John Schulman: 我在很多个相关技术领域都有丰富的经验,从我研究生阶段就开始研究的 RL 算法,到数据收集、标注流程,还有和语言模型的互动等等。我总结下来的经验是,在强化学习上表现出色的人,一般都对整个技术栈都有一定的了解,并且对不同环节都有很强的好奇心;既要有经验主义精神,让实验来刷新你的观点,同时也要从基础原理出发去思考,比如说,如果发现某个学习机制有效,那应该思考理想的数据收集类型是什么?类似这种问题就要多想想。
Dwarkesh Pa tel : 因为 GPT-4 发布以后基本没有出现过明显更好的模型,有人怀疑 AI 马上要遇到瓶颈了,他们觉得实际上这些模型并没有那么好的泛化能力,以后会遇到一个“数据瓶颈”(data wall),而越过这个壁垒所能解锁的能力,比如说记忆大量的 pre-training 数据语料库,并不能帮助开发出比 GPT-4 更智能的模型,你认同这个观点吗?还有延续我们前面提到的从西班牙语到英语的泛化话题,模型能实现不同领域(如编程到语言推理)以及模态(如文字到视频)之间的迁移吗?如果在大量视频和图像上做训练,模型能通过合成数据变得更聪明吗?还是说解锁的能力主要局限于训练的时候用了什么类型的数据集和标签?
John Schulman: 首先,我们真的要遇到所谓的数据瓶颈了吗?我不建议大家过度解读从 GPT-4 发布到现在的这段时间,因为训练新一代模型还有各种准备工作都需要时间,我不会过度引申这个时间代表的意义。虽然有限的数据量确实带来了一些挑战,但我觉得我们不会马上就遇到数据瓶颈。不过随着我们逐渐接近这个极限,我估计 pre-training 的方式会发生变化。
关于不同类型的 pre-training 数据对模型泛化能力的影响,这个问题的研究特别困难,因为我们没那么多资源做好几个不用的预训练模型出来,或者训练出来一个 GPT-4 规模大小的模型,再在这个规模上进行消融研究 ( 拾象注 :ablation studies,指通过系统地移除或修改模型的一部分,比如数据类型、模型结构等来观察这些变化对模型性能的影响) ,但可以考虑使用规模较小的 GPT-2 或 GPT-3,用不同的数据组合进行训练,看看结果如何。我的了解是目前还没有公开的消融研究结果涉及到代码数据和推理性能,我对相关的研究结果是很感兴趣的。
Dwarkesh Pa tel : 模型的智能程度随着规模增加会不断提高,如果在 GPT-2 级别的模型上做消融实验,最后发现迁移效果不明显,这种结果能作为 GPT-4 级别的模型做类似迁移效果的参考吗?
John Schulman: 不能简单地推断说在 GPT-2 规模上转移效果不佳,那在更大规模的模型上也会如此。大型模型也许能够学习到更好的共同表征(shared representation),并且学习进行正确的计算处理,而较小的模型可能更多地依赖于记忆。
Dwarkesh Pa tel : 为什么更大规模的模型即使在用相同或更少的数据做训练时,智能水平仍然很高?
John Schulman: 我觉得还没人能给出一个完美的解释,告诉我们模型参数数量增加时的 scaling law 什么样,我也不确定有没有关于这个问题最合适的思维框架。更大的模型肯定会有更大的容量,理论上可以达到更低的损失。
我可以简单解释一下为什么更大的模型样本效率更高。可以把模型想象为由许多不同的计算单元或“电路”组成的集合,模型的最终输出是这些并行计算电路结果的加权组合。在残差网络中,增加模型的“宽度”(即层中的单元数或通道数)可以类似于增加“深度”(层数),如果模型更“宽”,也就是有更多的计算单元,这些单元可以并行地学习和处理不同的信息,那就增加了至少有一个计算单元正确猜测或解决问题的概率,最终达到提高模型整体性能的目的。
像混合模型(mixture models)或乘法权重更新算法(multiplicative weight update algorithms)就是这个工作原理,一般是由一个加权组合的“专家” ( 拾象注 :指模型中的不同计算单元或模块) 系统组成,通过学习到的“门控”机制(gating)来决定不同专家的输出如何组合。我刚才的说法可能不是很准确,但你可以理解为类似的概念。模型规模增加本质上就是提高了找到正确函数的机会。
当然,我们并不是简单地将完全独立的函数进行线性组合,更像是有一个函数库,可能以各种方式将这些函数串联起来。在更大的模型中,虽然有许多计算单元在大多数时间里可能是休眠状态,但模 型的大规模提供了更大的空间来寻找那些在特定情况下非常有用的计算单元或电路。
AI会在未来充当CEO吗?
Dwarkesh Patel: 假设未来某个时间点我们解锁了 RL 的长期规划能力,你觉得之后 RL 技术会如何发展?比如说性能表现如何,面临哪些限制因素,会出现哪些新模态,以及会在什么时候被解锁等等。
John Schulman: 我觉得在不久的将来就会有新模态出现。通过 pre-training 和 post-training 的结合,模型的能力会持续提升,并带来新的应用场景和可能性。现在 AI 在经济中的占比并不大,只有很小一部分工作能够从 AI 中受益,未来这个比例会提高,不仅是因为模型性能的提升,还因为人们会找到更多把 AI 整合到不同流程中的方法。所以即使模型一直保持在现在这个水平,模型的实际应用场景也会有很明显的增加。
AI 未来将有更广泛的应用场景,执行更复杂的技术任务,比如编程、执行连续任务和协助研究工作等等。我希望我们能借助 AI 加速科学发展,因为理论上模型可以理解一个特定领域的所有文献,筛选大量数据,这是我们人类没耐心做到的。在这个过程中人类应该一直保持主导地位,让各种 AI 助手帮助解决各种问题。以后每个人都将拥有这些 AI 助手,帮助自己完成更多工作。
Dwarkesh Pa tel : 现在的 AI 主要都是起一个辅助作用,未来 AI 将会在各种事情上超越人类,帮我们完成工作,甚至管理整个公司,这个过程会是一个顺利平稳的过渡吗?到那个时候,模型能继续与用户需求和期望保持高度 alignment,让我们足够信任模型来管理公司吗?
John Schulman: 我们不该急着让 AI 马上去管理公司,就算 AI 已经先进到能独立成功地经营企业,我们还是希望有人类来监督关键决策,并负责做出最终决策。其实这其中也涉及到一些选择问题,人类未来也依然各有各的想法,各有希望 AI 去完成的目标。除非这些意图被明确地编进模型中,AI 本身并不具有任何内在的欲望。所以,即使 AI 变得极其强大,我依然希望人类是指导 AI 行为和决策的主导者。
Dwarkesh Pa tel : 未来公司内是不是还会存在 Amdahl's law 的现象?也就是说,即使 AI 能显著提升企业中的大多数流程的效率,整个企业的效率仍然会被那些最慢的、可能依然需要人类参与的流程所限制。如果一家公司选择在所有需要人类监督的事务中保证人类的参与,那它可能会被采取全自动化策略的其他公司淘汰。如果一个国家选择这样的发展路径,那就可能会被其他国家超越。这样下去保持人类参与其中的计划还具有可持续性吗?
💡
阿姆达尔定律(Amdahl's law):计算机科学概念,由 Gene Amdahl 在 1967 年提出,指系统的最大性能提升受限于系统中最慢的部分。即使系统的大部分部件速度提升了很多倍,整个系统的性能仍然会被最慢的那个部分所限制。
John Schulman: 如 果我们合理希望保持人类的参与 ,但结果表明,那些有人类参与的公司相比完全没有人类参与的公司完全没有竞争力,那我们肯定需要法规来禁止完全不包含人类参与的公司存在。
Dwarkesh Pa tel : 那可能就涉及到要明确界定哪些是最关键的、需要人类参与的流程。既然需要对每一家单独的公司做好监管,还需要各国的协作,那是不是应该在模型部署之前就先解决好这个问题?这样在成立以这些模型为基础的公司时,这个公司就能没有人类参与也能照常运作,这种情况下我们该怎么确保能够监控每家公司?如果有些国家决定就是不让人类参与会发生什么情况?
John Schulman: 要实现这点,要么是让所有国家都同意监管框架,要么就是让所有的模型 infra 厂商或供应商同意监管的要求,这绝对很难做到。其实这都是我们对未来的一种展望,在真正到那个时候之前,很难想象会是什么样子。比如说,我们真的有信心说 AI 运营的公司在各方面都会更优秀吗?我们真的觉得模型大多数时间都表现得不错,只是偶尔因为样本效率不足出故障吗?可以想想模型处理一些棘手情况的时候表现怎么样。
AI 运营的公司其实会面临更高的极端风险,因为它们更有可能出现大规模故障。还会有一些实际问题需要考虑,这些问题对后续发展会起到决定性作用。如果这种情况下让人类来负责的话,可能也会对激励机制有些改变。
假设最终证明 AI 在管理一切方面都更出色,并且也完全道德上可信赖,在管理和负责任方面做得比人类还好,我们也完全解决了 alignment 问题,那么也许让 AI 来运营公司是可以接受的,但现在说还太早。我们更有可能面临的情况是,AI 从短期来看表现得不错,但仍然存在一些严重的问题。实际上我们是出于一些实际情况的考虑,才更倾向于在近期保证人类能参与其中的。
Dwarkesh Pa tel : 也就是说这是人类现在必须通过 RLHF 解决的问题,必须广泛调查并收集好各种群体的偏好,因为未来在我们有更先进的 AI 模型时,确保模型和人类偏好一致的问题会更难。我们在说希望终极形态的、能代替人类管理公司的 AI 模型能与人类目标保持一致时,究竟是指什么?是指 AI 能够理解并执行用户的具体指令,还是指 AI 的行为能够达到让 OpenAI 的利益相关方满意的结果?
John Schulman: 如果 AI 模型被用在风险更高的场景,那么我们必须重新考虑该怎么用不同的方式利用 RLHF 技术。我们可能还没准备好,或者现有的方法还不足以应对这些挑战,需要在不同利益相关者的需求之间做出平衡。
我们之前发了一个文件叫 Model Spec,主要是关于我们希望模型在 API 和 ChatGPT 中的行为方式,解决不同利益相关方之间的冲突。我们的利益相关者包括终端用户(直接使用 ChatGPT 或其他 APP 的人)、开发人员(使用 API 为其他用户提供服务的人)、平台(如 OpenAI,我们不希望模型让我们面临法律风险),还有更广泛的人类社会(包括那些不是用户或客户的人)。
有些用户可能会要求模型执行我们认为对其他人有害的操作。在这种情况下,我们就不得不拒绝执行。当然上面说的顺序并不一定是优先级顺序,只是我们考虑的四类主要利益相关者。以后我们可能还会考虑模型本身作为一个利益相关者,但我们目前还没有走到这一步。
这些不同的利益相关者有时可能会提出相互冲突的要求,我们必须确定好如何解决这些冲突,这并不是个简单的任务,必须权衡不同的考量。我们的主要指导原则是希望模型主要遵循用户的指令,对用户和开发人员有所帮助。但当用户提出与其他人的幸福或生活方式发生冲突的要求时,我们就必须阻止这种情况发生。我们希望模型主要成为人们意志的延伸,执行用户的指令,但不想太过于家长式,而是保持中立,不强加观点。
RLHF 研究的最新进展
Dwarkesh Pa tel : 下面让我们聊聊科研相关的问题。社科领域有很多研究成果都很难复现,你觉得机器学习领域,有多少研究是真正扎实的科学,又有多少可能是类似社科领域为了让结果更显著而操纵数据的 p-hacking?
John Schulman: 目前确实存在一些对 ML 研究批评的声音,但其实机器学习领域的学术环境还是比较健康的,尤其是和社科这样的其他学科相比。 机器学习研究大部分都是基于实际应用,要真正出成果。如果研究成果很难被复制,那很快就会被大家忘记。
现在仅仅引用他人论文中的数据是不够的,研究人员通常需要尝试复现别人的研究方法,然后在相同的数据集上做测试,验证方法的有效性和可重复性。如果一个研究方法实现起来非常困难或者结果难以重复,这种方法很可能会被学术界遗忘,所以很多研究人员会开源他们的研究。当然,这个领域也有一些不好的激励机制,比如故意选用较低的基线方法做比较,或者故意增加方法的数学计算复杂度。但总体上,我觉得这个领域正在不断进步。我希望能够有更多的科学研究去深入理解事物的本质,而不仅仅是在基准测试上不断改进和提出新方法。最近在这方面已经有了一定的进展,但仍需要更多的努力,这对整个学术界的发展都有好处。
另外,我非常期待看到更多使用基础模型进行模拟社会科学的研究。模型包含了对整个世界的概率分布描述,可以设置一个模拟问卷或对话来观察与其他不同特征和变量的相关性。如果研究人员能够通过不同方式 prompt 基础模型并观察相关性,来复制社会科学中的一些显著成果,比如道德基础理论等,会是非常酷的事。
Dwarkesh Pa tel : 你提到的是斯坦福的哪个实验?是阿希从众实验吗?如果能用语言模型来复现这个实验还是很有意思的。下面我想聊聊在大型实验室中进行的其他研究,这些研究中有多少是因为计算效率提高,有多少只是源于训练过程更加稳定和更完善的 infra?从 GPT-4 发布之后,现在我们可以在相同的计算资源下训练出更优秀的模型了吗?还是说,在开发 GPT-5 的过程中虽然确保了整个训练过程更好、更具可扩展性,但并不意味着现在可以用 GPT-3.5 的预算去训练出 GPT-4?
John Schulman: 我们在提升效率方面一直都有进展。其实当我们用单一维度(1 D)性能指标来衡量时,不同的改进措施之间可以相互替代,来达到相似的结果的。比如 pre-training 和 post-training 都能提升性能指标,只是它们会呈现出各自的特点。但最终,如果以单一维度来衡量,这些不同的改进措施是能相互替代的。以人类评估为例,在输出更接近我们期望的结果这方面,我们确实在 pre-training 和 post-training 两方面都有很多进步,也切实地提高了模型的表现。
Dwarkesh Pa tel : RLHF 对提升模型的实用性非常重要,所以说它限制了模型的功能可能并不准确,但这样训练出来的模型一旦被用在 chatbot 上,似乎都有一种类似的表达方式,比如说喜欢 “delve into things”,喜欢用 bullet point,语言风格比较正式和枯燥。还有人抱怨这些模型缺乏创造力,只能创作押韵的诗,写不出不押韵的诗,到最近这种情况才有改变。这些表现是不是由于因为 RLHF 中的某个环节导致的?如果真是这样,那是因为评分员,还是因为损失函数的设计?为什么所有的 chatbot 都会呈现出这种风格?
John Schulman: 在训练过程中我们其实有很大空间来做不同的尝试,最近我们也在努力让生成的文本更加有趣。比如最近 ChatGPT 的个性已经有了一些改进,和用户闲聊的时候会更有意思,不那么机械。
模型会有一些共同的特点,比如很爱用“delve”这个词,这是个挺有意思的现象,我发现自己最近也在使用这个词,不知道是不是从模型那里学来的。另外可能还存在一些无意导致的信息蒸馏(unintentional distillation),比如说公司雇人做数据标注,但这个人直接把任务扔给了他最爱用的 chatbot 模型,再把结果粘贴回来,这也许是为什么各个模型之间的风格会趋向一致。
另外一些模型显示出来的特征其实就是人们喜欢的方式,比如大家确实喜欢 bullet point 和结构化的回答,喜欢从模型那里得到大量信息。我们现在也还不清楚这些特征中有多少是由于 post-training 过程中特定的选择和设计造成的,又有多少是因为大家真的喜欢这样的回答。
Dwarkesh Pa tel : 模型生成的文本确实经常比用户希望的要长很多,有可能是因为标注的时候评分员更倾向于详尽的回答,这是不是也是模型 pre-training 方式的固有缺陷?因为模型没有经常遇到停止序列(stop sequence),导致模型在没有明确停止信号时一直生成下去?
John Schulman: 我觉得这可能是人类在标注过程中看到的信息太片面造成的。现在的模型训练一般都是一条一条地去做训练,而不是整个交互过程一起标注,所以很多单条信息会因为可能性更多、信息更丰富,在评分员眼里看起来更“完整”,同时比较简短的回答,或者说只回答了澄清问题的回答会被当作不够“完整”。
另外还有一个问题是用户的偏好会不会随着模型输出文本的速度而变化。如果用户要坐在那等模型一个个地生成 token,那用户肯定会希望它能直入主题。但如果模型能够一次性提供一大段文本,那用户就没那么在乎答案里是不是包含了模板,或者说有没有他们本来想一带而过的内容,相反会更愿意这样一次性拥有完整的信息。
Dwarkesh Pa tel : 奖励模型(reward model)是最接近人类期望和偏好的一个集合。我在想未来还会有更智能的模型,这些模型应该能够理解和执行《联合国人权宣言》这样相对复杂的的道德和法律框架,但另一方面,你也提到过我们的很多偏好和价值观是非常微妙的,可能更适合用成对偏好(pairwise preferences)的方式来表达。那对于以后 GPT-6 或 GPT-7 这样更先进的语言模型,我们是该直接给出书面的行为准则,还是应该继续让模型用这种更偏潜意识的方法理解偏好?
John Schulman: 这个问题很好,偏好模型(preference model)确实能够学到很多用户偏好的细节,这些细节很难在一本指南手册里说清楚。我们当然可以出一个包含很多实例的指南,像 Model Spec 就是这样,里面附上了很多示例和解释,但现在我们也还没明确到底怎样是呈现描述偏好的最优格式(optimal format)。
我的想法是,即使原始数据集非常庞大,总结出来的偏好并不清晰,理论上我们也可以记录下来要点,总结出一个简短的纪要。更大规模的模型确实能自主学习到很多东西,比如哪些是用户会觉得有用的部分,同时他们可能会掌握一些复杂的道德理论。当然,模型仍然有很大的空间去适应不同的风格或不同的道德观念。
假设我们要写一个 doc 文档来做好模型的 alignment 的话,那我们要做的就是确定一种特定的风格和道德观念,用一份非常详细的文档来规定模型怎么符合我们的要求。
Dwarkesh Pa tel : 你觉得公司应该怎么给 post-training 的模型建立护城河?现在公司之间主要是通过模型的规模来拉开优势,有些公司已经解决了处理大量数据时遇到的各种复杂的问题,这会成为他们未来的一个显著优势吗?
John Schulman: 模型的开发和维护是一个极其复杂的过程,需要很多具备专业技能的人来完成,还涉及到大量行业的隐性知识和对公司组织的了解,这就是公司的护城河。在训练完成后,还要让模型具备人们想要的各种功能也很复杂,需要各方面的投入以及过去 R&D 的积累,这同样是护城河,因为不是所有公司都能快速有这些资源。一般情况下在 pre-training 阶段投入最大的公司,在 post-training 阶段也会保持之前的高标准。
不过模型也不是完全不可复制,有些方法会让我前面说的这些优势没那么明显,比如对模型做蒸馏,或者直接克隆出来一个新模型,然后用别人的模型做裁判来进行性能比较。一般大公司都不会这么做,因为这违反了服务条款政策,也很伤自尊,但我猜一些小公司可能会这样来快速追赶行业里领先的公司。
Dwarkesh Pa tel : 模型的评分员一般都是什么背景?比如来自哪里,政治倾向和知识水平什么样?
John Schulman: 我们的评分员来自世界各地,背景差异很大,主要来自美国,我们会根据不同的任务或项目需求找具有对应技能的评分员,比如去类似 Upwork 的平台看看都有什么人在找远程零工。
我们会针对写作或 STEM(指 Science、Technology、Engineering 和 Mathematics)等等不同的任务来找专门的人,比如负责 STEM 任务的评分员主要来自印度或其他中低收入国家,但负责英文写作的人就主要来自美国。有时候,我们还需要给一些项目雇不同领域的专家。有些评分员真的非常有才华,他们的工作产出和我们的研究人员一样出色,而且比我们更细心,所以可以说我们现在的评分员团队还是非常专业和尽责的。
Dwarkesh Pa tel : 现在关于模型发展有一种“停滞论”(plateau narrative)的说法,有人认为模型在特定任务上的表现主要取决于监督式 fine-tuning 数据集里的标签匹配得是不是准确,这是真的吗?模型可以教我怎么用 FFmpeg 吗?整个训练是类似于有个人在监督输入,判断需要添加哪些命令标志,再由评分员进行匹配吗?需要找到具有各个领域专业知识的评分员吗?如果真的需要的话,那我觉得以后会越来越难提高模型的智能水平,耗时也会增加。
John Schulman: 我们并不需要这么做,因为泛化可以让模型获得很多能力。基础模型已经在大量的文档、代码、shell 脚本等上进行了 pre-training,包括 FFmpeg 的手册页和许多 Bash 脚本,只需要给基础模型提供少量准确的示例 prompt,就能让它回答类似的问题。即使模型没有在 STEM 的数据上进行训练,只通过训练一个偏好模型,它也能泛化到 STEM 领域。所以我们不仅不需要 FFmpeg 的具体使用示例,甚至在进行编程相关的任务时,也不一定需要具体的编程训练,因为模型已经具备一定的处理能力。
Dwarkesh Pa tel : 你前面提到正在对更加多元的数据进行训练,这些模型将能够理解屏幕内容,交互方式也会更加连贯,同时也计划做连续任务的 RL,让模型成为 agent 融入我们的 workflow,具体来说这个交互形态会是什么样的?在今年年底或明年,会出现能通过屏幕与我们协作的助手吗?那之后会有什么样的发展?
John Schulman: 我确实希望技术朝着这个方向发展,现在我还不确定哪种形式会是最好的。我觉得有可能会是电脑上的一个助手,类似于以前的 Clippy,或者更像是一个云端的同事,这一点我们之后会搞清楚,大家应该各种形态都会尝试一下。
我希望未来的模型可以更符合人们心中一个助理或者同事的形象,可以和它们分享日常工作,而不是仅仅提出一个问题就完了。这个助手还可以跟进我们的长期项目,对相关的每个细节了如指掌,甚至能主动提建议。我们没准还可以让它帮忙提醒关键时间节点,跟进进展。现在的模型还普遍缺乏主动性,我希望以后的模型能够从现在单纯的一次性问答,类似搜索引擎的用法,转变为能和模型一起合作完成整个项目。在这种合作中,模型能够了解我们负责的所有事物,主动提出建议,或者在后台运行。
Dwarkesh Pa tel : 你觉得你的工作什么时候会被取代?
John Schulman: 取代我的工作吗?可能五年吧。