跳转到内容

入门经典必读

作者:Derrick HarrisMatt BornsteinGuido Appenzeller

原文地址:https://a16z.com/2023/05/25/ai-canon/

译者:通往 AGI 之路

后半部分:目录:a16z推荐进阶经典

人工智能的研究正在以指数级别的速度增长。对于 AI 专家来说,跟上所有新发布的内容已经非常困难,对于初学者来说更是难上加难。

因此,在这篇文章中,我们分享了一份我们信赖的、用于更深入了解现代 AI 的精选资源列表。我们称之为“AI 典藏”,因为这些论文、博客文章、课程和指南在过去几年中对该领域产生了巨大影响。

我们首先对 Transformer 和 Latent Diffusion(潜在扩散)模型进行了简单的介绍,这些模型正在推动当前的 AI 浪潮。接下来,我们深入研究了技术学习资源;构建大型语言模型(LLMs)的实用指南;以及 AI 市场的分析。最后,我们列出了一份里程碑式研究成果的参考列表,从 2017 年谷歌发布的“Attention is All You Need”开始——这篇论文向世界介绍了 Transformer 模型,并开启了生成 AI 的时代。

轻松的入门……

这些文章不需要专门的背景知识,可以帮助你快速理解现代 AI 浪潮的最重要部分。

  • Software 2.0:Andrej Karpathy 是最早清楚解释(在 2017 年!)为什么新的 AI 浪潮真正重要的人之一。他的论点是,AI 是一种新的、强大的编程计算机的方式。随着大语言模型(LLMs)的快速改进,这个论点被证明是有先见之明的,并为 AI 市场的可能进展提供了一个良好的思维模型。
  • State of GPT:这也是 Karpathy 的文章,这是一个非常容易理解的解释,说明了 ChatGPT / GPT 模型一般如何工作,如何使用它们,以及研发可能采取的方向。
  • What is ChatGPT doing … and why does it work?:计算机科学家和企业家 Stephen Wolfram 给出了一篇长而易读的解释,从一开始的原理解释了现代 AI 模型是如何工作的。他跟随从早期神经网络到今天的 LLMs 和 ChatGPT 的时间线。
  • Transformers, explained:这篇文章由 Dale Markowitz 撰写,是对“什么是 LLM,它是如何工作的?”这个问题的一个更短、更直接的回答。这是一种很好的方式,可以轻松地进入这个主题,并对这项技术建立直观理解。这篇文章是关于 GPT-3 的,但仍适用于新的模型。
  • How Stable Diffusion works:这是一篇与上一篇文章在计算机视觉领域的对应文章。Chris McCormick 为非专业人士解释了 Stable Diffusion 是如何工作的,并从文本到图像模型的角度,帮助你对这种技术建立直观理解。如果你希望更轻松地理解这个概念,可以查看来自 r/StableDiffusion 的这个漫画

基础学习:神经网络反向传播和嵌入

这些资源为你提供了机器学习AI 基本概念的基础理解,从深度学习的基础知识到 AI 专家的大学水平课程。

讲解资源

课程

  • Stanford CS229:Andrew Ng 的机器学习入门课程,覆盖了机器学习的基础知识。
  • Stanford CS224N:Chris Manning 的深度学习自然语言处理(NLP)课程,通过第一代 LLM 介绍涵盖了 NLP 基础知识。

入门文章的翻译

群友解读:

张海庚

https://mp.weixin.qq.com/s/cpLDPDbTjarU0_PpBK_RDQ