【AI学习笔记】小白如何理解技术原理与建立框架(通俗易懂内容推荐)
大家好,我是Allen。世界是参差的,唯有持续学习能抵御未来的变数。
上篇文章观点:热爱与行动是通往 AGI 之路主要介绍了WaytoAGI和为什么要学习研究AI,解决了Why的问题。
这次想解决What和How的问题,当然我自己不是专业的,所以重点是推荐看了多篇教程后,对我个人有重大帮助的两个视频,我会附上视频链接,不想听我废话的可以直接看视频。本着一件事情如果你能讲给别人听才算彻底理解的原则,以下是我拆解的内容和个人注解。
研究AI,不是研究AI新闻,本文旨在帮助建立入门同学建立框架,需要深入了解的请关注原作者和原视频。
1、【包教包会】一条视频速通AI大模型原理_哔哩哔哩_bilibili
介绍:是由林粒粒呀 (女神)主讲,和某知识up主Genji一起制作的免费公益课。干货满满~新手友好~带你50分钟速通AI大模型原理。
2、用大模型保存你的全部人生,你会接受吗:专访安克创新CEO阳萌 | 大咖谈芯第11期_哔哩哔哩_bilibili
介绍:某知识up主老石谈芯专访安克创新CEO阳萌的视频,一共两期,视频链接是第二期。两期内容都值得观看,访谈非常硬核,我也会做拆解,并思考与近期苹果发布会的关系。
一、视频一主要回答了什么是AI大模型,原理是什么。
1、概念:生成式AI生成的内容,叫做AIGC
2、概念与关系:相关技术名词
1)AI——人工智能
2)机器学习——电脑找规律学习,包括监督学习、无监督学习、强化学习。
3)监督学习——有标签的训练数据,算法的目标是学习输入和输出之间的映射关系。包括分类和回归。
4)无监督学习——学习的数据没有标签,算法自主发现规律。
经典任务包括聚类,比如拿一堆新闻文章,让模型根据主题或内容特征分成具有相似特征的组。
5)强化学习——从反馈里学习,最大化奖励或最小化损失;类似训小狗。
6)深度学习——一种方法,参照人脑有神经网络和神经元(因为有很多层所以叫深度)。
神经网络可以用于监督学习、无监督学习、强化学习。
7)生成式AI——可以生成文本、图片、音频、视频等内容形式
8)LLM——大语言模型。对于生成式AI,其中生成图像的扩散模型就不是大语言模型;
对于大语言模型,生成只是其中一个处理任务,比如谷歌的BERT模型,可用于语义理解(不擅长文本生成),如上下文理解、情感分析、文本分类;
3、技术里程碑——2017年6月,谷歌团队发表论文《Attention is All You Need》。
这篇论文首次提出了Transformer模型,它完全基于自注意力机制(Self-Attention)来处理序列数据,而不需要依赖于循环神经网络(RNN)或卷积神经网络(CNN)。
GPT含义:Transformer是关键。Transformer比RNN更适合处理文本的长距离依赖性。
LTSM(长短期记忆网络)是RNN的改良版本——但也没有解决传统RNN无法并行计算的问题。
这时Transformer踏着七彩祥云出现了,在处理每个词的时候,会注意输入序列里所有其他的词,
给予每个词不一样的注意力权重,从而捕获依赖关系和相关性。
Transformer有自注意力机制和位置编码(语言的顺序很重要)
序列:按照特定顺序排列的元素
位置编码:包含位置向量和词向量
注:编码器和解码器都不只一个而是N个,且都有多头注意力层(且解码器与编码器的多头注意力层不一样——带掩码的多头自注意力)。
(这个图有点复杂,仅个人存档用)
解码器还包含线性层和Softmax层,它们俩加一块的作用是把解码器的输出转化为词汇表的概率分布(代表下一个被生成token的概率)。
后续出现的变种:
1)仅编码器——如BRET模型,用于理解语言,比如掩码语言建模、情感分析等;
2)仅解码器——如文本生成
3)编码器-解码器——如T5、BART模型,比如翻译、总结等
4、其他概念科普
1)SFT模型——监督微调(Supervised Fine-tuning)
2)奖励模型——基于3H原则打分。
3)小样本提示——提示词给出样例样本
4)思维链——谷歌在2022年一篇论文提到思维链可以显著提升大语言模型在复杂推理的能力(即有推理步骤),即使不用小样本提示,也可以在问题后面加一句【请你分步骤思考】
5)RAG——检索增强生成Retrieval-Augmented Generation,外部知识库切分成段落后转成向量,存在向量数据库。
用户提问并查找到向量数据库后,段落信息会和原本的问题一块传给AI;可搭建企业知识库和个人知识库。
6)PAL——程序辅助语言模型Program-Aided Language Model,2022年一篇论文中提出;比如对于语言模型的计算问题,核心在于不让AI直接生成计算结果,而是借助其他工具比如Python解释器作为计算工具。
7)ReAct——2022年一篇《React: 在语言模型中协同推理与行动》的论文提出了ReAct框架,即reason与action结合,核心在于让模型动态推理并采取行动与外界环境互动。比如用搜索引擎对关键字进行搜索,观察行动得到的结果。可借助LangChain等框架简化构建流程。
个人总结:看很多大佬的发言,都说要关注或直接阅读技术论文,比如产品经理转型AI产品经理,也需要懂技术脉络。而小白直接看技术论文还是有难度,虽然现在可以让AI辅助阅读,不过还是要完成一定的知识储备。而林粒粒呀的这期视频是一个很好的科普入门,欢迎大家给她点赞。
二、视频二——技术框架与关于未来的想象
写在前面:我之前对安克创新的印象就是一个卖充电宝的公司,还有卖安防设备;但看了这期访谈,被CEO阳萌的认知震撼了,很多观点对我有启发,强烈建议看原访谈视频。
1、观点——Transformer是仿生算法的阶段性实现,10年、20年后大家将不再用TA
2、观点——在端到端算法的时代,不应该继续使用冯诺依曼架构。
3、在存算一体(在存储单元里做计算)的芯片之上,一定会诞生一种全新的算法。
说明——对比人脑,我们用一碗米饭或者用一顿饭就可以支撑我们半天的工作或者大量的脑力消耗,不需要去花几千度电或者是上大量的能耗才能完成,所以使用存算一体的方式是未来AI硬件下一步的发展趋势。
运行一个几百亿个参数的大模型最好的架构一定是存算一体的架构,因为它避免了所有的数据的搬运。
4、现在大模型在通用知识方面很强,但对专业领域知识一无所知。怎么把领域知识结合进大模型里面去——这个是阻碍大模型更大规模应用的最关键的问题。
5、把大模型和你的私域知识结合的5种方法:
按对模型改造侵入性划分,可以从左到右分为:
重新训练——微调——RAG——关键词工程
- 重新训练(拿私域数据重新训练大模型)
- 微调(拿私有数据fine-tuning大模型)
- RAG(将知识库里的知识搜索送进大模型)
- 关键词工程(写好提示词)
- 加长Context——当Context能无限长的时候,理论上讲可以把关于你的知识和记忆都prefill到Context里边去;
好,我们今天看到了5种解法,下面就问哪一种是最有希望的?
留在桌子上的只有长Context和RAG两个选项。
学术界有两派人,很有意思的是,做深度学习的人,大家好像偏向于用RAG;
以前做过搜索的人(了解搜索有哪些坑),大家会偏向于用Long Context~
我(阳萌)认为最后还是走一个仿生的方法——有一个足够长的Context(举了谷歌的一篇论文infinite context transform,不需要把Context做太长,可以把以前可能需要被扔掉的token深度压缩后依然保存在Context里)
这就引发一个很有意思的探讨,假设现在已经有东西能保存你的一段记忆(或者说你的喜好、所有经验记忆),类似哈利波特的记忆瓶子,你是否愿意?
其实手机特别适合干这个,在手机上部署一个sensor(传感器),收集声音视觉等信号,就能在本地产生一个这样的Context,你是愿意这个Context在你手机本地上面呢,还是你愿意把这个Context upload到云端去?
我(阳萌)赞成把一个训练好就不动的模型部署在端侧(也就是我的手机或家庭计算中心),记录我所有知识和记忆的Context一定不能跑到云端,它只能存在于我的端侧(哈利波特里面记忆必须放在小瓶里,严加看管)。
想明白这个问题,再来看马斯克与OpenAI和苹果的争论,就能理解了。
访谈后面谈到安克创新和阳萌理解的创造者的特质,也很值得一看。
总结来说就是抛开表面事实,回归基础原理,找到突破关键。
求极致——追求长期全局最优解(对应机器学习概念中的全局最优和局部最优)
最后是相信长期主义,持续学习,自我觉察和自我进化。
最后总结——世界是参差的,唯有持续学习能抵御未来的变化。
视频链接:
1、【包教包会】一条视频速通AI大模型原理_哔哩哔哩_bilibili
2、用大模型保存你的全部人生,你会接受吗:专访安克创新CEO阳萌 | 大咖谈芯第11期_哔哩哔哩_bilibili