跳转到内容

邬嘉文:大模型应用层

💡

作者:Garman嘉文

原文:https://mp.weixin.qq.com/s/b7Cctfgb4w5LCCBrSYIlrg

Transformer决定边界

在CES 2024,李飞飞在争论LLM和AIGC名称不能混用,吴恩达觉得在公众传播没关系。李飞飞觉得难以接受,个人猜测是它模糊了大模型的本质。

在公众传播层面:

  • AIGC:指用Stable Diffusion或Midjourney生成图像内容,后来泛指用AI生成音乐、图像、视频等内容。
  • LLM:指NLP领域的大语言模型,如ChatGPT。
  • GenAI:生成式人工智能模型,国内官方政策文件使用这个词相对科学,涵盖了LLM和AIGC。
  • AGI:指通用人工智能,部分人觉得LLM具有AGI潜力,LeCun反对。

公众传播一般会混用上述名词,但底层是transformer结构。

(stable diffusion原采用LDM+UNet,后来改为DiT)

而transformer底层是function loss损失函数

  • Transformer是一个大参数(千亿级别)的回归方程。
  • 回归方程的Function loss拟合A to B mapping关系,实现数据集的压缩与还原。
  • Transformer是在一定prompt condition情况下,repeat曾经出现过的数据内容,实现“生成”能力。
  • 大语言模型的智能体验在两个数据集压缩后,能解释两个数据集之间地带的“连续”能力。(Ilya)

所以大语言模型是一个perfect memory,repeat曾经出现的内容。它与Alpha Go差异:

  • Alpha Go是一个增强学习模型,学习结果会调整模型自身参数
  • Alpha Go有推理能力,但大语言模型这块很弱。
💡

Transformer决定LLM是一个生成式模型。

先看工具框架再算AI价值

投资者曾经认为在基座模型基础上有应用层机会和产品,行业人员反馈说Model as an application,模型本身就是应用。更严谨的说法是,生成式模型能解决一系列任务,而这些任务价值由生成场景(value)、生成效率(cost)构成。

AIGC场景

构建元素

应用

商业价值

工程门槛

代表作

视频制作

剧本、分镜、旁白、音乐、字幕

语音翻译、嘴部控制、表情控制

物体一致性

视频生成

虚拟人(Heygen)

⭐️⭐️⭐️⭐️⭐️

⭐️⭐️⭐⭐️️⭐️

SORA

图片设计

Lora

Prompt

Controlnet

Seed一致性控制

商品拍摄/海报设计

虚拟模特/服装设计

室内设计

个人写真

⭐️⭐️

⭐️⭐️

妙鸭相机

图文撰写

视频

图片

感想Prompt

位置、时间

抖音:视频+音乐+旁白+字幕

小红书:图片+攻略

公众号:图片+文章

会议总结:思维导图+数字/名称

⭐️⭐️

⭐️

NLP场景

输入

应用

商业价值

工程门槛

代表作

代码编程

前端:交互界面 prompt

后端:功能PRD

环境:自动配置+ReAct

Vscode + Copilot

Android studio + ?

HTML + ?

⭐️⭐️⭐️⭐️⭐️

⭐️⭐️⭐️⭐️

Devin

指令控制

Input

  • 语音/按键/视觉唤醒

Tools

  • Function call 3rd API
  • CodeInterpreter
  • Sandbox+ReAct

室内场景:智能音箱

室外场景:XR 眼镜

车载场景:NOMI

⭐️⭐️

⭐️⭐️⭐️

One

Interpreter

情感表达

Character

  • 人格设定(assistant)
  • 情绪识别

Embodiment

  • 动作:舵机控制+支架+电力
  • 表情:ASCII码
  • 语音:TTS+语调

虚拟游戏:Character.AI

小机器人:AIBI,LOOI

⭐️⭐️

⭐️⭐️⭐️

Character.AI

知识问答

RAG

  • Web Search
  • Knowloedge:SQL+Vector BD+Graph
  • Reranker
  • Crag

Finetune

多模态GPT4V

研究助手(Consensus)

客服助手

医生助手

律师助手

⭐️⭐️⭐️

⭐️⭐️⭐️

所以生成模式应用层价值评估标准是:先场景,后AI。

  1. 生成工具(编程、视频制作、写真拍摄等)场景价值
  2. 生成工具能否有场景数据,Finetune基座模型

以Build Android App为例,这是一个高门槛高价值的工作。高门槛体现在涉及Java,XML,OpenCV,Gradle等专业性,各个版本有各种默认值,又有各种冲突。假如能拿最新的android工程代码去finetune基座模型,将会提高整个android工程编写效率,大大降低APP开发成本。

留意是否过度包装

Agent智能体

Agent是实现特定功能人工智能个体,多个Agent形成一个workflow。但

  1. AI模型本身有误差,多个模型协作会出现累计误差。
  2. Agent的ReAct并没有学习能力修正误差,成功经验没有调整模型参数(如建立Qlora)。每次执行都是重新开始试错,效率低下。

新交互范式

手机界提到ALL IN AI,新能源汽车提到汽车大模型,XR行业提到AI+XR新交互方式,就要留意是否过度包装。它们是利用生成式模型什么能力?目前我了解到

  • 手机通话中同步翻译(三星S25手机)。
  • 新能源汽车用到语音交互+function call能力,便捷调用第三方API。
  • AI+XR用到是GPT4V和语音交互能力。
  • 甚至出现新的Form factor,例如Rabbit R1,AI Pin。

这些能力都一定程度上优化交互效率,非革命性突破。LLM通过function call转为指令再去执行甚至ReAct,效率还是蛮低。在视觉层面,Gaussian Splatting的空间重建 + RL增强学习,个人觉得更有意思。

AI可以改变硬件形态,但可能不是transformer。