跳转到内容

中国大模型面临的真实问题:登顶路远,坠落一瞬

“现在的国内大模型和 AI 创业公司就是在走钢丝,稍微不注意就万劫不复”。

这句话是我在看完十一财经那篇《中国大模型产业的五个真问题》后的内心独白。

虽然我现在已经转向研究领域,但这篇文章可以说是振聋发聩,今天我想借着这篇文章的部分内容讲一讲之前我看到的,听到的真实现象,讲讲行业内一些鲜为人知的故事。

一、从 "超级烂车"到"超级跑车"

人工智能在 2023 年掀起了惊涛骇浪。OpenAI 推出 ChatGPT 后,中国科技界迅速做出反应。短短几个月内,中国公司如雨后春笋般推出了自己的大语言模型。到 2023 年底,这个数字已经突破 130 个,展现了中国在 AI 领域的雄心和实力。

然而,回溯 ChatGPT 问世之前的科技格局,我们会发现一个有趣的现象:产业界和投资界对 OpenAI 的前景普遍持怀疑态度。这种普遍的质疑声并未动摇 OpenAI 的决心。他们坚持自己的方向,最终用实际成果证明了自己的远见。

过去,大模型研发的低迷常被归因于结果的不确定性。然而,ChatGPT 的横空出世彻底改变了这一局面。如今,大模型的潜力已经得到了充分证实,各大公司纷纷加大在算力、数据和人才方面的投入。

中国企业向来以工程优化见长。这种优势让许多人对国内大模型的快速应用充满期待。他们认为,能够实际落地的大模型产品指日可待。但现实是否如此简单?

回顾 OpenAI 的发展历程,我们会发现一个关键因素:坚定的方向。对 OpenAI 而言,大模型从未是一个摇摆不定的选项,而是一条笔直的道路。他们将大部分资金投入到算力上,尤其是在英伟达 A100 芯片价格相对较低的时期。这种前瞻性的投资策略,为他们后来的成功奠定了基础。

这种做法让人想起了亚马逊创始人杰夫・贝索斯的一句名言:"发明需要长期思维。"OpenAI 的成功不仅仅是技术的突破,更是战略眼光和长期投入的结果。

OpenAI 的成功背后,是一场惊人的资源调动。根据第三方数据机构 Sami Analysis 的估算,OpenAI 的硬件配置令人瞠目结舌:约 3,617 台 HGX 100 服务器,搭载近 3 万块英伟达 GPU。这个数字足以让任何科技爱好者心跳加速。

然而,这仅仅是冰山一角。投资方微软的支持更是锦上添花,为 OpenAI 量身打造了定制化的算力集群,进一步提升了 GPU 的效率。这种深度定制化的 Approach,犹如为一辆超级跑车配备了专属的赛道。

在数据方面,OpenAI 的投入同样令人惊叹。从数据收集、标注、清洗、整理到优化,每一个环节都得到了持续而深入的关注。人才方面,OpenAI 汇聚了一批来自顶尖科研机构和科技巨头的精英。这支梦之队的组建,仿佛是在为 AI 领域的 "登月计划" 招募宇航员。

然而,即便有如此雄厚的财力、实力和持续的投入,OpenAI 仍然用了超过 8 年的时间才打造出突破性的产品 GPT-4。更值得注意的是,即便是如此先进的系统,仍然面临着幻觉问题这一难以彻底解决的挑战。

但是,有一个令人困惑的现象引起了广泛关注:为何中国公司能在短短几个月内推出据称可与 GPT-4 匹敌的大模型?这种 "神速" 背后,究竟是技术的突飞猛进,还是另有隐情?

二、“你不套,有的是人套”

让我们从模型本身这个问题开始剖析。

2023 年下半年,一个不容忽视的事实浮出水面:部分声称性能卓越的中国大模型被揭露为 "套壳" 产品。这些模型实际上是直接采用了国外的开源大模型,经过简单包装后就宣称具备与 GPT-4 相当的能力。在一些评估大模型能力的榜单上,这些 "套壳" 模型往往名列前茅,多项指标甚至接近 GPT-4 的水平。

更令人深思的是,一个奇怪的现象开始显现:在这些榜单上,模型的表现越好,被证实为 "套壳" 的可能性就越高。稍加调整,这些模型的性能就会显著下降。然而,"套壳" 问题仅仅是中国大模型产业现状的冰山一角。这个现象揭示了更深层次的问题:在追求快速结果的压力下,一些公司选择了捷径,而非踏实的技术积累。

2023 年 11 月,一个引人注目的事件震动了 AI 圈:李开复创办的 "零一万物" 被国外开发者质疑为 "套壳" 产品。他们指出,该模型疑似只是对开源模型 Llama 进行了简单的重命名。这一指控如同一颗重磅炸弹,引发了广泛的讨论和反思。

面对质疑,李开复和 "零一万物" 团队迅速做出回应。他们承认在训练过程中确实沿用了开源架构,但强调这只是为了快速起步,进行充分的测试和对比实验。他们坚称,其发布的模型都是从零开始训练的,并进行了大量原创性的优化和突破。

继“零一万物”之后,12 月,一则震惊业界的消息传出:科技巨头字节跳动被曝出在其秘密研发的大模型项目中调用了 OpenAI 的 API,并使用 ChatGPT 的输出数据来训练自己的模型。这一行为,恰恰触犯了 OpenAI 使用协议中明确禁止的条款。

OpenAI 的反应迅速而坚决。他们立即暂停了相关账号,并表示将进行进一步调查。如果指控属实,OpenAI 可能会要求字节跳动更改其做法,甚至可能终止其账户。这种严厉的态度,展现了 OpenAI 对其技术和知识产权的坚决保护。

面对这一指控,字节跳动的回应颇具策略性。他们承认在 2023 年初,技术团队在大模型探索的初期确实有部分工程师将 GPT 的 API 服务应用于较小模型的实验性项目研究中。然而,他们强调这个模型仅用于测试,从未计划上线或对外使用。更重要的是,字节跳动表示,自 2023 年 4 月公司引入 GPT API 调用规范检查后,这种做法就已经停止了。

其实,不光是这些在 23 年披露出来的国内事件,在 24 年也有更多被指“套壳”国内大模型的事件,比如说斯坦福大学 AI 团队主导的 Llama3-V 开源模型,被证实套壳抄袭国内清华与面壁智能的开源模型。这些现象其实背后都指向了大模型的建设方式。

在这里,我们粗浅地将大模型的建设方式分为三类:

  1. 第一类是原创大模型。这类模型就像是 AI 世界中的 "独角兽",稀少而珍贵。创造原创大模型需要强大的技术积累,同时还需要持续的高投入。然而,这条路充满风险。正如马斯克所说:"当某件事情足够重要时,即使概率对你不利,你也要去做。" 原创大模型的开发者们正是秉持着这种精神,在未知的领域不断探索。但是,一旦模型未能展现出足够的竞争力,这些大规模的投入就可能付诸东流。
  2. 第二类是套壳开源大模型。这种策略反映了一种务实的发展路径,利用现有资源快速迭代和改进。在这条“赛道”上,需要思考如何在借鉴中实现真正的突破和创新。
  3. 第三类是拼装大模型。这种方法将过去的小模型拼接在一起,形成一个参数量看似很大的大模型。这种策略体现了一种独特的创新思维,试图通过整合已有资源来实现质的飞跃。然而,正如系统理论所示,整体的性能并不仅仅是各部分的简单相加。

在这三类模型中,原创大模型的数量最少,也最具挑战性。它们需要强大的技术积累、持续的高投入,以及面对巨大风险的勇气。然而,当市场上已经出现了足够好的基础大模型时,其他公司应该转向挖掘新的价值点。比如,探索大模型在不同领域的应用,或者开发中间层服务,如训练、数据处理、算力服务等。但现实是,大多数参与者仍在追逐所谓的原创大模型,又担心风险太高,导致大量套壳和拼装大模型的出现。

事实上,无论是直接使用开源大模型还是拼装大模型,只要符合相关规范,都是可以接受的。在商业化落地时,客户往往更关注实用性而非原创性,有时甚至会因为成本较低而更倾向于选择非原创技术。可问题在于,即使是拼装和套壳,许多公司仍不断强调自己是原创的。为了证明这一点,他们不断进行调整和修改,这反而影响了大模型的迭代能力,逐渐陷入内耗、刷榜和作假的境地。

三、是真的被“卡脖子”,还是不想换条“新领带”?

大规模算力投资带来的重大问题是:它会使公司转变为重资产模式。这种转变就像是一艘灵活的帆船突然变成了一艘庞大的油轮,虽然力量增强,但失去了灵活性。在当今瞬息万变的科技市场中,这种转变可能会对公司的估值产生不利影响,进而直接影响投资人的收益。

尽管美国政府实施了“卡脖子”策略,但对中国公司而言,获得英伟达的算力并非完全不可能。光我自己听说的渠道就多达好几种。然而,无论选择哪种方式,获得高端 GPU 都是一项巨大的投资。除了 GPU 本身的高昂价格外,后续的部署、运营、调试和使用都将产生可观的成本。这么看,高性能算力的获取和使用,无疑是一项需要深思熟虑的重大决策。

有意思的是,这两年中国的 AI 投资圈出现了一种有趣的现象。许多投资人会直接告诉大模型的创业者一个看似矛盾的策略:

  1. 招募名校背景的人才
  2. 迅速组织产品发布会
  3. 推出大模型产品
  4. 进行下一轮融资
  5. 避免购买算力

其实从上面的做法中就不难看出,在很多创业公司、创始人面前都摆着一个两难的选择:是否应该承担高昂的算力投入风险?还是应该包装自己,不断推高自己的估值?

在现实情况中,大多数创业公司都选择了规避算力风险,抬高估值。但这个看似明智的决定却可能成为他们在大模型领域突破的绊脚石。因为这种做法让人想起了 17 世纪的荷兰郁金香泡沫。当时,人们疯狂投资郁金香球茎,推高价格,希望在泡沫破裂前获利。在 AI 领域,我们似乎正在经历一场类似的 "估值泡沫"。然而,正如每个泡沫最终都会破裂,AI 的风口期也不会永远持续。当风口过去,公司面临继续融资或上市的需求时,真实的收入将成为关键指标。

在这种背景下,我们经常听到业内人士抱怨被 "卡了脖子"。但这里出现了一个发人深省的问题:究竟是被他人卡住了脖子,还是我们自己不愿意 "买条新领带"?

四、“超级跑车是好看,可它费油啊!”

另一个关键问题是能耗。

接触过模型训练的人应该都知道,想练出一个好模型是超级费卡费电的,所以能耗也是一个拦路虎。假设,我们面前有一台由 8 张 A100 GPU 组成的 DGX 服务器。这台服务器就像是 AI 世界中的 "超级跑车",性能强劲,但 "油耗" 惊人。它的最大功率达到 6.5 千瓦,这意味着运行一小时就会消耗 6.5 度电。然而,这仅仅是开始。

让我们来做一个具体的计算:

  • 假设工业用电的平均价格是每度 0.63 元。
  • 一台服务器(包括散热)每小时消耗约 13 度电。
  • 如果这台服务器 24 小时不间断运行,每天的电费约为 200 元。

现在,让我们将视野扩大到一个大规模的 AI 研究中心或大型科技公司:

  • 如果有 1,000 台这样的服务器同时运行,每天的电费将达到惊人的 20 万元。

对于大多数 AI 创业公司来说,大规模购买和部署 GPU 就像是攀登珠穆朗玛峰:看似令人向往,实际上充满风险和挑战。但在瞬息万变的 AI 领域,长期大规模投资可能会成为公司的致命弱点。没准下一波海浪就会把他们拍死在沙滩上。

然而,就像每一个挑战都孕育着机遇,GPU 资源的稀缺也催生了新的解决方案。云服务平台如阿里云、腾讯云和亚马逊 AWS,这些基础设施提供商建立的 "算力集市",为 AI 公司提供了一个灵活的选择。在这些平台上,公司可以直接租用算力服务,而不必承担购买和维护的全部成本。

然而,即使是租用模式,许多大模型公司也对大规模算力投入持谨慎态度。这种谨慎背后隐藏着两个深层次的问题,这些问题已经成为 AI 投资圈的 "公开秘密":

  1. 无止境的投入:就像是一个永不满足的黑洞,算力投入似乎没有上限,也没有终点。这种情况让人想起了希腊神话中的西西弗斯,永远推着巨石上山,却永远无法到达顶峰。
  2. 不可预测性:没有人能准确预测需要投入多少算力才能达到预期的效果。这种不确定性增加了项目的风险,也给投资决策带来了巨大挑战。

五、"你有我也有"

接下来,让我们把目光转向数据这个同样关键的要素。

在人工智能的世界里,数据就像是原油,而高质量的数据则是精炼后的汽油。虽然 OpenAI 训练大模型所用的中文数据也源自中国的互联网平台,但他们在数据处理上的额外努力,就像是将粗糙的原石打磨成璀璨的钻石。这种数据质量的提升,远非简单的数据标注工作所能企及,而是需要一支专业团队进行深度的数据清洗和精细整理。

然而,在中国的 AI 创业生态中,高质量的数据处理服务就像是稀缺资源。在国内,数据获取的门槛相对较低,这看似是一个优势。然而, 虽然数据获取容易,但高质量数据的获取却是另一回事。国内的大模型主要以中文数据为基础,这看似是一个自然的选择。但业内普遍认为中文互联网数据的质量相对较低。这种情况让人想起了信息论中的 "垃圾进,垃圾出" 原理。如果输入的数据质量不高,那么即使有最先进的算法,输出的结果也难以令人满意。

这个现象在 IT 从业者的日常工作中得到了印证。当需要搜索专业信息时,他们往往会首选 Google、arXiv 或 Bing 等国际平台,而不是国内的搜索引擎。

那么,可能有人会想:“那我买点优质数据不就完了吗?”但对于许多公司,尤其是初创企业来说,这笔投入看似是一个风险过高的赌注。更不要考虑到找到一个好的数据供应商是万里挑一的概率了。这个风险,创业公司很难担的起。如果大规模投入后,模型效果不如预期,那么这笔投资就像是泥牛入海。因此,许多公司选择了一条看似更安全的路径:直接使用开源数据进行训练,然后匆忙召开发布会。

更有意思的是,在国内的 AI 领域,这份 "黄金" 似乎变成了一个难解的谜题。正如一位大厂 AI 线的负责人所言,"在中国,你能拿到的数据,别人也能拿到。"

这个现象产生了一个悖论:如果一家公司投入巨资打造高质量数据集,其他公司可能会以极低的成本获取类似的数据。反之亦然。这种情况就像是在一个没有知识产权保护的市场中进行高科技研发,既打击了创新的积极性,也阻碍了整个行业的进步。

在国际舞台上,我们看到了像 Scale AI 这样的数据处理独角兽企业的崛起。这些公司的成功证明了高质量数据处理在 AI 领域的重要性和商业潜力。然而,在中国,数据加工清洗的工作往往被低估,就像是被忽视的 "幕后英雄"。

最终,创业公司又开始面临两难选择:是追求高质量数据而承担高昂成本,还是选择低成本投入而牺牲数据质量?这种困境就像是在钢丝上行走,一边是质量的深渊,一边是成本的悬崖。在这种情况下,模型调优这个本应是 AI 发展核心的环节,反而成了可望而不可及的奢侈品。

六、谁来接盘?

这些问题的根源,或许可以追溯到一个更深层次的问题:资本的短视。尽管 OpenAI 已经为大模型发展趟出了一条明确的道路,但对于绝大多数公司来说,从零开始打造一个成熟的大模型仍然需要巨大的时间和资金投入。这就像是在科技领域重演了 "罗马不是一天建成的" 这句古老谚语。

中国投资人的耐心通常只有 3-5 年,这不是个人选择,而是整个资本运作模式决定的。这就像是一场有时间限制的马拉松,投资人必须在规定时间内完成比赛并取得好成绩。他们从有限合伙人(LP)那里募集的资金需要在固定年限内退出,并且要实现可观的收益。这种模式就像是一把双刃剑,既推动了创新,也可能导致短视。

投资人的退出渠道主要包括项目并购、上市,或在后续融资中将股份卖给新投资方。这就像是接力赛跑,每个投资人都希望在最佳时机将接力棒传递给下一位跑者。早期融资可能依靠风口和讲故事,就像是用美丽的泡沫吸引投资者。但是,当项目进入中后期甚至准备上市时,就必须展示实质性的商业化能力。

但是在国内,虽然在 C 端市场上也推出了许多大模型产品,但迄今为止,多数产品仍旧在用免费策略培养自己的用户群体,所以眼下来看更赚钱的则是做 B 端的定制化项目。但这条路径上最大的客户是政府和国企,这些客户对于减少人力方面是持相当保守的态度。更不要提现在的模型本身就有“幻觉”,在很多方面本就有先天不适的缺陷(比如涉及生命与财产安全的场景),进一步缩短了 B 端大模型的落地场景。

卷又卷不过,舔又舔不上。

以上种种,决定了创业公司很难实现爆炸性的收入增长。因此,投资人往往选择在风口还在的时候,迅速推动公司完成多轮融资,抬高估值,然后即使打折出售手中的股份也能获利。

这也解释了为什么 2023 年大模型相关的发布会层出不穷,各种大模型榜单百花齐放,而且排名各不相同,表面光鲜亮丽,实际上可能掩盖了一些根本性的问题,一旦投资者认可了其“价值”,那么他们就成为了下一个“价值投资的赢家”。

七、 最后

历史总是惊人地相似。几年前,曾经的 "AI 四小龙" 风光无限,如今的大模型创业热潮,不过是将过去三年的剧本压缩到一年内重演。回首过去,我们经历了各种泡沫,而这一次还会是泡沫吗?但愿我们学懂了黑格尔的那句话:

"我们从历史中学到的唯一教训,就是我们从不吸取历史的教训。"

我只能祝愿国内大模型和创业公司们越来越好。

以上。