大模型混战这一年:进化之赛、效率之争、落地之战
日行千里,烈火烹油的两年过去,飞速发展的大模型行业怎么样了?
与两年前“百模大战”为技术争夺的景象不同,玩家们有两个速度之争:一是技术迭代和产品更新的速度,二是商业化赚钱和应用落地的速度。
技术和产品的迭代很直观,直接推动大模型行业的百舸争流。从语言大模型,到文生视频大模型,再到3D生成大模型,几乎每隔几个月就会有让人眼前一亮的大模型出现。
大家都在尝试和摸索。每一次技术的扩大亮相,都会将具有前瞻性的大模型厂商推到聚光灯下,并引发新一轮的行业追随。
有人*,就有人追赶。这些尚未成熟的技术,给了探路者弯道超车的机会,也带来了商业化的压力。
尤其是进入今年下半年,整个行业的风向更加微妙。市场逐渐对大模型祛魅,资本也回归理性,行业的两股势力也发生了站位的转换。
一边是阿里、字节等巨头投入的动作明显加快,收编大模型创业公司的核心人才,推出一系列AI产品;一边是创业公司开始重新评估自身的路线,国内“AI六小虎”有两家逐步放弃预训练模型,业务重心转向AI应用。
这背后,直指行业第二个速度之争:商业化的效率。
毋庸置疑,当下的大模型赛道高度拥挤,随着算力成本上涨、算力分配有限,对创业公司而言,大模型这场战役时间线拉得越长,创业公司的压力就越大。
“AI大模型,将只剩下10家企业扮演重要角色。”中国工程院外籍院士张亚勤曾表示。这几乎是行业的共识,最后的胜利属于少数的玩家。
大模型最终会进化成什么样,还不确定,但可以确定的是,大模型浪潮下,技术仍在迭代,场景仍在惊艳,商业化也始终在探索的路上。
过去两年,大模型不缺惊艳时刻,行业也处于百家争鸣的阶段,无论是暂时*的玩家,还是奋力追赶的玩家,都有机会在奔跑中,抢到更多的蛋糕。
01
3D世界、自主 Agent、
思考大模型……大模型惊艳迭代
从ChatGPT的惊艳亮相开始,新一轮的AI浪潮整整奔涌了两年。AI想象力被重启,大模型站上C位,围绕大模型的讨论和尝试也爆发式增长。
大模型的终局是什么样的?这一问题的答案吸引众多玩家前赴后继地卷技术、卷应用。
根据lifearchitect.ai数据,截至目前,全球总共有467个大模型。新技术不断涌现,行业竞速赛愈演愈烈,大模型厂商都在不断迭代升级,旨在离AGI更进一步。
进入到今年,除了应用上的百家争鸣,一个明显的变化在于,以ChatGPT为代表的大语言模型局限性日益显现。比如,他们只能处理文本领域的任务,无法与物理和社会环境进行互动;虽然大模型语料库已经十分丰富,但关于人类的价值观的文本,他们并不具备理解能力……
技术被重构,大模型行业也在不断改进和进化中,行业在寻找下一个更“类人”的模型或应用。
北京时间12月3日,“AI教母”李飞飞创立的World Labs推出最新成果:世界模型,一张单个图像即可生成3D世界。
以往,我们熟知的大多数GenAI工具仅能制作图像/视频2D内容。World Labs则实现了在3D中生成,视频的控制性、一致性能得到改善。World Labs称,他们所生成场景的独特之处在于它们具有交互性,而且是可修改的。
这是今年9月份创立World Labs以来,李飞飞团队推出的*成果,也是其迈向空间智能的*步。早在成立之初,李飞飞团队瞄准的就是空间智能,其初衷就是空间智能的AI,能够对世界进行建模,同时根据3D时空中物体/地点/交互进行推理。
李飞飞的个人影响力,加之空间智能的想象力,World Labs成立三个月,有消息称其估值达10亿美元。
两天后,北京时间12月5日,Google Deepmind紧随其后发布了最新基础世界模型Genie 2。作为今年初推出的Genie模型的升级版,Genie 2只需要一张图就能生成可玩的AI系统。DeepMind透露,Genie 2具备从不同视角生成连贯世界的能力,这些生成的世界可持续时间长达一分钟,尽管多数情况下维持在10到20秒之间。
如果说世界模型展现的是模型理解虚拟世界运作规律,并准确做出预测的能力,那OpenAI今年9月推出的o1系列模型则在于会思考。
彼时,OpenAI CEO奥特曼对o1信心满满,“我认为这次 o1 模型发布最重要的信息是,AI 发展不仅没有放缓,而且我们对未来几年已经胜券在握。”
与GPT系列模型不同,o1系列模型有更强大的“思路链”,模型会在思考后回答用户问题,输出高质量的内容,而非迅速回应无效回答。此外,o1系列更擅长推理,推理能力大幅提升,特别是在奥数、编程等领域展现出了优势。
行业风向标的新动作,引发国内大模型厂商的追赶。11月16日,月之暗面公布了k0 math;11月20日,Deepseek上线DeepSeek-R1-Lite大模型;11月27日,昆仑万维推出“天工大模型 4.0” o1 版……无一不在强调大模型的逻辑思考能力。
无论是哪种路线的大模型进化,都让人类离AGI更进一步。
其中,在应用层面,今年还有一个趋势不能忽视,人类与机器的互动方式正在发生范式转变,拥有对话功能的GPT逐渐进化能行动的AI Agent。
市场研究机构 Research and Market在11月11日发布的报告中指出,未来五年AI智能体的市场规模将增加420亿美元。麦肯锡也表示,AI智能体将是生成式AI的下一个前沿。
具体到玩家的动作上,“有手、有脑、有眼睛”的AI Agent成为玩家抢滩的对象。
10月份,作为最早探索Agent的初创企业智谱,推出自主智能体AutoGLM ;一个月后的Agent OpenDay上,智谱展示了AI Agent的最新成果,包括AutoGLM、AutoGLM-Web、GLM-PC三个版本,对应手机、浏览器、电脑的应用场景。
新升级的AutoGLM能够理解超长指令,执行超长任务,在多步、循环任务中,AutoGLM的速度表现超过人手动操作。可以预见的是,当技术足够成熟,一个Agent就能帮助人操控一切。
此前,微软Ignite大会上,微软宣布已建立全球规模*的企业级AI Agent生态系统;前OpenAI高管创办的初创公司Anthropic推出名为Claude的AI智能体;OpenAI被传出将在2025年1月发布代号为Operator的智能体。
在国内,智能体也百花齐放。一边是手机厂商开始拿出智能体、智能助力讲故事;一边是巨头下场做智能体。比如字节跳动的扣子、腾讯云的腾讯元器、百度智能云千帆AgentBuilder、阿里云大模型平台百炼、……
这一年,大模型不缺惊艳时刻。会思考的大模型、会想象的大模型、会预测的大模型,站在大模型技术的潮头,走向AGI的路上,更惊艳的产品迭代一直在发生。
02
AI视频,新的角逐中谁都不甘落后
时间回到今年2月,行业军备竞赛持续一年,OpenAI再次将大模型行业推至高潮。OpenAI以世界模拟器的名号发布了视频生成模型 Sora,让“一句话生成视频”变成可能。
行业的加速器来自Sora。追赶Sora、超越Sora,几乎成了海内外大模型玩家的共识。
在海外,今年5月,谷歌发布对标Sora的文生视频模型Veo;6月,Luma推出Dream Machine视频生成模型,AI视频生成初创公司Runway推出Gen-3 Alpha模型。
将视角放到国内,玩家们为“中国版Sora”争先恐后,催生两轮爆发期。
先是今年5月开始,生数科技Vidu、快手可灵、字节即梦、智谱清影、商汤Vimi等都相继发布文生视频模型。
今年9月,国产视频生成大模型又迎来了新一轮爆发。MiniMax正式发布视频模型video-01、阿里云在云栖大会上发布通义万相全新视频生成模型、美图宣布MiracleVision大模型完成视频生成能力的升级。
今年11月,腾讯混元大模型正式上线视频生成能力。目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。另一边,月之暗面旗下Kimi被爆出正在内测AI视频生成功能“Kimi创作空间”,可通过12种预设风格模板和自定义创作功能,为用户制作个性化音乐视频。
两轮爆发期间,随着初创企业和巨头的入局,AI视频赛道正变得拥挤。更关键的是,经过上半年密集发布新产品的阶段,想要在竞争中突出重围,行业的比拼从“有没有”升级为“好不好用”。
为了变得好用,升级更新是玩家们的统一动作。在国内,动作最快的莫过于有视频基因的快手和抖音。
截至今年9月,快手可灵经历了十次迭代升级。目前,在可灵1.5模型的支持下,可灵AI可以直出1080p高清视频,挑战大屏清晰度与质感。在图生视频方面,可灵1.5模型可以响应更复杂的文本描述要求。此外,可灵AI还支持运动笔刷、对口型等功能。
同为视频赛道的字节,与快手正面交锋。今年一季度,字节AI研发团队将视频生成模型的优先级排在前列。3月底,即梦开启视频生成功能内测;9月,字节发布豆包模型家族的两款视频生成模型Seaweed和Pixeldance,并通过即梦AI、火山引擎小范围邀测。
相比于之前的视频生成模型大多只能完成简单指令,字节的这两款模型能让视频在大动态与运镜中自由切换,拥有变焦、环绕、目标跟随等多镜头语言能力,能更好地服务在视频、电影领域的专业创作者。
11月,Seaweed面向平台用户正式开放。据字节方面介绍,本次开放使用的豆包视频生成模型Seaweed是该款模型的标准版,仅需60秒即能生成时长5秒的高质量AI视频,*国内业界3至5分钟的所需生成时间。
从底层技术看,AI视频赛道玩家的路线基本一致,即采用Transformer架构的新型扩散模型DiT,进行相关扩散、生成的技术突破。也就是说,玩家更多是通过训练数据丰富产品功能。
这也是字节、快手在AI视频赛道跑得更快的原因。“Sora们”切入的60s视频正是字节、快手的基本盘。在短视频生态下,二者有丰厚的视频土壤滋养,这种视频数据的训练,正是推动大模型“好用”的关键因素。
历经近一年,国内文生视频大模型赛道进入了Sora时刻。AI视频大模型的生成能力迈入新阶段的同时,我们也要看到行业的焦虑。
从实际落地层面上看,如果是B端商业生产,短剧、电影、广告对画面的连续性、一致性要求很高;如果是C端用户娱乐,对AI生成的*要求是真实性。
需求倒逼技术,想实现真正的好用,并不容易。
从技术上看,当下视频模型在理解、创作物理世界方面的表现依旧有限,画面的连贯稳定、主体的一致真实以及视频的时长都亟需迭代进化。
从成本上看,当下的视频技术很难下放到寻常百姓家,名噪一时的Sora至今仍处于研究阶段,仅面向少数专业人士进行内测,很大一部分原因就在于高昂的成本。
再回到AI视频是行业趋势的这个问题上,厂商们之所以纷纷下注,一方面是因为行业需求催生了市场规模。
头豹研究院数据显示,2021年中国AI视频生成行业的市场规模为800万元,预计2026年,这一市场规模将达到92.79亿元。
另一方面,大模型的商业落地进度越来越迫切,相比于ChatGPT这种聊天机器工具,AI视频生成是大模型技术商业化落地更具潜力的赛道。
03
效率之争、落地之战
两年,给行业带来技术革命,也让行业变得冷静。
今年7月,2024世界人工智能大会上,百度创始人李彦宏在演讲中提到,“2023年国内出现了百模大战,其实造成了社会资源的巨大浪费,尤其是算力的浪费。”
李彦宏言辞激烈的背后,是整个行业更加理性。市场期待在模型之中长出能落地的应用,为大模型厂商赚到钱、为各行各业提供效率。
抛开技术问题,这注定是一场应用落地的效率之战,这也就回到了商业化的问题上。
从去年“百模大战”,到今年应用之战,无论是哪个阶段,商业化都是大模型行业反复提到的话题。大模型的特殊性在于“烧钱”,技术上的研发成本,应用上的运行成本,每一步都少不了真金白银的支持,这也是大模型企业们的“紧箍咒”。
在国内,相比于两年前焦灼地坐上牌桌,争做“中国OpenAI”的执念,这群AI明星企业将重点放在了商业化落地应用的探索上。
据智能涌现报道,被称为“AI六小虎”的6家中国大模型独角兽中,已经有两家逐步放弃预训练模型,缩减了预训练算法团队人数,业务重心转向AI应用。
这透露了市场两个曲线,一个是部分初创企业正被困在商业化的焦虑里;二是行业商业化战线拉长,巨头的战斗力更足。
比如去年只发布了语言大模型的字节,今年一口气补全了视频、3D、音乐等多领域的大模型。在应用层面,字节陆续推出了十几个AI应用,覆盖了娱乐、对话、Agent等多个产品方向。
在C端表现上,下半年巨头商业化的影响力更为突出。据数据分析机构QuestMobile,字节豆包App今年9月的日活已达760万,成为中国日活*的AI产品。
这一趋势下,大厂和创业公司的角色站位也发生变化。尤其是步入今年下半年,当资本冷静,一些AI明星创业公司被巨头收编,大模型创业公司高管加入大厂。
这验证了大厂坚决投入AI的重要性。AI是个增量,不仅能为大厂原有业务带来新的想象力,大厂原有的业务场景也可以为AI提供商业闭环。
不过,尽管是资源和场景更为丰富的大厂,面对市场对其巨额AI投入何时能换来回报的质疑时,也有些迷茫。
迷茫的背后,还有个更重要的问题:Scaling Law还成立吗?
所谓Scaling Law,是大模型行业的一个重要技术原理。具体而言,OpenAI四年前曾经发布过一篇论文表示,模型的性能会随模型参数量、数据量、计算资源增加而指数提升。
只要Scaling Law 还成立,那么大模型的能力就可以通过算力、参数、数据的训练实现AGI。
行业仍是积极的。特别是OpenAI推出o1后,标志着大模型能力突破到了L2阶段。大模型开始真正拥有了逻辑思维能力,在无人力干预的情况下进行规划、验证和反思。
某种程度上,o1打破了预训练的 Scaling Law 瓶颈,商业上解锁了新的可能。在OpenAI和智谱给出的“通往AGI五阶段”的定义中,两家公司均将多模态和语言能力归在L1阶段,也就是最为基础的能力配备。
这个行业,从ChatGPT,到Sora,再到o1,OpenAI仍是具有时代性的公司。也许和过去一样,哪个大模型厂商能*追上o1,市场还会迎来一波新高潮。
追赶技术的路上,玩家们不能忽视的是如何把钱花到刀刃上,这是一场技术、应用、场景的效率之战。
眼下,行业的淘汰赛已经开始,李彦宏曾预测,在未来AI浪潮里,市场中99%的伪创新都将被淘汰,只有1%的企业能够脱颖而出。谁是这1%,谁能创造“新”世界,要等市场给出答案。
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。