梳理字节在AI领域的动作可以发现,基础大模型、通用助手和AI应用三个方向上的探索,共同为其构建了一个立体的AI发展框架。
首先,在基础大模型领域,字节旗下的豆包大模型在通用语言、视频生成、语音对话、视觉理解等方面建立了比较完备的能力组合。其次,在通用助手方面,豆包已经成为仅次于ChatGPT的助手类应用,日活跃用户数接近900万。最后,在应用领域,字节推出了多个AI应用,其中即梦被认为正在承担起成为AI时代「抖音」的重任。
这个框架下,我们可以尝试为字节AI业务的发展描摹出一个更具体的「两横多纵」发展格局,为多样化的AI业务尝试找到字节体系内的站位,为此前围绕豆包助手与即梦在字节内部战略优先级变化的讨论,提供新的判断逻辑:
字节AI的两横多纵格局
基础大模型以及与之相配合的AI应用开发平台扣子为自身的通用助手、应用开发提供能力支持的同时,还能依托火山引擎的算力支撑和云服务,帮助更多企业AI化自己的产品与服务。
通用助手和作为载体的AI硬件形成了一个满足用户获取基础信息和服务需求的入口,这是一种更底层的、连接B端与C端需求的能力。应用则聚焦视频、音乐、教育、社交等场景,承接不能被通用助手满足的深度需求。
具体来说,位于应用方向的即梦事实上承担了字节的防守职责,面对AI给视频创作、分享带来的冲击,探索延续字节在视频领域优势的可能性。而豆包大模型家族和豆包助手则承担了字节向B端、向底层寻求突破的进攻任务——这也是字节在移动互联网阶段积极尝试,却没有获得理想成果的领域。
Google的2025年战略会议上,CEO Sundar Pichai表示,这是至关重要的一年,必须全力以赴,寻求建立AI领域的绝对领先优势。这句话说出了很多大厂的心声,其中也一定包括字节。
进入2025年,调整好进攻姿态的字节,将会展现出更凶猛的攻势,尝试构建自身在AI领域的统治力。浙商证券在研报中指出,字节2024年在AI上投入巨大,资本开支达到800亿元,2025年这个数据预计会达到1600亿。字节旗下的AI音乐创作产品海绵音乐也赞助了东方卫视今年的跨年晚会。
放长远来看,AI赋予字节的最大憧憬并不是打造出多少个AI时代的爆款应用,而是一个突破自我、重新确定生态位的机会。
丰富的模型能力是基础
豆包大模型家族是字节在AI时代的根基所在。丰富的模型能力不仅能够支撑字节在通用助手和AI应用领域的尝试,维持字节在C端的影响力,还能吸引更多B端客户依托豆包大模型来创造或重构AI时代的场景服务能力,为字节在to B业务上创造更大发展空间。
过去一年,豆包大模型家族在通用模型、视频生成模型、视觉理解模型、3D生成模型、音乐生成模型、代码大模型等方向上都实现了快速开发与迭代。火山引擎总裁谭待表示,很多用户在使用豆包大模型过程中获得的最大惊喜,不仅来自模型效果好,还来自迭代速度快。
2024年12月举办的火山引擎Force冬季大会上,豆包大模型的能力进一步得到了提升。通用模型Doubao-Pro的理解精度和生成质量较5月和8月发布的版本有了大幅提升。豆包视觉理解模型能够识别和理解动物影子、杂志上印刷的星云和个人的体检报告,音乐模型已经可以创作3分钟时长的音乐。
就像李想在与腾讯新闻的对谈中所说,基座模型是人工智能时代的操作系统+编程语言。企业要做的就是将模型的各种能力编写成符合场景需求的AI应用。不断丰富、增强的模型能力,会让火山引擎拥有一块好用的敲门砖,帮助其渗入到更多商业化场景中。
火山引擎公布的数据显示:在信息处理场景,最近3个月豆包的调用量增长了39倍;在客服与销售场景,调用量增长16倍;在硬件终端场景,调用量增长了13倍;在AI工具场景,豆包调用量增长了9倍。
企业对基础模型的需求增长,给火山引擎带来了新的增长机会,让其有志成为AI云原生的领军企业。一方面,火山引擎会扩大规模优势,通过规模大、弹性高、成本便宜,吸引企业进行迁移。另一方面,可以抓住大模型带来的技术变革机遇,通过豆包大模型获得更多关注和新的合作机会。
面向Agent的探索,会是豆包大模型在2025年的一个突破方向。随着能力边界的拓展,在语言能力上叠加了视觉理解、深度推理能力的大模型开始有能力处理更加复杂的任务。在很多关于2025年的预测中,都将「具备代理执行能力的Agent」视为一项重要的内容。
谭待也表示,如果一个Agent能够帮助人们写一首打油诗,它的价值就不大,但如果能够帮助人完成完整的作业辅导过程,就会带来更大的价值。未来会有越来越多的企业依赖基础大模型构建自己Agent化的场景服务,每一个Agent都是一项高度集成的能力组合。
不断进化的大模型能力支撑下,走向成熟的Agent很可能会彻底推开AI应用时代的大门。字节如果能凭借豆包大模型、扣子和云服务基础抓住这扇门开启的机会,就有很大可能填补上作为to B领域后来者的短板,给B端客户选择字节的云服务提供更多筹码。
工具化的助手正在成为连接器
同时,作为能力底座的基础大模型打破了移动互联网时代C端与B端的界限。谭待认为,「大模型的C端和B端背后其实都是同一个东西,就是那个模型本身,因为所有的能力都是内化到其中了。」这意味着,依托基础大模型能力进行的场景AI化实践,未来有可能会被聚合到一个跨越C端与B端的门户中。
目前看来,通用助手更有可能成为这个在基础大模型之上,负责连接一切需求与能力、虚拟与现实的门户,也是一个像移动互联网时代的微信、Google搜索一样的超级入口。如果豆包助手能够成为这个门户,那字节就拥有了在移动互联网时代几番追求而不得的更为底层的入口。
就像公众号《信息平权》在文章中分析的:过去,字节的边界局限于头条和抖音,图文和短视频信息流为主要形态,基于此去拓展商业化,发现即便是帝国也有边界。而AI有潜力成为字节拓展其边界的抓手,可与千行百业、线上线下、软件硬件链接。
也正是在「掌控新一代超级入口」的诱惑下,做搜索引擎的Google与做新能源汽车的理想,都将AI助手视为未来业务的关键点。
Pichai将Gemini应用升级,确定为Google实施全面领先战略的关键支柱之一。Google认为,Gemini不仅是一个聊天机器人,更是一个具有多种功能的AI工具,是未来业务增长的重要引擎。
在李想看来,助手还处在非常初期的阶段,大家如今在做的种种尝试,都是想将AGI的L3阶段的门票拿在手里。所谓的AGI的L3阶段,就是人人可用的to C智能体出现。
谁能在B端整合更多能力,创造出更多Agents,同时在C端连接更多用户,谁就可能在围绕通用助手进行的入口之争中,建立更大的优势。
豆包助手之于字节的重要性,与Gemini之于Google一样,要远高于聊天机器人的价值。
《智能涌现》接触到的知情人士表示,豆包助手目前的用户互动时长、互动轮次都不算高,且在过去一年中增长幅度不明显,有管理层提出,这种基于文本的对话类产品,大概率不是最理想的产品形态。但我们认为,这依然是站在聊天机器人的定位上,对豆包助手作出的评价和判断。
聊天机器人只是豆包助手的一项能力,随着连接的不断丰富,字节大概率会为豆包助手会在聊天之外,注入更加丰富的能力,让其向Agents阶段迈进。
一方面,豆包助手会继续整合视频生成、视频理解等大模型的创新成果,拓展基础能力的边界。这一点在不久前豆包助手电脑版的更新上有比较明确的体现。相比之前的版本,新版的豆包助手电脑版变成了一款具备AI搜索、视频生成、文本创作、图像生成能力的工具集合。
另一方面,按照量子位智库的统计,豆包助手累计用户数超过1.6亿。豆包助手还能以领先的用户体量,吸引更多样的Agent融入其中,提升自身处理复杂任务的能力。我们的一个判断是,在用户拉新之后,未来服务和能力的丰富度,将在很大程度上决定通用助手的用户留存能力。
作为能力合集和需求连接器的通用助手,会更倾向于即用即走的用户使用习惯,而不是注重用户时长的杀时间逻辑。豆包战略研究负责人周昊认为,对于大模型产品,好像很难定义哪一个是「最关键的用户需求」。因为它天生就是一个通用型产品,每个用户打开它时,想要解决的问题都不一样。
因此,豆包助手要做的是,满足好不同用户在不同场景下的需求,依靠无缝连接的交互方式,陪伴用户度过每一个需要知识和帮助的时刻。豆包助手此前给到大家的印象会更接近于一款有趣的AI社交产品,但从字节的战略发展需求上看,豆包助手需要扮演多面手的角色,甚至拥有像Ola Friend一样的AI硬件躯体。
AI应用满足更深度的需求
相较于通用助手,AI应用满足的是用户在某个领域或场景中更深度的需求。简单来说,前者像前台客服,汇聚全面需求,并负责解决常见需求,后者则是后台工程师,负责解决更为专业、棘手的问题。字节旗下的抖音、剪映、今日头条等产品都属于后者。
在AI时代,抖音、剪映、今日头条等应用的能力会被进一步打散,一部分视频内容可以直接在豆包助手内获取和呈现,简单的图片、视频编辑能力也能够在AI助手中得以实现。但是,也依然会有相应的AI应用存在,为重度用户提供场景化的服务,比如刷视频、社交的需求,很难单纯依靠豆包助手得到满足。
未来,基础大模型+通用助手,可能会成为字节App工厂的新一代能力池和流量池。这个基础上,新的AI应用能够被不断地孵化出来。
但目前,这个基础并不成熟,字节目前的AI应用还是在依托抖音流量实现成长,没有完成面向AI时代的模式切换。这也给我们理解通用助手和AI应用的关系带来了干扰。
《智能涌现》的报道中,字节管理层有人提出,长期看,需要找到更低门槛、更「多模态」的产品形式,剪映和即梦可能是合适的入口。但是,它在本质上与猫箱、豆包爱学、海绵音乐等产品一样,是一个面向垂直领域的产品,即便是叠加上世界模型的期待,也很难成为更底层的入口。
在剪映业务负责人张楠的介绍中,抖音是一个「真实世界」的相机,而即梦希望借助生成式AI技术,成为想象力世界的相机,记录每个人的奇思妙想,帮助每个有想法的人轻松表达、自由创作。同时,即梦也在从AI工具出发,尝试孵化关于AI内容的社区。
即梦的发展路径与抖音高度相似,都是从降低用户的创作门槛出发,在不断扩大的创作者群体推动下,形成一个内容平台。即梦App内的短片一栏,就是一个与抖音相似的刷视频的界面,只不过用户在这里刷到的都是利用大模型创作的AI视频内容。有用户仅发布过一个视频,已经获得了146个赞。
视频确实是实现自然交互必不可少的一块拼图。但我们认为,这里的视频更多是指通过摄像头理解世界的能力,可以被集成在手机、电脑、眼镜、机器人等硬件设备中,帮助人与机器更顺畅地交流;而不是即梦所代表的发挥想象,创造视频内容的能力,让人们一直待在虚拟世界中的能力。
字节在AI时代的布局目前呈现出了两横多纵的形态。豆包大模型和豆包助手是两横,即梦、豆包爱学、海绵音乐是多纵。还是类比移动互联网时代,微信是一横,而抖音体量再大,也仅是代表视频领域的一纵。
如果豆包大模型是字节准备的操作系统和编程语言,那么豆包助手会是设备的桌面,即梦是在这个桌面上的一个视频领域的应用。
同样的,豆包爱学、海绵音乐、猫箱可以看作字节在教育、音乐、社交等领域推出的AI时代的应用。头顶「App工厂」头衔的字节,在AI时代仍在延续自己对关键垂直领域的产品尝试,未来我们也可能会在健康、游戏等领域看到字节推出的AI应用。
正如Google谈及2025年时,Pichai认为这是一个颠覆性时刻,赌注从未如此之高。其实,包括字节在内,站在大模型牌桌上的企业,都在下注去赌一个更长远的未来,大家需要比的是,口袋够不够深,眼光够不够毒,定力够不够足,运气够不够好,以及战略框架是否明确。