在内的多家AI大模型团队认为,多模态模型正在走向MoE架构的“全模态”模型。包括Seed1.5-VL和Qwen2.5-Omni为代表的模型现已支持图像、、语音、文本及其任意组合的理解,而以Kimi-VL为代表支持MoE架构;但技术挑战上,支持音、视、图、文全模态交互的公开单模型非常少见,并且图像和语音的理解与生成统一模型鲜有出现,且理解和生成效果难以平衡。
混元升级快思考模型混元TurboS、深度思考模型混元T1,并发布视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice;字节跳动旗下火山引擎发布豆包·生成模型Seedance 1.0 lite、豆包1.5·视觉深度思考模型,并升级豆包·音乐模型等。
去年第四季度国内有49个大模型更新发布,到今年一季度这一数字增长至55个,最多的时候一周有8个模型。大模型迭代速度越来越快,模型能力越来越强。正如李彦宏所说“大模型厂商卷生卷[*]。”
“跟很多创业公司相比,我们的优势不是资源,而是人才,怎么把我们的人才聚集到一起,其实靠的是协作。”韩歆毅表示,AI这件事很难,当前蚂蚁是在与全球最顶级的AI团队竞争,而且坦白说,这上面人家不光是跑得比我们早,也跑得比我们快。因此,
韩歆毅表示,过去几个月蚂蚁团队投入的探索力量和更多突破,其实在某些方向已具备全球一定的领先地位,但这个领先还是偏单点。今天我们要全力以赴,追求智能上限,并且不断开源开放。另一方面,未来所有应用随着AI世界变得更加多样化,蚂蚁的机会在于支付,AI世界的支付可能与今天完全不一样,因此,蚂蚁需要提供AI世界的支付与基础能力。
韩歆毅指出,这是一个面向未来的开放式探索。今年蚂蚁成立了灵波科技,希望探索AI与物理世界的融合,未来还将与哈啰一起探索自动驾驶。
“人在相当长的时间内,不太可能回到我们的科幻电影中,有一个养生舱躺进去接上我们的虚拟世界、宇宙里面,这个短期内不太可能发生,但至少相当长的时间内,人还是活在现实世界中,现实世界和数字AI世界会同时并存,而我们希望帮助大家解决现实AI世界问题,这就是为什么我们去探索具身智能、智能驾驶等。”韩歆毅称。
如果往前看,蚂蚁AI First战略是一个“顶层框架型”的想法,还有一些非常具象的业务和策略依然在探索、摸索过程中,因此,整个过程中,无论是解决当下的业务的具体问题,还是蚂蚁面向未来的探索,其实都需要技术人员的创新与突破。“因为技术是我们产品、业务快速奔跑的核心能力和坚强后盾。”
韩歆毅强调,蚂蚁希望真正给到用户、合作伙伴一个革命性、代际差体验、核心的竞争优势,所以在面临当下AI技术探索、AI应用的战场上,我们要回到“黑客松”的精神,源于对技术的热爱。
“我们源于热爱,成于协同,最后我们终于创新,用创新的方式为蚂蚁未来的10年、科技的10年打出一片新的天地。”韩歆毅在演讲结尾称。