双方围绕AGI的定义、发展的路线图,当前大模型技术进展,为什么2025年AI Agent火爆出圈,及阶跃星辰在AI Agent领域的布局等话题展开深入探讨。
启明创投主管合伙人周志峰与阶跃星辰创始人、首席执行官姜大昕
在Agent的战略布局上,阶跃星辰聚焦于智能终端方向。他强调,Agent的关键能力在于通过多模态交互理解用户所处的环境与任务的上下文,并主动、自主地帮助用户完成任务。
对此,
以下系经精编下午好,您能够来我们峰会,我特别开心。1月份DeepSeek两个模型发布以后,我收到无数问询,是不是DeepSeek一出来,我们投资的阶跃星辰和智谱AI等都面临巨大的挑战?今天请您帮我回答这些挑战性的问题。
4月份,习近平总书记来到上海徐汇区的“模速空间”大模型创新生态社区调研,有四家企业是一对一做了汇报,阶跃星辰是其中唯一一家大模型企业。
当时机会也是非常难得,阶跃星辰作为上海人工智能基础大模型企业,第一个做了汇报,
之前行业中经常提及中国大模型六小虎的概念,加上几家科技大厂,是中国研发基础大模型的主力军。近期又有媒体提出“新五强”争锋,其中三家是已有较大体量的公司:字节跳动、阿里巴巴、DeepSeek、智谱AI、和阶跃星辰,认为这五家企业将在冲向AGI的道路上继续努力。您怎么看?您的AGI定义是什么?阶跃星辰的愿景是什么?应该如何走向AGI?
AGI是什么?其实业界没有共识。如果十年之前,大家说我们讨论一下AGI什么时候能实现,感觉像是天方夜谭,甚至五年之前大模型没出现时,大家也觉得这件事情不在讨论范围之内。现在大模型越来越多之后,更多人会认为AGI会在未来五年到来,大家给出的时间表不一样,从2026年至2030年不等。
到底什么是测试AGI到来的准则?4月美国一所大学做了一个测试,用传统的图灵测试测了OpenAI GPT-4.5,发现30%的人分不清它究竟是AI还是人类,73%的情况下成功使人们相信其为人类。按照图灵测试原始的定义,这意味着GPT-4.5通过了图灵测试。我们觉得仅是这样的标准并不能认为AGI就到来了。所以我和硅谷的朋友交流时,他们给出一个新的AGI定义,对标的是人类智能,就是说模型能够完成现有的人类工作的百分比。这个百分比应该是有多少,不同人的看法不一样,如果我定的线%。
所谓模拟世界,这里的学习方法是模仿学习,我们把互联网所有的数据都灌入大模型,通过非常简单的任务让模型领会数据内在的结构和特征,这个阶段它最主要的是学习各种模态的表征,从语音,到声音,到图像,到,到4D物理时空,
学会表征世界以后,比如写一段代码或做数学题,我们经常需要很强的思维链。人在解决这种复杂问题的时候,用到的一个能力叫做慢思考。举个例子,我们做一道数学题的时候,往往不是一口报答案的,而是把一道题拆解成不同的步骤,如果觉得开始的思路不对,我们会反思,想新的解决方法。强化学习这个概念并不是很新,今年也很巧合,图灵奖颁给了两位强化学习的专家,一位是Andrew G. Barto,另一位是Richard S. Sutton,后者写了一篇很著名的《苦涩的教训》,据说OpenAI的人每天把它当作《圣经》一样读一遍。
2016年击败人类围棋圣手李世石的AlphaGo是强化学习的典型代表,到了今年大家熟知的DeepSeek背后也是采用了强化学习的算法,使得模型推理能力得到了很大的提升。
去年8月份OpenAI公布了五个智能演进的层级,最早是Chatbot,然后是Reasoner,Agent,Innovator,Organization,如果我们仔细去看它的定义,会发现这五个层级和我们三个阶段背后的逻辑是一致的,只是各自描述的方式不同。
我们看到OpenAI或国外的大公司发布的模型虽然很多,但如果沿着这条路线图看的话,会发现它的模型是不断覆盖这条路径上的关键节点。今天从模拟世界到探索世界,我们看到这个趋势变得越来越清晰了,所以我们的信心也是越来越足。
说到大模型,回到开场的DeepSeek,都是做大模型的公司,到底阶跃星辰和DeepSeek等公司相比,我们的差异化特点是什么?
我介绍一下我们在过去两年做的工作,我们发布了一些大模型,虽然都叫基础大模型,但功能和方向是不太一样的,我们可以把它分成:语言模型和多模态模型。
实际上AGI是类比人的智能来定义的,人除了语言的符号智能以外,天生还有视觉智能、空间智能和运动智能,这些智能光靠语言是无法实现的,必须通过多模态体现。除了AGI概念以外,一旦到了应用领域,不管是做C端,还是做垂类B端应用,我们都希望模型像人一样能够听、能够看、能够说,这样它才能更好地理解用户所处的物理环境,并且以很自然的方式和用户交流。从这两个角度来说,我们觉得缺乏了任何一个模态都会延缓实现AGI的进程。
之前提到的六小虎也有一些已经公开宣布彻底放弃预训练,只做后训练等研发,感觉大家的选择越来越不一样。从您的角度来看,阶跃星辰觉得目前的技术有什么主要进展?我们接下来会怎么走?
一方面模型能力确实在不断提升。推理模型也好,多模态模型也好,正在不断提升,催生了应用落地,DeepSeek出来以后,大家觉得以前很多在应用场景做得不好的工作,现在通过很强的模型也可以实现了,模型能力解锁了很多应用场景,另外我们觉得模型发展并没有减速。
春节之后,可能受到了DeepSeek的影响,美国五家头部企业发布了很多模型,OpenAI先是发布了o3和GPT-4o解决方案,而且OpenAI的发布时间一般与谷歌的发布时间差不多,谷歌同时间发布了Gemini系列。其他还有Claude 3.7 Sonnet,短短两个月的时间,国外五家头部模型公司争先恐后地发布了模型,所以模型的进展并不慢,而且透过这些模型的发布,我们还是能够看出整个发展的趋势。
最早强化学习的模型是去年9月OpenAI发布的一款o1模型,到了12月发布了满血版,再到春节DeepSeek发布了R1模型,这基本宣告了推理模型从趋势变成了一个范式。现在再去看上述几家国外头部企业发布的模型,基本都是融合了推理能力。阶跃星辰在推理方面也做了一些工作,1月份我们发布了一个小的Step R-Mini模型,在当时已经超过了OpenAI o1 preview模型,未来我们也会发布满血版的推理模型。在推理模型方面,我们看到还有很多工作在推进。比如,如何进一步提升推理效率。大家现在认为思维链非常长,但有一些是无效思考。
这些是现在产业界和研究界非常热门的话题。
推理模型在未来一到两年里还是会继续往前发展。同时我们还看到一个趋势,以OpenAI o3模型为例,网友给它一张图让它猜这是什么地方,它真的像福尔摩斯一样,通过细节去推断如果大家以前玩过图像识别的话,会发现上一代视觉模型只是从训练数据里面找差不多的内容,还是一个快思考的过程,即看到这张现在的模型能够从球场的比分牌上找到两个参赛队伍的队标。还会看看台上球迷的衣服颜色,判断是谁的主场,这时候它已经可以推断出是哪个体育场了。另外,通过体育场的建筑风格,比如体育场的顶部,确认究竟是哪个球场。
我们还看到一个有趣的趋势,首先我解释一下,什么是理解生成一体化。
在语言模型中,比如DeepSeek,我们给它一篇,让它回答问题或生成总结,这是典型的理解类任务;反过来,如果给它一个标题让它进行创作,这是生成类任务。大家通常不会区分这两种任务,而是用同一个模型完成。但在多模态领域这两者是分开的,像刚才判断一张图的内容信息,得用GPT-4V或GPT-4o这样的模型,如果是生成,要用Sora这样的模型。所以,在视觉领域还没有实现理解和生成的一体化。
为什么这个问题非常重要?比如老师拿粉笔在黑板上写字,他手的运动,包括粉笔和黑板接触的痕迹,Sora是可以模拟的,如果老师写到一半停下来了,我们去问他后面会写什么,这是需要一个理解模型去预测,而生成模型Sora是没有这样的能力的,这就是我们说的理解和生成并没有一体化。
从生成的角度来看,目前的生成模型还不受理解控制。从理解的角度来看,什么才算是真正的理解?如果我不能创造,那就说明我并没有理解,只有我能真正自主创作,才说明我实现了真正的理解。就如同Richard Feynman说的——“What I cannot create, I do not understand”。
在文本领域,生成任务是Predict Next Token,同时模型也可以理解整个互联网上的知识,理解这个大千世界。如果平移到视觉领域,Predict Next Frame还无法做到,计算机视觉的研究已经进行了几十年,到目前还不能实现。这导致后面很多事情,比如要生成一个比较长的,让它符合物理规律、符合逻辑,目前还办不到。同样,如果要做一个通用的机器人,给它一条指令,它就能完成多样性的任务,这件事情目前做不到,也是因为视觉领域还不能做到真正的泛化。
所以理解生成一体化非常重要。目前我们看到一个很好的趋势,就是以GPT-4o为代表的模型,用户给出指令,它生成一张图,用户可以不断输入指令,让它不断
大模型依然很热,今年有一个方向更热——AI Agent,阶跃星辰是如何布局这个方面的?
Agent确实很热,很多人说2025年是Agent的元年,我觉得其实Agent这个词在2023年就出来了,那时候有一张Agent的架构图。为什么一直没火,但到了2025年这个概念变得非常火?它能够成功和两个因素有极大的关系:
去年下半年推理模型出现,发展到今年年初的时候,Agent随之逐渐成熟了。
这是AI Agent这么火爆的技术推动力。
至于什么是Agent?我觉得大家各有各的观点,有的写得非常长,各方面描述了什么是Agent。在我看来,我们再进一步看什么是自主?它包括两层含义:自动、主动。所谓自动,就是它在完成一个复杂任务时,尽可能独立完成,减少或不需要人类的干预,交给它一个任务,它能够自己运行并在最后交付一个结果,这是自动化的过程。
主动是比较难实现的一点,大家习惯在做一件事情时,思考谁能帮我完成,我要操控界面来实现,任务的发起者通常是用户本人。我们设想一下,如果有一款会议软件,当开始会议时自动开启录音,会议结束后自动生成总结;在开会过程中,如果上级突然提了一个你没有准备的问题,它能自动帮你汇总相关资料并呈现出来,这是多么好的一个Agent。
阶跃星辰是如何布局这一领域的呢?
现在有一款硬件非常火,叫Plaud,有几千万美元的营收。它是一款录音笔,做得非常巧妙,可以贴在iPhone背面,能够带着它到处跑。它随时可以录音,比如在通话的时候录音,这就是人类耳朵的延伸,可以随时随地让它帮助你收集另外智能设备往往是可以帮助人完成任务的,比如现在微波炉有上百种功能,如果不看说明书的话很难进行操作。假设在微波炉内植入一枚芯片之后,可以很人性化,用户说“帮我把鸡蛋蒸一下”,它自己就可以完成了。
正如前面所介绍的,我觉得模型还在快速演进迭代,技术底座在快速变化,变得更智能。我所尊敬的一些经历过互联网时代的投资人,或许因各种缘由,认为不应该投资模型公司,而只宜投资有真金白银收入、具备商业化能力的应用公司。我觉得中国进入互联网时代是在后半场,那时候任何一家互联网创业公司几乎不用担心技术底座的任何问题,就专注于产品层面的创新。互联网的产业链很短,上方是流量,下方是广告等商业变现手段。而今天的AI时代,还是在上半场,模型层面或技术底座还有大量的优化空间,某种意义上,就像“模型即产品”所体现的,一个好的Agent或模型决定了产品的七八十分。在这个时代,超级应用公司是否将诞生于像阶跃星辰这样掌握底层模型能力的企业?
我非常同意你的说法,我也和很多产品经理聊过,他们觉得在互联网时代成功的产品经理,在AI时代可能要重新学习一遍。在互联网时代,技术是相对确定的,产品是不确定的;现在两个方向都不确定,例如究竟技术能够发展到什么程度,更难的是判断技术在未来六个月能够发展到什么智能水平;研发产品需要有一些超前思维,若基于现有技术做产品,可能下一代技术出来的时候会颠覆现有产品。
谢谢您的精彩分享。