开云(中国) 林俊旸的新公司, 卖的可能不是模子, 而是“联想力”

前通义千问持重东谈主林俊旸在5月修复的新公司,连名字皆还没起,只知谈照看的是天下模子和具身智能,估值就仍是到20亿好意思元了,还拿到了腾讯2000万好意思元的投资。 此前有东谈主凭据林俊旸的推文推断,说他当今作念的是“臆测”,Next State Prediction,也即是臆测下一帧会发生什么。 这句话没说错,联系词说了等于没说。 为什么呢?因为当今通盘大模子皆是在臆测,臆测下一个token的内容是什么。 而且要是仅仅现象的臆测,那OpenAI的视频生成模子Sora,它其实干的亦然臆测各个事...


开云(中国) 林俊旸的新公司, 卖的可能不是模子, 而是“联想力”

前通义千问持重东谈主林俊旸在5月修复的新公司,连名字皆还没起,只知谈照看的是天下模子和具身智能,估值就仍是到20亿好意思元了,还拿到了腾讯2000万好意思元的投资。

此前有东谈主凭据林俊旸的推文推断,说他当今作念的是“臆测”,Next State Prediction,也即是臆测下一帧会发生什么。

这句话没说错,联系词说了等于没说。

为什么呢?因为当今通盘大模子皆是在臆测,臆测下一个token的内容是什么。

而且要是仅仅现象的臆测,那OpenAI的视频生成模子Sora,它其实干的亦然臆测各个事物的物理现象,你再开一家公司去干交流的事情,十足没独特旨。

我认为,林俊旸想要卖的是一套更深的东西——联想力。

AI在行为之前,把事情在脑子里过一遍。

我给你举个例子,我让机器东谈主去举起一个水杯,它会在脑子里想“这水杯的摩擦力是怎样,我的机器手臂会不会打滑?”、“这小子是不是坑我,水杯有可能是带电的,我碰一下把我给电坏了咋办”、“万一我把水杯给摔了,把我卖了够不够赔的?”

把通盘可能皆想好,再去行为,通盘过程,就叫作念“联想力”。

你别不信,听我迟缓给你讲。

01

林俊旸的拼图

咱们先从最基本的启动提及。

林俊旸参与过的照看相配多,最闻名的笃定是M6。

M6的全称是Multi-Modality to Multi-Modality Multitask Mega-transformer,翻译过来是从多模态到多模态,多任务,巨型Transformer。

M6的中枢,是把通盘模态、通盘任务,皆塞进消亡个大模子框架里。让模子不仅能搞定纯文本、纯图像的单模态任务,也能搞定跨模态任务,还能作念文本带领的图像生成。

M6是“联想力”的起初,物理天下自己很复杂,有翰墨、图像、声息、空间位置、物体现象、当作过程和斥逐响应。AI想要去蚁合这个天下,第一步即是把这些不同类型的信息放进消亡个模子里搞定。

林俊旸很早温煦的就不是单个任务,而是怎样把不同起首、不同形态的教训长入成模子可学习的风物。

光有框架还不够,你还得让模子能显着。是以就有了Qwen和Qwen-VL。

Qwen咱们皆很熟谙了,它不错写代码、调用API、使用用具,把一个指标拆成多走路动,并凭据用具复返的斥逐不时支持下一步。

也即是说,Qwen让模子有了比拟了了的行为经过:先蚁合指标,再遴荐时间,再扩充,再看响应。

到了,Qwen-VL,它让AI的眼睛不仅仅看,还能指。看图言语全球皆会,但Qwen-VL还能作念grounding,把图片里的物体框出来,读图上的翰墨,回应“图中右下角的红色杯子在哪个位置”这种问题。

这两篇放在一谈看,Qwen-VL让模子知谈物体在哪,Qwen让模子知谈怎样脱手。

越过于是让模子从不雅众席,走到了赛场上。

2026世界杯博亚体育(中国)官方平台

2026年春节前后,林俊旸参与了一篇论文,名为WebWorld。这篇论文讲的是造一个假的网页天下,让Agent在里面练手。

它用首先一百万条的确网页交互数据稽察了一个网页模拟器,能接济三十步以上的长序列模拟,支合手推理、多风物数据。

在那时,WebWorld的模拟质地仍是能跟Gemini-3-Pro打平。况且用WebWorld合成数据稽察的Qwen3-14B,在WebArena上径直涨了9.2%,性能追上了GPT-4o。

而且这套模拟智商还能跨界限泛化,代码、GUI、游戏环境皆适用。

为什么要造模拟天下?因为的确天下太慢了。网页有加载延长、有拜访频率收尾、有风控遏止。你让Agent在的确网页上试错一千次,可能八百次皆卡在汇注延长上,剩下两百次还有一半被当成爬虫封了。

稽察自己需要的是多半各种化的交互教训。既然如斯那就在模子里面再造一个天下。Agent在这个失误天下里怎样碰鼻皆行,零资本,零风险。

这即是“联想力”的本色,我是为了要缩小后续的风险资本,是以我当今才让机器东谈主“大脑”内进行模拟稽察,稽察好了以后才略少给我生事。

模式有了,那我该让机器东谈主在脑内稽察什么呢?VideoAgentTrek。它作念的是从东谈主类操作视频里,开云(中国)自动挖出Agent不错学习的操作轨迹。

VideoAgentTrek从YouTube上扒了三万九千个屏幕录制的教程视频,全是无标注的原始视频,然后自动明白出了一百五十多万条GUI交互风物。

这篇论文倒置了通盘闪现逻辑。一般东谈主看到教程,猜度的是“我随着学”。林俊旸看到的是稽察数据。

教程视频里藏着最精确的操作轨迹,鼠标从哪移到哪、点了什么按钮、打了什么字,全是现成的标注。他想的是怎样把这种“东谈主演示给机器看”的视频,逆向拆成“机器能学的教训”。

这个想路一朝修复,数据就取之不休。每天有无数东谈主在网上录教程,每一个教程皆是一条隐形的稽察轨迹。

说句题外话,这篇论文还有个相配独特想的场所,那即是林俊旸(Junyang Lin)和香港大学的杨俊霖(Junlin Yang)一谈出当今了作家的位置。

再然后,就到了CUA-Gym。

要是你让一个Agent在模拟天下里作念一百次尝试,然而莫得东谈主告诉它哪次对哪次错,那这一百次就等于白作念。CUA-Gym作念的事情即是自动安插一个裁判,自动出题,自动批卷。

联想力要是莫得像代码那样不错被考据的奖励信号,那即是纯虚耗算力。唯有有了裁判、有了分数、有了回放,模拟里跑过的每一步才委果算数。要想把“联想力”放进本质里去,就得有谜底、响应和复盘的系统。

终末,简略说一切的一切,皆要落到“扩充”二字。因此来到了Qwen-VLA和Qwen-RobotWorld。这两篇论文是物理天下的双生子。

Qwen-VLA作念了一件事,它在Qwen的基础上加了一个DiT架构的当作解码器,把文本、图像的蚁合径直输出为连气儿的当作轨迹。

为了支合手不同形态的机器东谈主,它引入了一个机器东谈主描述符机制,换一个体格就换一个描述文本,消亡套大脑不变。效果很猛,LIBERO上97.9%,Simpler-WidowX上73.7%,的确天下的ALOHA实验中76.9%的跨分辩泛化。

Qwen-RobotWorld则是另一个维度,它稽察了一个语言条目视频天下模子,通过860万条视频文本数据,两亿多帧画面,涵盖二十多种机器东谈主和五百多种当作类型。

这个模子能凭据刻下不雅察和一句辅导,臆测昔日会发生什么画面,在EWMBench和DreamGen Bench上皆排到了第一。

通盘照看效果连起来看,“联想力”从理念到扩充,收尾了无缺的闭环,一环扣一环。

02

李飞飞和杨立昆

要是只拿林俊旸的照看来说事,可能有些站不住脚。然而要是把李飞飞和杨立昆也拉进来,你就发现一切修复了,每个东谈主作念出来的天下模子,本色上皆是他们一世照看效果的终极大和会。

先说AI教母李飞飞,她从ImageNet起家,她从那时刻起照看的即是“AI怎样看见天下”。

ImageNet让机器学会了鉴识物体,之后的二十年她皆在往更深处挖,从识别走向蚁合,从蚁合走向生成,从二维走向三维。

她创立的World Labs,首款家具叫Marble,能让用户从翰墨、图片或视频径直生成可插足的三维场景。她的天下模子本色上卖的是同样东西,空间。一个AI不错感知、生成、剪辑、交互的三维天下。

她把这个标的叫“空间智能”,说它是语言智能之后的下一个前沿。World Labs在2025年11月推出Marble,2026年2月估值仍是冲到50亿好意思元,也融了10亿好意思元。

杨立昆亦然作念天下模子的,然而他的天下模子和李飞飞的天下模子是根底上的两个物种,究其原因是他俩的照看标的不同。

杨立昆从自监督学习动身的,他的中枢执念是让AI不靠海量标注数据,像东谈主同样通过不雅察来蚁合天下。他的JEPA架构不生成像素,转而在潜空间里臆测天下的综合现象变化。

V-JEPA 2用了一百万小时互联网视频作念预稽察,然后加上不到62小时的机器东谈主视频,就能让Franka机械臂在零样本条目下完成拾取摈弃。

2026年3月,杨立昆发布了天下模子LeWorldModel,把端到端的JEPA适应稽察作念到了只用两个亏欠项,一千五百万参数在一张GPU上跑几个小时就能作念狡计。

杨立昆的天下模子卖的是基于逻辑推演的闪现结构。他要让AI在潜空间里蚁合天下怎样演化,不靠背语言、不靠记模式。他对天下模子的蚁合就成了“AI怎样蚁合看见的东西”。

比如这有一把椅子,它不行虚拟出现,它得立在大地上才站得住。那么通过椅子的质地,就能推上演大地给了些许接济力。

是以,这亦然为什么我以为开云(中国),“联想力”比“天下模子”更接近林俊旸这家公司的的确命题。天下模子仅仅用具,真恰巧钱的,是让机器少用本质犯错的智商。



推荐资讯