开云(中国) 林俊旸的新公司, 卖的可能不是模子, 而是“联想力”

发布日期：2026-06-17 18:43 点击次数：60

前通义千问持重东谈主林俊旸在5月修复的新公司，连名字皆还没起，只知谈照看的是天下模子和具身智能，估值就仍是到20亿好意思元了，还拿到了腾讯2000万好意思元的投资。此前有东谈主凭据林俊旸的推文推断，说他当今作念的是“臆测”，Next State Prediction，也即是臆测下一帧会发生什么。这句话没说错，联系词说了等于没说。为什么呢？因为当今通盘大模子皆是在臆测，臆测下一个token的内容是什么。而且要是仅仅现象的臆测，那OpenAI的视频生成模子Sora，它其实干的亦然臆测各个事...

开云(中国) 林俊旸的新公司，卖的可能不是模子，而是“联想力”

前通义千问持重东谈主林俊旸在5月修复的新公司，连名字皆还没起，只知谈照看的是天下模子和具身智能，估值就仍是到20亿好意思元了，还拿到了腾讯2000万好意思元的投资。

此前有东谈主凭据林俊旸的推文推断，说他当今作念的是“臆测”，Next State Prediction，也即是臆测下一帧会发生什么。

这句话没说错，联系词说了等于没说。

为什么呢？因为当今通盘大模子皆是在臆测，臆测下一个token的内容是什么。

而且要是仅仅现象的臆测，那OpenAI的视频生成模子Sora，它其实干的亦然臆测各个事物的物理现象，你再开一家公司去干交流的事情，十足没独特旨。

我认为，林俊旸想要卖的是一套更深的东西——联想力。

AI在行为之前，把事情在脑子里过一遍。

我给你举个例子，我让机器东谈主去举起一个水杯，它会在脑子里想“这水杯的摩擦力是怎样，我的机器手臂会不会打滑？”、“这小子是不是坑我，水杯有可能是带电的，我碰一下把我给电坏了咋办”、“万一我把水杯给摔了，把我卖了够不够赔的？”

把通盘可能皆想好，再去行为，通盘过程，就叫作念“联想力”。

你别不信，听我迟缓给你讲。

林俊旸的拼图

咱们先从最基本的启动提及。

林俊旸参与过的照看相配多，最闻名的笃定是M6。

M6的全称是Multi-Modality to Multi-Modality Multitask Mega-transformer，翻译过来是从多模态到多模态，多任务，巨型Transformer。

M6的中枢，是把通盘模态、通盘任务，皆塞进消亡个大模子框架里。让模子不仅能搞定纯文本、纯图像的单模态任务，也能搞定跨模态任务，还能作念文本带领的图像生成。

M6是“联想力”的起初，物理天下自己很复杂，有翰墨、图像、声息、空间位置、物体现象、当作过程和斥逐响应。AI想要去蚁合这个天下，第一步即是把这些不同类型的信息放进消亡个模子里搞定。

林俊旸很早温煦的就不是单个任务，而是怎样把不同起首、不同形态的教训长入成模子可学习的风物。

光有框架还不够，你还得让模子能显着。是以就有了Qwen和Qwen-VL。

Qwen咱们皆很熟谙了，它不错写代码、调用API、使用用具，把一个指标拆成多走路动，并凭据用具复返的斥逐不时支持下一步。

也即是说，Qwen让模子有了比拟了了的行为经过：先蚁合指标，再遴荐时间，再扩充，再看响应。

到了，Qwen-VL，它让AI的眼睛不仅仅看，还能指。看图言语全球皆会，但Qwen-VL还能作念grounding，把图片里的物体框出来，读图上的翰墨，回应“图中右下角的红色杯子在哪个位置”这种问题。

这两篇放在一谈看，Qwen-VL让模子知谈物体在哪，Qwen让模子知谈怎样脱手。

越过于是让模子从不雅众席，走到了赛场上。

2026世界杯博亚体育(中国)官方平台

2026年春节前后，林俊旸参与了一篇论文，名为WebWorld。这篇论文讲的是造一个假的网页天下，让Agent在里面练手。

它用首先一百万条的确网页交互数据稽察了一个网页模拟器，能接济三十步以上的长序列模拟，支合手推理、多风物数据。

在那时，WebWorld的模拟质地仍是能跟Gemini-3-Pro打平。况且用WebWorld合成数据稽察的Qwen3-14B，在WebArena上径直涨了9.2%，性能追上了GPT-4o。

而且这套模拟智商还能跨界限泛化，代码、GUI、游戏环境皆适用。

为什么要造模拟天下？因为的确天下太慢了。网页有加载延长、有拜访频率收尾、有风控遏止。你让Agent在的确网页上试错一千次，可能八百次皆卡在汇注延长上，剩下两百次还有一半被当成爬虫封了。

稽察自己需要的是多半各种化的交互教训。既然如斯那就在模子里面再造一个天下。Agent在这个失误天下里怎样碰鼻皆行，零资本，零风险。

这即是“联想力”的本色，我是为了要缩小后续的风险资本，是以我当今才让机器东谈主“大脑”内进行模拟稽察，稽察好了以后才略少给我生事。

模式有了，那我该让机器东谈主在脑内稽察什么呢？VideoAgentTrek。它作念的是从东谈主类操作视频里，开云(中国)自动挖出Agent不错学习的操作轨迹。

VideoAgentTrek从YouTube上扒了三万九千个屏幕录制的教程视频，全是无标注的原始视频，然后自动明白出了一百五十多万条GUI交互风物。

这篇论文倒置了通盘闪现逻辑。一般东谈主看到教程，猜度的是“我随着学”。林俊旸看到的是稽察数据。

教程视频里藏着最精确的操作轨迹，鼠标从哪移到哪、点了什么按钮、打了什么字，全是现成的标注。他想的是怎样把这种“东谈主演示给机器看”的视频，逆向拆成“机器能学的教训”。

这个想路一朝修复，数据就取之不休。每天有无数东谈主在网上录教程，每一个教程皆是一条隐形的稽察轨迹。

说句题外话，这篇论文还有个相配独特想的场所，那即是林俊旸（Junyang Lin）和香港大学的杨俊霖（Junlin Yang）一谈出当今了作家的位置。

再然后，就到了CUA-Gym。

要是你让一个Agent在模拟天下里作念一百次尝试，然而莫得东谈主告诉它哪次对哪次错，那这一百次就等于白作念。CUA-Gym作念的事情即是自动安插一个裁判，自动出题，自动批卷。

联想力要是莫得像代码那样不错被考据的奖励信号，那即是纯虚耗算力。唯有有了裁判、有了分数、有了回放，模拟里跑过的每一步才委果算数。要想把“联想力”放进本质里去，就得有谜底、响应和复盘的系统。

终末，简略说一切的一切，皆要落到“扩充”二字。因此来到了Qwen-VLA和Qwen-RobotWorld。这两篇论文是物理天下的双生子。

Qwen-VLA作念了一件事，它在Qwen的基础上加了一个DiT架构的当作解码器，把文本、图像的蚁合径直输出为连气儿的当作轨迹。

为了支合手不同形态的机器东谈主，它引入了一个机器东谈主描述符机制，换一个体格就换一个描述文本，消亡套大脑不变。效果很猛，LIBERO上97.9%，Simpler-WidowX上73.7%，的确天下的ALOHA实验中76.9%的跨分辩泛化。

Qwen-RobotWorld则是另一个维度，它稽察了一个语言条目视频天下模子，通过860万条视频文本数据，两亿多帧画面，涵盖二十多种机器东谈主和五百多种当作类型。

这个模子能凭据刻下不雅察和一句辅导，臆测昔日会发生什么画面，在EWMBench和DreamGen Bench上皆排到了第一。

通盘照看效果连起来看，“联想力”从理念到扩充，收尾了无缺的闭环，一环扣一环。

李飞飞和杨立昆

要是只拿林俊旸的照看来说事，可能有些站不住脚。然而要是把李飞飞和杨立昆也拉进来，你就发现一切修复了，每个东谈主作念出来的天下模子，本色上皆是他们一世照看效果的终极大和会。

先说AI教母李飞飞，她从ImageNet起家，她从那时刻起照看的即是“AI怎样看见天下”。

ImageNet让机器学会了鉴识物体，之后的二十年她皆在往更深处挖，从识别走向蚁合，从蚁合走向生成，从二维走向三维。

她创立的World Labs，首款家具叫Marble，能让用户从翰墨、图片或视频径直生成可插足的三维场景。她的天下模子本色上卖的是同样东西，空间。一个AI不错感知、生成、剪辑、交互的三维天下。

她把这个标的叫“空间智能”，说它是语言智能之后的下一个前沿。World Labs在2025年11月推出Marble，2026年2月估值仍是冲到50亿好意思元，也融了10亿好意思元。

杨立昆亦然作念天下模子的，然而他的天下模子和李飞飞的天下模子是根底上的两个物种，究其原因是他俩的照看标的不同。

杨立昆从自监督学习动身的，他的中枢执念是让AI不靠海量标注数据，像东谈主同样通过不雅察来蚁合天下。他的JEPA架构不生成像素，转而在潜空间里臆测天下的综合现象变化。

V-JEPA 2用了一百万小时互联网视频作念预稽察，然后加上不到62小时的机器东谈主视频，就能让Franka机械臂在零样本条目下完成拾取摈弃。

2026年3月，杨立昆发布了天下模子LeWorldModel，把端到端的JEPA适应稽察作念到了只用两个亏欠项，一千五百万参数在一张GPU上跑几个小时就能作念狡计。

杨立昆的天下模子卖的是基于逻辑推演的闪现结构。他要让AI在潜空间里蚁合天下怎样演化，不靠背语言、不靠记模式。他对天下模子的蚁合就成了“AI怎样蚁合看见的东西”。

比如这有一把椅子，它不行虚拟出现，它得立在大地上才站得住。那么通过椅子的质地，就能推上演大地给了些许接济力。

是以，这亦然为什么我以为开云(中国)，“联想力”比“天下模子”更接近林俊旸这家公司的的确命题。天下模子仅仅用具，真恰巧钱的，是让机器少用本质犯错的智商。

开云(中国) 林俊旸的新公司, 卖的可能不是模子, 而是“联想力”

推荐资讯

热点资讯