百家乐2026世界杯中国官方下载 刚刚,李飞飞切身下场界说寰宇模子
寰宇模子火,火到都有点乱了。
单单一个界说,就越来越众说纷纭:视频生成模子不错是寰宇模子,能生成游戏的讲话模子也被叫寰宇模子,还有东说念主把物理引擎也塞进这个筐里……
乱,乱得李飞飞本东说念主都有点看不下去了。刚刚,她切身撰文,给寰宇模子来了个贯通的功能分类。

用词绝不客气:寰宇模子是目下东说念主工智能领域最迫切也最被奢侈的术语之一。
古希腊东说念主无法就寰宇的组成收尾共鸣,因为"寰宇"从来不是一个单一的实体。东说念主工智能也剿袭了不异的问题,而此时,这个领域偶合最需要的等于精确性。
至少,要先分清三件事:
渲染、模拟、缱绻。
话未几说,迅速一王人来作念札记。
寰宇模子的三大功能
李飞飞最初拆析了寰宇模子的时期敬爱。
智能体(东说念主、机器东说念主或系统)会给与行动,这些行动会影响寰宇的现象。
所谓"现象",是对某一特定时刻寰宇所发生的一切的完整刻画,包括每一个物体、每一个位置、每一个速率和每一个属性。
不雅察是主体对这种寰宇的客不雅实在的局部感知。行动是主体对这种实在的复兴。
博亚体育中国一站式服务官网主体→行动→现象→不雅察→复返,赋予了"寰宇模子"以时期敬爱。现在被称为寰宇模子的各式事物,实质上是吞并个轮回的不同投射。
具体到功能上,李飞飞以为,寰宇模子具有渲染、模拟、缱绻三大功能。
其中,模拟器赢得心情最少,但最枢纽,是联结渲染和缱绻的桥。

渲染器
渲染器输出给东说念主看的不雅察完了,中枢方针是视觉保真度。
谷歌的 Genie 3,以及李飞飞自家 World Labs 的 RTFM,都属于渲染器。
这些模子自身并不具备对三维结构的明确雄厚。它生成的是不雅众看到的画面,而不是实质存在的画面。
比如,AI 生成的无东说念主机航拍镜头中,建筑物从空中鸟瞰可能好意思满无瑕,但如若你开车穿过底下的城市,皇冠体育世界杯中国官网首页就会发现它们摇摇欲坠。

李飞飞以为,渲染器是目下买卖上最熟识的时期。比如 Nano Banana,等于风靡内行的代表。
局限性在于,渲染器优化的是视觉上的传神度,而非物理上的精确度。其输出完了十分吸睛,但无法用于建筑遐想或机器东说念主锻练这么与试验寰宇结合更概括的场景。
缱绻器
缱绻器输入不雅察和主义,输出下一步动作。
VLA 模子和新一代寰宇动作模子都属于缱绻器,这些系统决定了机器东说念主在非结构化寰宇中应该作念什么。
缱绻器最眩惑东说念主,也最具发展后劲。具身智能就与此概括有关,而多数热钱也正在涌入这一圭臬。
但李飞飞指出,连年来好多令东说念主印象深远的机器东说念主演示,都局限于高度受限的实验室环境,主义对象范围窄小,任务周期短,无法在确凿寰宇部署所需的复杂性、可变性和握续时辰下进行考据。
模拟器
模拟器输出可缱绻、可交互的现象,百家乐下载(中国)强调几何、物理、动态一致性。
模拟器要求几何结构经得起老练,在物理上适应物理定律,其能源学活动适应寰宇运行的形态。

模拟器同期就业于两个用户群体:
建筑师、遐想师、电影制作主说念主和游戏确立者等专科东说念主士需要特出视觉传神性的精确度。
强化学习智能体、机器东说念主截至器和自动驾驶等领域则将模拟器行为锻练场,以大范畴地与寰宇交互,测试那些在试验中危急、精湛或不能能运行的场景。
李飞飞以为,模拟是联结渲染和缱绻的桥梁。
如若说讲话是对寰宇的抽象,像素是对寰宇的投影,那么几何、物理和能源学等于寰宇自身。
而模拟器,恰是视觉外不雅(关于渲染器而言)和动作成果(关于缱绻器而言)得以生成的结构骨架。
仿真模子不错将自身的雄厚回荡为像素图像供东说念主类使用,并料到实体智能体的活动。机器东说念主锻练、自动驾驶测试、建筑可视化、工程遐想和药物研发等都依赖于某种仿真时期。
其买卖哄骗远景极其遍及,比如英伟达的 Omniverse 平台,就对准了这一超万亿好意思元的潜在阛阓。

问题在于,能用来锻练模子器的数据太少了:具有明确几何体式、材料属性和物理标注的三维数据比渲染器锻练所用的互联网视频少几个数目级。
模拟自身就与试验存在各别,而生成式模拟器还引入了新的风险:AI 生成的东西可能看起来正确,但细究起来又有好多不适应物理的地方。
大范畴多物理场模拟(刚体、可变形物体、流体、布料相互作用……)的本钱更是比单域模拟跳跃几个数目级。
World Labs 自家产物 Marble 旨在打破模拟圭臬的瓶颈:它救援文本、图像、视频或空间草图等多模态输入,生成可探索 3D 环境,并输出 Gaussian splats 和可供物理引擎操作的碰撞网格。
但李飞飞也强调:Marble 只是是这一领域漫长发展过程的启航点。
范围正在消融
李飞飞在这篇著作中的另一个枢纽不雅点是:三类模子正在相互会通。
渲染一个寰宇、模拟一个寰宇、在一个寰宇中行动,所需要的学问,在很猛进度上是吞并套学问。
举个例子:
如若一个模子实在雄厚一个杯子是奈何放在桌子上的,包括其几何结构、材料属性、受力反馈等等,那么它就应该大约从大肆角度渲染这个杯子,模拟杯子被鼓舞时发生什么,并缱绻一只手奈何把它提起来。
这三类智商,其实是对吞并种底层雄厚的三种投影。
近期讨论仍是诠释注解,至少在倡导上,一个预锻练视频渲染器不错行为荟萃寰宇料到和行动料到的主干收集。
这示意了渲染器和缱绻器之间的一座桥梁:
让吞并个模子既想象接下来会发生什么,也想象接下来应该作念什么。
Marble 从单个模子中同期输出 Gaussian splats 和碰撞网格,等于渲染器和模拟器之间范围消融的一个体现。
每一个层级都在从被迫输出,走向交互系统。渲染器正在变得以行动为条款。模拟器正在生成更可控、更可剪辑的寰宇。缱绻器则正在从单纯反馈,走向实在的审慎念念考。
这个逻辑至极,是一个统一的寰宇模子——
一个基础模子,既大约渲染相片级确凿的视图,也能生成物理准确的结构,并缱绻行动序列。
中枢的挑战仍然是数据。
渲染器领有海量互联网视频,但模拟器和缱绻器却严重零落 3D 钞票和机器东说念主演示数据。
追求视觉好意思感,可能会捐躯机器东说念主或高保真模拟所需要的精度。如安在单一架构中调治这些矛盾,是今天寰宇模子讨论最中枢的绽开问题。
但李飞飞乐不雅地清晰:处所仍是很明晰了。
三条原来相互恬逸的讨论印迹,如今各自仍是驱动并塑造了数十亿好意思元级别的产业。而现在,它们开动推崇得像吞并件事。
当它们的范围共同塌缩,这种变化将重塑一个更大的问题:机器智能,和它所处的物理寰宇之间的筹划。
这等于空间智能的漫长曲线。讲话给了机器一种辩驳寰宇的形态,而寰宇模子,将是机器最拆伙识、想象、推理并与寰宇互动的形态。
原文开通:
https://x.com/drfeifei/status/2062247238143996275
— 迎接 AI 产物从业者共建 —
� �「AI 产物学问库」是量子位智库基于恒久产物库跟踪和用户活动数据推出的飞书学问库,旨在成为 AI 行业从业者、投资者、讨论者的中枢信息要道与有谋略救援平台。

一键心情 � � 点亮星标
科技前沿进展逐日见百家乐2026世界杯中国官方下载