
文 | 字母 AI
这两天,宇宙模子这个想法杰出火爆。
腾讯、阿里接踵入局之后,现时好了,字节也算是"半入局"了。
字节隆重发布了 Seed3D 2.0,这是 3D 生成模子,你给它翰墨、图片、多视角图,以致视频,它帮你生成 3D 模子。

Seed3D 2.0 的第一个上风,是它把几何精度往坐褥级推了一步。
往日的 3D 生成,最大问题不是不够惊艳,是不够可靠。旯旮发软、薄壁结构断裂、材质只在单一光照下好意思瞻念,放进游戏引擎、仿真系统或机器东谈主考试环境里,很快露馅。
Seed3D 2.0 用两阶段 DiT 先搭合座结构,再补高精度细节,让锐边、曲面、复杂拓扑和薄结构更领会。
第二个上风在材质。
别的模子追求的是 RGB 贴图,以达到视觉恶果相似。但 Seed3D 2.0 追求的是长入生成 PBR 材质,让金属、爽直度、反光畛域在不同光照下保持物理一致。
这意味着生成闭幕不仅仅截图好意思瞻念,而是更接近可进入着实渲染管线的财富。
更症结的是,Seed3D 2.0 它现时不光是能生成 3D 物体,它还在生成的同期计议这么一个问题"我生成的物体能不可放进接下来的场景,比如游戏建模、考试机器东谈主这些"。
是以它维持部件级拆分、要津建模、URDF 输出,也能作念场景组合和空间布局推理。
一个椅子不仅仅一个合座模子,而不错被拆成座面、靠背和底座。一个物体不仅仅摆在那儿,而不错进入仿真、交互和通顺系统。
是以它的着实优点,其实是把 3D 生成从内容坐褥用具,往具身智能、工业仿真和游戏财富基础设施鼓励了一步。
因此,固然字节并莫得大大方方承认 Seed3D 2.0 是宇宙模子,但从某种真谛上来说,它算是半个宇宙模子。
症结点在于,Seed3D 2.0 能团结物体的空间结构、部件关系和可操作性,这便是宇宙模子的性情。
不外 Seed3D 2.0 不可连接意料宇宙演化,也不睬解力、碰撞、摩擦、破损、流体等物理过程,这便是为啥它只算是半个。
01 宇宙模子大战
对于宇宙模子这件事,得先从李飞飞启动讲起。
4 月 14 日,李飞飞的宇宙模子公司 World Labs 发布了 Spark 2.0,它是一个 Web 端的 3D 高斯溅射渲染引擎。
这个东西的作用是什么?便是让你即使是用手机的浏览器,也能畅通地通达那些包含上亿个粒子的 3D 宇宙。
往日作念 3D 场景,要么用传统的三角网格,文献重大、加载慢;要么便是视频,看完就没了。
3D 高斯溅射是个新门路,用数百万个半透明的椭球体来示意场景,渲染恶果接近像片级,但问题是数据量太大。一个稍稍复杂点的场景就能有几千万个 splats,浅显开发根柢跑不动。
Spark 2.0 的中枢冲破在三个地方。
第一是 LoD 系统,也便是细节条理工夫。它会事先生成不同分袂率的数据,你离得近就知道高精度,离得远就自动裁汰细节。
第二是渐进式流式传输,场景不是一次性加载,而是边走边下载,就像看流媒体视频一样。
第三是造谣内存管束,在 GPU 里划出一块固定的内存池,最多容纳 1600 万个 splats,然后不竭地把需要的数据块换进换出。
这套工夫最早是 World Labs 为我方的家具 Marble 开发的。
Marble 是个 AI 生成 3D 宇宙的用具,能凭证翰墨或图片生成不错进入的 3D 场景。Spark 2.0 管束的便是"终末一公里"的问题,它让生成的宇宙不错被共享、被嵌上钩页、被任何东谈主在职何开发上拜访。
简直在统一时代,英伟达发布了 Lyra 2.0。
Lyra 2.0 和李飞飞的 World Labs 虽说都是宇宙模子,不外前者想要管束的是长距离、大范围 3D 宇宙生成的一致性问题。
现存的视频生成模子有两个致命谬误。
第一个叫"空间渐忘",便是镜头走远了再回来,模子如故健忘之前阿谁地方长什么样,只可再行编一个,闭幕前后对不上。
第二个叫"时代漂移",自回想生成的过程中,渺小的舛讹会不竭积蓄,生成几百帧之后,神色、结构都启动变形。
Lyra 2.0 的管束决策是宝贵一个空间顾虑系统。
每生成一帧,就把它的 3D 几何信息存下来。下次要生成新视角时,先从顾虑里检索出关系的历史帧,开发 3D 对应关系,然后再让生成模子补充细节。这么既保证了空间一致性,又能欺诈生成模子的瞎想力。
更症结的是,Lyra 2.0 还用了一个叫"自增强历史考试"的手段。
传统考试用的都是干净的着实数据,但实践使用时,模子看到的是我方之前生成的、可能有污点的画面。Lyra 2.0 在考试时有益喂给模子一些带有退化的历史帧,教它学会改良漂移,而不是放大失实。
不外,英伟达作念这个不是为了让你生成视频,Lyra 2.0 的使用场景是机器东谈主和自动驾驶。
着实宇宙的考试数据太贵、太危机,许多顶点场景根柢会聚不到。如若能用 AI 生成实足着实、实足一致的造谣环境,就不错在内部反复考试、测试,然后再部署到现实中。Lyra 2.0 生成的宇宙不错平直导出为 3DGS 或 mesh,接入 Isaac Sim 这么的仿真平台。
就在李飞飞发布 Spark 2.0 的第二天,腾讯隆重发布并开源了 HY-World 2.0。
腾讯的途径和前两家都不一样,它要作念的是着实的 3D 财富生成。
什么叫 3D 财富?便是那些不错导入 Blender、Unity、Unreal Engine 的 mesh 文献和 3DGS 文献,不错被编著、被复用、被二次开发的东西。
HY-World 2.0 的职责经由分四步。
第一步是全景图生成,用 HY-Pano 2.0 模子把翰墨或单张图片彭胀成 360 度全景。第二步是轨迹规画,用 WorldNav 算法分析全景图的几何和语义信息,自动规画出合理的相机通顺道径。第三步是宇宙彭胀,沿着规画好的轨迹,用 WorldStereo 2.0 模子生成多个症结帧视角,这些视角之间要保持空间一致性。第四步是宇宙组合,用 WorldMirror 2.0 把所接洽键帧整合成长入的 3DGS 场景,再优化不异成高质地 mesh。
这套经由里最难的是 WorldStereo 2.0。
它要作念的是新视角生成,也便是给定一个肇始视角和相机通顺参数,生成商量视角的画面。难点在于既要精准跟班相机适度,又要保持视觉细节,还要和之前生成的区域在几何上完满衔尾。
腾讯的管束决策是引入顾虑机制,让模子记着如故生成的区域的几何和外不雅特征,生成新区域时参考这些顾虑,幸免出现"穿帮"。
腾讯作念这个的方针很明确,便是就业游戏和造谣内容产业。传统的游戏场景制作需要好意思术、建模、贴图、灯光多个要领,一个高质地场景可能要几个东谈主作念几周。如若能用 AI 平直生成可编著的 3D 财富,整个这个词坐褥经由就被重构了。而且腾讯强调的是"可编著",生成出来的不是一段视频,而是不错在引擎里络续治愈、络续开发的着实财富。
就在腾讯发布的几个小时后,阿里也扔出了我方的宇宙模子家具 Happy Oyster。
现时好了,4 家完整个是不同的,阿里想作念的是及时交互的宇宙生成。
Happy Oyster 有两个中枢模式。第一个叫 Wandering,漫游模式。你给它一句话或一张图,它就生成一个具备物理一致性的完整空间,然后你不错用第一东谈主称视角在内部解放迁徙,用 WASD 键适度所在,用鼠标适度镜头。场景会跟着你的迁徙不竭延展,物体位置领会,光照跟班视角变化。现时维持最长 1 分钟的连气儿及时适度。
第二个模式叫 Directing,导演模式。这个更专诚想,它不是生成完就已毕,而是让你在生成过程中连接介入。视频播放到随性时刻,你都不错用翰墨、语音或图像辅导来改变剧情、切换镜头、指点扮装。系统会及时响应,场景随之变化,然后络续往下演化。
阿里把 Happy Oyster 定位为"宇宙模拟器"。
传统的文生视频是输入 prompt、恭候渲染、赢得成片,这是被迫的。宇宙模拟器是主动的,它在连接地模拟宇宙的演化,用户不错随时介入、随时改变。这种交互形态更接近游戏,而不是看电影。
不外 Happy Oyster 的输出是音视频流,不是 3D 财富。它的上风在于互动体验和生成速率,而不是不错导出到游戏引擎。这也响应了阿里的家具想路,它对准的是内容创作、互动文娱、造谣直播这些场景,而不是游戏开发的底层用具链。
这个时代窗口里,国内还有两家公司值得一提。
群核科技在 2025 年发布了空间生成模子 SpatialGen 和 Aholo 空间智能开放平台,对准的是室内遐想和具身智能场景。极佳视界的 GigaWorld-1 在 3 月底的 WorldArena 评测中拿下全球第一,这是一个专门面向机器东谈主考试的具身宇宙模子。
02 为什么都在这个时代点发
这不是浅易的撞车。这几家公司,不管是家具锻真金不怕火度、工夫途径、商量场景,那真实能都不一样的地方整个不一样,是以不可能正好在统一时代准备好。
更合理的讲解是,公共都在等一个信号,而李飞飞的 Spark 2.0 便是阿谁发令枪。
往日两年,澳洲幸运5AI 圈的主旋律是大语言模子。
从 GPT-4 到 Claude,从 Gemini 到 DeepSeek,模子越来越大,高下文越来越长,推理才智越来越强。
但到了 2026 岁首,这条路启动有点难走了。各家的差距在快速削弱。络续讲"我的模子比你强 5% "如故很难激起市集兴味。
agent 是客岁的热门,但现时也进入了拥堵区。各家都在作念能调用用具、能实行任务的 AI 助手,工夫框架大同小异,着实的互异化越来越难。
市集需要一个新故事,一个实足大、实足性感、有时承载下一轮瞎想空间的新叙事。
宇宙模子便是这个新故事,听起来比视频生成更接近 AGI。
更进犯的是,宇宙模子是个实足泛泛的想法,不错把内容创作、游戏开发、机器东谈主考试、自动驾驶、工业仿真、数字孪生这些完全不同的场景都装进去。
从工夫层面看,宇宙模子的时机也照实到了。
往日两年,几条症结工夫线启动汇合。
视频扩散模子提供了生成高质地动态画面的才智,3D 高斯溅射提供了高效的 3D 示意步调,NeRF 和三维重建工夫提供了从 2D 到 3D 的不异旅途,及时渲染工夫提供了在破费级开发上通达大限制场景的可能,多模态团结让 AI 有时同期处理翰墨、图像、视频输入,物理仿真平台提供了考试和考证的环境。
这些工夫单独看都不是新东西,但它们现时"熟了"。
视频模子的质地如故实足好,3DGS 的渲染速率如故实足快,多模态模子的团结才智如故实足强。
当这些工夫组合在一都,宇宙模子从想法造成了不错落地的家具。
事实上,李飞飞早在 2025 年 6 月 16 日旧金山的 YC AI Startup School 炉边说话里,就如故把这条工夫陈迹讲得很明晰。
她回想了我方从 ImageNet 一齐走来的历程,说最早推动数据驱动视觉步调时,许多东谈主还不深信大限制数据会改变 AI;2012 年卷积神经收罗的爆发让她第一次热烈签订到,视觉模子不会停留在分类和识别,而是会络续走向图像描画、视觉叙事,终末一齐走到生成模子。
按这个端倪看,今天的宇宙模子不是片刻冒出来的新想法,而是谋略机视觉沿着"团结宇宙"这条干线天然演化到更高维度的闭幕。
更症结的是,她那时强调的中枢词不是视频生成,也不是 3D 内容坐褥,而是空间智能。
她的判断很平直,如若 AI 想着实接近 AGI,就不可只在语言里作念概率意料,也不可只对二维像素作念模式匹配,它必须团结三维空间、几何结构、物体关系和物理轨则,知谈宇宙是若何被组织起来、又会如何跟着时代变化。
这亦然为什么空间智能看起来像下一个前沿,或者我换一种形态来抒发:宇宙模子便是整个这个词行业长久低估、一直没着实啃下来的硬骨头。
从这个角度再看最近这一波宇宙模子高潮,许多事情就更容易团结了。
公共争的名义上是渲染、生成、交互和财富化,底层争的其实都是谁更接近"让机器团结着实宇宙"这件事
。语言天然进犯,但语言实践上是东谈主类压缩过的记号系统。
三维宇宙却是连气儿的、动态的,充满装潢、视角变化和物理敛迹。建模语言如故很难,建模空间频频更难。是以李飞飞那时那句话的重量很重,空间智能不是一个新标签,它是 AI 着实走向现实的物理宇宙之前必须补上的一课。
但光有工夫还不够,还需要有东谈主来界说圭臬。
谁先发布,谁就有契机影响行业对"宇宙模子"这个词的团结。李飞飞的 World Labs 在学术界和产业界都有重大影响力,她发布 Spark 2.0,等于是给宇宙模子这个赛谈敲响了开场锣。其他公司如若不跟进,就会在这个新叙事里失去话语权。
是以腾讯、阿里、英伟达、字节都在最近发财具。不是因为家具刚好作念完,而是因为这个时代窗口太症结了。
晚一周发布,市集的注眼力可能就被其他热门带走了;早一周发布,又莫得李飞飞这个"发令枪"来引爆话题。
同期,大厂们也都在强抢界说权。宇宙模子现时照旧个暗昧的想法,到底什么算宇宙模子、宇宙模子应该输出什么面容、应该用什么形态交互、应该接入什么样的用具链,这些都还莫得定论。
谁先占据某个症结位置,谁就有契机把我方的圭臬造成行业圭臬。
World Labs 抢的是 Web 分发进口。如若畴昔整个的 3D 宇宙都通过 Spark 这么的渲染器在浏览器里通达,那 World Labs 就掌执了分发渠谈。
腾讯抢的是 3D 财富坐褥进口,如若游戏公司都用 HY-World 2.0 来生成场景原型,那腾讯就掌执了内容坐褥用具。
阿里抢的是及时交互进口,如若互动内容都用 Happy Oyster 这么的宇宙模拟器来制作,那阿里就掌执了新的内容形态。
字节抢的是 3D 造物进口,如若畴昔游戏、机器东谈主、工业仿真里的物体模子,都通过 Seed3D 2.0 从翰墨、图片或视频平直生成,况且自带几何、PBR 材质、部件拆分和要津结构,那字节就掌执了现什物体进入数字宇宙的第一谈进口。
英伟达抢的是仿真考试进口,如若机器东谈主公司都用 Lyra 2.0 生成的环境来考试模子,那英伟达就掌执了物理 AI 的基础设施。

是以实践上,是公共在通过不同的家具,霸占宇宙模子生态里的不同层级。
谁界说了宇宙的生成面容,谁界说了宇宙的渲染形态,谁界说了宇宙的交互范式,谁界说了宇宙进入仿真的旅途,谁就可能成为下一代空间 AI 平台。
03 宇宙模子对企业的真谛
还有小数,那便是宇宙模子不是一个寂寥的工夫,要把它放在企业实践的坐褥上,才能看明晰这个工夫到底是用来干嘛的。
对 World Labs 来说,宇宙模子是一个完整的家具闭环。Marble 负责生成 3D 宇宙,Spark 负责渲染和分发。李飞飞的贪图不是作念一个用具,而是作念一个平台。
畴昔如若有东谈主想共享一个 3D 场景,不是发一个几个 GB 的文献让你下载,而是发一个邻接,你在手机浏览器里点开就能进入。这个体验近似于你现时共享抖音视频,你并不是真的把视频下载下来,你只需要把阿谁二维码发给你的小伙伴,他就能扫码直达视频原始网页。
这个交易模式的症结在于裁汰门槛。
传统的 3D 内容创作需要专科软件、高性能硬件、复杂的工夫常识。
Marble 把创作门槛降到了"输入一句话",Spark 又把不雅看门槛降到了"点开一个邻接"。当创作和破费的门槛都实足低,3D 内容才可能像图片和视频一样成为互联网的基础设施。
对腾讯来说,宇宙模子是游戏和造谣内容产业的坐褥力用具。腾讯是全球最大的游戏公司,它的中枢财富是游戏 IP 和内容坐褥才智。HY-World 2.0 对准的便是内容坐褥要领。
传统游戏开发,一个高质地的 3A 游戏场景动辄就需要几十个好意思术东谈主员作念几个月。
即使是那种小限制的寂寥游戏,场景制作亦然最耗时的要领之一。如若 AI 能生成可编著的 3D 财富,好意思术团队就不错从叠加性的建模职责中解放出来,把元气心灵放在创意遐想和细节打磨上。
更进犯的是,HY-World 2.0 生成的是着实的 3D 财富,不是视频。视频只可看,财富不错用。你不错在 Unity 里治愈光照,不错在 Blender 里修改模子,不错在 Unreal 里添加物理恶果。
这种可编著性是腾讯强调的中枢价值,因为游戏开发需要的不是制品,而是不错络续加工的半制品。
对阿里来说,宇宙模子是内容形态的编削。阿里这几年在内容领域参加很大,从优酷到大麦,从直播到短视频,一直在寻找新的内容载体。Happy Oyster 代表的是一种新的内容形态,介于视频和游戏之间。
传统视频是线性的,你只可重新看到尾。游戏是开放的,但制作资本高、门槛高。Happy Oyster 想作念的是"可交互的视频"或者"低门槛的游戏"。用户不需要学习复杂的操作,只需要用天然语言说出我方的想法,场景就会响应。这种体验可能合适互动剧、品牌营销、造谣陪同、西宾培训这些场景。
阿里的交易逻辑是流量和变现。如若 Happy Oyster 有时创造出一种新的内容破费形态,就可能带来新的流量进口和变现模式。比如造谣直播间,主播不错及时改变场景、召唤谈具、创造剧情,不雅众的参与感会比传统直播强得多。再比如品牌营销,用户不错在造谣宇宙里探索家具、体验场景,这种千里浸式的互动比传统告白更有招引力。
着手我就提到了,Seed3D 2.0 生成的是带几何结构、PBR 材质、部件拆分、要津关系的 3D 财富。换句话说,它生成的是"不错络续编著、渲染、放进引擎、以致接入仿真的东西"。
这对字节尤其进犯。字节的上风一直是内容分发和创作家生态,他们的整个家具,都是在裁汰内容坐褥门槛。用剪映裁汰视频裁剪门槛、用抖音裁汰视频分发的门槛,再用 Seedance 裁汰视频生成的门槛。
Seed3D 2.0 裁汰的是 3D 财富坐褥的门槛。
畴昔如若短视频创作家想作念一个 3D 商品展示,不需要找建模师。电商商家想把商品造成可旋转、可互动的模子,不需要重作念一套 3D 经由。游戏团队想快速生成谈具原型,也不错平直从图片或视频启动。
是以,对字节来说,Seed3D 2.0 的政策价值不是"我也有一个宇宙模子",而是当内容互联网从二维视频走向三维空间,字节要络续掌执最低门槛、最高频的内容坐褥进口。
宇宙模子最终的竞争不会停留在模子才智上,而是会延迟到生态层面。
谁的输出面容被更多用具维持澳洲幸运5app官网下载,谁的渲染器被更多开发者使用,谁的 API 被更多应用接入,谁能和 Unity、Unreal、Isaac、浏览器这些症结平台深度整合,谁就有契机成为这个领域的圭臬制定者。
HJC黄金城官方首页入口
备案号: