1
2023年,AI行业的融资低谷年。脱胎于上海科技大学MARS实验室的影眸科技也遇到了自己的“危机”。这家公司的两位创始人吴迪和张启煊,当时一个刚毕业,一个还是研究生。
一家已经谈好、SPA协议都已完成的领投机构,因为当时地缘政治对投资机构的冲击而在签字前几周临时撤回投资。而影眸当时公司账上只剩下8个月的资金。
解决方案是有的,甚至是显而易见的:他们最早的商业化项目——那个在这家公司办公室摆放着的无法忽视的巨大球形扫描仪“穹顶光场”,是一个有稳定需求的服务。它为3A游戏和电影公司扫描人像,每年能带来可观收入,靠它活下去没啥问题。
但团队能感觉到,元宇宙概念市场在萎缩,项目制的服务也很难规模化。而更重要的是,它并不是这家公司最想做的事情。
在最初创办这家公司时,虽然不确定具体要做什么,但年轻的创始团队的大目标是让所有人都能用到3D,比如,做出一个home studio。而在影眸看来,在所谓的元宇宙里,显然普通用户大多只是旁观者,但他们希望的是让每个人可以成为创造者,这最终需要靠3D生成,需要一次更彻底的底层技术创新。随着AI生成3D因为大模型的进步而热闹起来,这个底层技术创新指向一个全新的模型。
于是一个神奇的决定出现了:在公司“弹尽粮绝”的危机下,创始团队却决定赌一把——
训练一个当时没人做出来过的原生3D模型。
他们能调用的资源有限,时间上也只够选择一条路径。这基本就是一次训练机会,成功就成功,失败(训不出来)基本就没有第二次机会了。
Go big,or go home。
然后Rodin的训练就开始了。
2
这个模型在当时算是异类。当时做3D生成最主流的方向,是先通过“文生图”的模型生成各个角度的图像,再合成一个3D模型,即“2D升维”。影眸的同行几乎都选择了这条路。
然而事实上,在2D图像生成大火之前,3D领域原本的主流就是在走3D数据原生训练的路线。只是突然2D技术太强了,导致“2D升维”成了热点。
影眸脱胎于上科大。2020年,吴迪刚读研一,张启煊还是大三,两人一起在学校里开始创业。
吴迪是上科大最早的一批学生,这所带点实验性质的年轻大学,给学生提供了独特的空间。作为学生会主席,吴迪能直接跟校领导汇报、申请经费,参与搭建实验室。张启煊在学校也闲不下来,到处打比赛,并在本科就进入了MARS(Multi-disciplinary Artificial Reality Studio)实验室。也因此认识了吴迪。
这些计算机科学方向的学生,同时也对Blender等3D软件以及3D技术痴迷,当时吴迪和张启煊在学校主要在做的项目,就是那个巨大的“穹顶光场”,它并非简单的相机阵列拍摄多角度照片,而是基于“光度立体法”(Photometric Stereo),能在0.1秒内向扫描对象投射二三十种不同的光照模式,算出整个面部细微的法线信息,甚至引入“偏振态”光线来解耦高光材质,从而采集到远超传统方式的超细腻皮肤细节。
2020年,公司成立后他们开始各种摸索,当时他们基于实验室发表的一篇SoftGAN的论文,做了一个画真实人物的画板产品,但起初没什么反响。后来他们换了一批二次元数据,做成了AI画板APP WAND。
然后这款app就瞬间爆了,立刻就登上了中日两国App Store图形与设计分区的榜首,两周获取了160多万用户。
这给他们带来了第一波融资,在那之前,奇迹创坛的陆奇来学校参观,看过他们的穹顶,鼓励他们报了奇绩。在APP爆火的当晚11点,奇绩的人紧急联系他们,对他们说:
“立刻跟我们签吧”。
但他们却快速“抛弃”了这个产品。
WAND是个像极了后来Midjourney样貌的产品。但在当时,他们想不出来它的商业模式。而更让他们提不起兴趣的,是这个产品背后的技术——GAN。
GAN(生成对抗网络)在当时是主流,它通过两个网络(生成器和判别器)相互博弈来“伪造”图像,但在多样性和可控性上很快遇到了瓶颈。而影眸团队当时没有预料到的是,另一条技术路线——Diffusion(扩散模型)即将爆发。以Stable Diffusion为代表的扩散模型,通过一个“去噪”过程逐步生成图像,实现了前所未有的图像质量和“言出法随”的文本控制能力,这才是后来真正引爆AIGC浪潮的关键。但在当时,GAN限制了人们对图像生成技术的想象。于是在拿到钱后,他们反而“更逆反了”。
他们去向陆奇要建议,对方回到:“你们要专注,做你们最想做的事情”。张启煊的理解是:“你只能做一件事。”
砍掉了WAND项目后,他们继续专注到“更广泛更通用的3D”上。在2021年底,他们做出了ChatAvatar,一个用文字描述生成3D形象的产品。同样,追求真实,而不是好看。这解决了“十几万”扫描费和“30块”廉价角色之间的巨大需求,也是影眸开始向AI产品迈出的重要一步。
3
穹顶光场、WAND、ChatAvatar,这些技术和产品研发里的经验最终都汇聚在了Rodin这个模型上。
2024年3月,新模型终于有了内部Demo。
训练成功了。
Rodin模型第一次展示了原生3D路线的强大效果。这套名为Clay的原创框架希望彻底绕开行业的“主流陷阱”。当时,包括业内巨头和看似引领着技术方向的实验室都采用着“2D升维”路线,这本质上是一种妥协:
它们的出发点是希望利用2D图像模型如Stable Diffusion当时取得的成果,因此选择了使用一种叫做SDS(Score Distillation Sampling 分数蒸馏采样)的方法来让2D模型做3D生成过程的“老师”——一个3D数据先转成不同切面的2D数据,交给2D模型打分,然后蒸馏反馈评估最终拟合出一个3D资产,以此训练文字生成3D的能力。
但很显然,这种方式不仅计算量大、速度慢,而且由于2D视角的不一致,生成的3D模型几何结构混乱、表面粗糙,无法用于实际生产。
影眸的赌注,是“原生3D”——即模型直接在3D数据上训练,直接生成3D模型。这是一个公认更难、但理论上效果好得多的路线。他们需要在已有工作基础上,设计一个更优雅的架构。
首先是数据表达,他们选择了"Vecset" (3DShape2VecSet: A 3D Shape Representation for Neural Fields and Generative Diffusion Models)这个研究里的方法,他们认为这个已有的研究,是3D数据在隐空间中的最佳表达——它像一种“长条形”的无序数据链,它恰好完美适配了Transformer架构。于是,在Sora带火DiT(Diffusion Transformer)架构之前,影眸的Rodin已经在把赌注押到DiT上。“我们当时叫它Transformer with Diffusion,后来发现DiT火了后,我们在论文里也统一了它的名字。”
除此之外,团队也做了很多工程上的工作,他们专门开发了一套“数据标准化”管线,用来“重构网格”(Remeshing)和统一来自ShapeNet、Objaverse等不同来源、质量参差不齐的数据。这是很关键的一步,但最初的方法需要人工标注,这本来可能是一个制约效率的大问题,但就在这时,GPT-4V出现,标注可以由模型完成。一切再次加速。
最终它的技术细节被写进名为《CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets》的论文,这篇论文获得了SIGGRAPH 2024最佳论文提名,并成为50年来首个入选SIGGRAPH "Real-Time Live!”的中国团队。ResNet之父何恺明教授在当年MIT的深度生成模型课程中将CLAY列为推荐阅读(6.S978 ,MIT EECS, Fall 2024)。
基于CLAY,影眸于2024年中上线了全球首个原生 3D 生成大模型产品Hyper3D.AI Rodin。
现在,原生3D已成为行业共识——包括腾讯混元、字节Seed3D在内的公司,都已采用3D原生技术路线。可以说,影眸定义了3D生成的“可用性拐点”。
4
2024年,影眸带着他们的技术成果登上了GDC(全球游戏开发者大会)的讲台首次对外公开展示了还是demo的Rodin。影眸也成为少有的被官方邀请的中国初创公司。
这次分享吸引来了行业内诸多关注,影眸将Rodin模型接入了拥有5亿用户的超级头部游戏的移动端Runtime环境,为其UGC创作赋能。
在行业中,这是一个重要的信号。它意味着影眸的AI模型不再是纯粹的“Demo”工具,而是开始被真正集成到实时运行的、海量用户的移动游戏引擎中。
“Production Ready”是影眸不停强调的目标。3D模型没有标准的Benchmark,最终是客户自己来判断,用钱投票。这些真实产业环节里的合作,就是一张张最有分量的“票”。
目前影眸的商业模式也归一到服务游戏、影视制作,以及更大一块的工业设计,整体以专业的建模场景为主。
“3D生成对游戏公司来说是天然适合外包的业务。这是分工明确和工业化成熟的结果,所以独立的第三方服务商是有价值的。”吴迪认为。
2024年,在Clay框架和Rodin模型的Demo跑通后,影眸的融资也顺利推进。2025年以来,他们连续完成了两轮大规模融资,前一轮由字节跳动和美团龙珠联合领投,红杉资本和奇绩创坛跟投。
2025年8月,影眸再次宣布完成新一轮数千万美金融资,由蓝驰创投领投,字节跳动、红杉中国种子基金等老股东跟投。
模型的成功是基础,但这在今天已不是全部。当Rodin训成时,AI 3D生成的赛道也已经迅速变得拥挤。诸多玩家相继入场,竞争显然已经进入了产品层面。
对一个普通用户而言,影眸的产品(Hyper3D.AI)是一个网页工具和一套插件的结合体。最基础的体验与Midjourney类似:输入一段文字或一张图片,模型就能在几十秒到几分钟内生成一个3D模型。
但影眸从一开始就想解决专业人士的痛点。他们的产品提供了针对不同场景的“模型矩阵”:如“Speedy”(极速预览)、“Focal”(极致细节)、“Zero”(适用于手游的低面数平滑模型)和Defualt(细节精度和表面平滑度平衡)。
影眸的“Production Ready”,就是更让自己产品真正接入产业工作流。
而这种理念最直观的体现,是他们对产品细节的偏执。其他公司的插件可能是网页的“阉割版”,而影眸为Blender等3D软件设计的插件,是一个“超级精巧”的浮窗。它像YouTube的画中画,承载了网站的全部功能,同时又不入侵艺术家原有的工作界面。
“我们几个核心创始人都亲自使用Blender等3D软件,自己剪视频、做渲染。”张启煊说,“所以我们知道做这件事会遇到哪些困难,知道怎么用才方便。”
另一个最新的“杀手级”功能是BANG。
(可以插入影眸科技视频号视频)
对于游戏或工业设计来说,一个“糊”在一起的AI模型无法高效完成后续的绑定和二次编辑。影眸的“Bang to Parts”功能,能自动将一个复杂的模型“爆炸拆解”为多个可编辑的部件。
这个功能的交互设计,也体现了他们对工作流的理解。张启煊形容:“你点分件的时候,我先给你一张蓝图(预览图),告诉你‘我大概会拆成这样’,你不满意就点‘随机’换一种方案。觉得OK了,它‘啪’一下炸开来。你还可以选中炸开的某个部分,让它再生成这个部分的炸开蓝图……像链式反应一样。”
这些“好用”的表面功能,每一项都源于底层的技术创新。BANG的背后是一套名为“通过生成式爆炸动力学实现3D资产分件”的原创架构。这项研究工作被计算机图形学顶级期刊ACM TOG收录,并在SIGGRAPH 2025上获评“Top 10技术论文速览”。它尝试解决AI模型“只能看不能改”的难题。
影眸还是全行业第一个做出“3D ControlNet”的团队。这套控制技术并非单一论文,而是其核心生成框架的关键组成部分,其“可控性”(Controllable)的理念在CLAY的论文中已有体现。就像ControlNet让2D绘画的“随机抽卡”变成了“按图索骥”,影眸的“3D ControlNet”让开发者可以通过边框盒(Bounding Box)、体素(Voxel)甚至点云(PointCloud)来精准控制生成模型的形态和结构,这在专业生产领域是刚需。
最近,他们上线了“部分重做”功能,即针对不满意的部分再次重新生成,保留已经完美的部分。整体模型可控性再次大幅提升。
“我们不会基于当年什么东西最热门来选研发方向,不会追热点,完全基于需求做研发 。所以会看到我们论文的绝对数量肯定比友商低,但从论文质量和获奖情况来看我们有优势。”吴迪说。
“今年在这个领域拿Siggraph best paper 的商业化公司,也就只有谷歌、meta 和我们。”
过去这一年,在Hyper3D.AI平台上,Rodin以平均每9天上线一个新功能的速度快速更新着,更多的商业化合作也在快速铺开。
当初那个“Go big or go home”的赌注,算是没有失败,而它改变了影眸也改变了AI 3D行业。
“我们希望在保持朝气的前提下,在残酷的商业世界里继续摸爬滚打。”吴迪说。




0 条评论
请「登录」后评论