品玩

科技创新者的每日必读

打开APP
关闭

对话 Roto:不做 “AI 剪映”,他们想把Netflix没做好的互动剧用AI重做一遍

相对实时+个性化,AI一定会催生新的内容形式。

黄小艺

发布于 2月24日

AI 视频界的“剪映”太多了,而Roto 想做 AI 时代的 Netflix。

作为母公司 FansAI 发布的全球首个开放世界互动视频平台,Roto 背后的团队均来自硅谷大厂与国内顶尖科技公司,试图构建一个介于游戏与影视之间的新物种。

对于创作者来说,Roto提供了一个节点式的创作工具,你可以设置剧情节点铺陈故事,设置生成节点调用 AI 实时产出画面,设置交互节点让观众输入文字或语音,或者通过分支节点决定故事走向不同的结局;发布之后,对于观众来说,他们就不再是被动的接收者,而是可以把自己的名字、形象甚至决策实时融入剧情,让每一次观看都成为独一无二的个性化体验。产品体验:https://rotopus.art/

我们和 FansAI联合创始人、Roto创始人 David Xu 聊了聊,他此前是 TikTok、Snapchat 的 AI 产品经理,着手了 AI 绿幕、AI 相机等功能的落地,另一方面,他也是一个在话剧团表演、在 Livehouse 组乐队的“非典型艺术生”。Roto 某种程度上正是这两个自我合二为一的载体——他希望用技术去拓展艺术表达的边界,而不是仅仅做一个冷冰冰的工具。

“我不否认市面上全链路视频创作工具的价值,但如果只做工具,为了让更多人付费,必须不断降低门槛,很容易陷入制造‘电子垃圾’的死循环。”

在他看来,用 AI 生成视频再发到抖音,本质上仍然是旧的内容消费逻辑;但每一代新技术的诞生,必然会催生一种全新的内容样式,而Roto代表的交互式视频,会是一种可能。

以下是对话实录:

当一个硅谷产品经理,决定做“艺术生”的梦

硅星人:可以先给大家介绍一下你们的产品?

David: 我们分成两部分:一部分是创作端,创作者可以用我们的平台去完成他们自己的 AI 互动剧并发布;另一部分是播放端,用户作为观众观看这些剧集,通过输入、语音等交互动作,改变剧情。我们比较笃定的是未来的内容是由观众共同创作的,每一次观看都可以成为独特的、高沉浸度的体验。

在创作流程上,现阶段用户按照“节点式”的逻辑构建剧情。节点主要有四种类型:

剧情模块(Story Module):创作者上传自己已有的、设定好基调的视频内容。

交互模块(Viewer Interactive):创作者设置问题或触发点,让观众输入(文字或语音),这些输入会被存下来影响后续发展。

分支模块(Branching):根据用户输入的意图或行为,判定剧情走向不同的结局。

生成模块(Generation Module):创作者选择各类视频模型(如 Veo, Seedance 等),在用户交互后实时生成画面。

硅星人:相当于我可以用你们的平台做一个《完蛋了!我被美女包围了》,并发布在你们平台上让其他用户玩?

David: 可以的。我们已经上线了十部互动短片,比如我们有一个教程短片叫《Roto 大战 Bug》。

[录屏2026-02-14 15.00.26.mov]

硅星人:挺可爱的,你们做了多久?

David: 一个人断断续续做了一周吧,这个是用Seedance 2.0 做的。如果你想做一个简单的交互,可能 1 个小时就弄完,但如果你想做一个稍微看起来还不错的片子,其实是需要很多构思的。

硅星人:这种互动形式其实并不完全算“新物种”,Netflix 之前也尝试过《黑镜:潘达斯奈基》,游戏行业也有类似的 AVG。但现阶段 AI 模型的能力还不足,生成速度慢、效果不稳定。为什么你选择在这个时间点切入?毕竟现在连基础的 AI 视频工具都还在解决“可用性”问题,你们还要在此基础上加一层复杂的交互。

David: 根本还是在于我们相信AI会带来下一代内容形式。AI 带来的核心变革是“相对实时”和“个性化”:

相对实时:虽然现在生成还要几秒甚至更久,但相比传统影视制作的“异步”(拍完剪完才能看),AI 正在向“同步”演进。

个性化:过去的内容,创作者和观众边界分明。但在 AI 时代,观众可以把自己的名字、形象甚至决策融入剧情。

我们不必像 Netflix 那样把所有分支的可能性都拍出来(那成本太高了),而是在框架内,让 AI 根据观众的输入去实时生成。这是一条此前从未有过的路径。

硅星人:所以你不想等技术完全成熟了再做?

David: 对。技术的发展是阶梯式的,现在的模型可能还不够快,但我们判断未来一定会达到秒级甚至毫秒级。在这个技术成熟的一两年过渡期里,内容侧的思考是不能停滞的。

就像短视频刚出来时,大家花了很长时间才探索出“竖屏、15秒、全身拍摄、快节奏剪辑”这套范式。AI 互动内容也需要时间去探索它的镜头语言和叙事逻辑。对于小公司来说,如果等大厂把技术都做完美了再进场,我们就没有任何机会了。我们必须在技术还不成熟的时候,先把“新一代内容平台”的范式立住。

硅星人:你对“内容”本身有执念吗?在此次创业之前,你的经历是怎样的?

David:我本科毕业后在硅谷呆了 10 年,先后在 Pinterest、TikTok 和 Snapchat 做产品经理。在 TikTok 时,我们做了 AI 绿幕;在 Snapchat,我负责将摄像头下的功能全 AI 化(AI 配文、修复、生图),接触了非常多的模型,但更多还是基于技术,去找成熟场景下的优化可能。但我始终觉得每一代新技术的诞生,都会催生一种全新的内容样式。

就像照相机带来了摄影,电脑带来了 CG 和游戏。现在的 AI 视频技术,如果不去创造新样式,只是用来做传统的视频,那就是在走老路。

另外,我也算是一个艺术创作者。我在清华读书的时候是话剧团、街舞团的成员,后来组过乐队当主唱,在海外的十年里,我也会去 Livehouse 演出,参加一些跳舞的活动和比赛。

硅星人:多才多艺型创业者,所以你读书的时候成绩怎么样?

David:那肯定是一般<笑>。但我会觉得清华很好的一点是,你在里面可以活成各种样子。如果你是很想学习,你是可以在学术上钻研。但如果你想探索其他东西,学校也提供这些资源,比如会请中戏的老师来教课。对艺术创作的爱好,我毕业十多年了,一直都没有断过。

在过去,技术圈和艺术圈是有 Gap 的。做技术的人容易轻视内容,觉得那是“软”的东西;做内容的人又不懂技术边界。Roto 对我来说,就是把这两个自我合二为一的载体。我希望用技术去拓展艺术表达的边界,而不是仅仅做一个冷冰冰的工具。

不做新“剪映”,做下一代“AI爱优腾”

硅星人:现在市面上有很多 AI 视频创作工具,大多致力于解决从剧本到生成的全链路问题。而 Roto 目前似乎更侧重于交互架构,创作过程中存在“断层”,用户可能需要在其他平台生成好素材再上传。你们为什么不把“剧本生成”或“一键抽卡”这部分功能做进去?你们和这些工具的本质区别究竟在哪里?

David:首先,我不否认目前市面上那些“全链路工具”的路线,但我认为这个赛道已经卷得太同质化了。

大家现在的通用逻辑都很像:从剧本拆解到关键帧,再到生成片段、拼接。但这套链路大家都在做,如果我们现在也冲进去,很容易就变成单纯的“抢市场”和“做推广”,跟别人其实拉不开差距。

我们要先做别人做不了的事——也就是这个节点式的创作架构、交互逻辑的搭建,以及配套的播放器。这是我们的核心差异化。

而且说实话,现阶段 AI 写剧本的能力也就“60 分水平”。让 AI 自动写剧本、拆分镜,已经被证明效果还不够好,很难产出真正高质量的内容。创作者可以带着好的剧本进来,或者在其他工具里生成好素材,然后利用我们的平台把这些素材“搭”成一棵复杂的剧情树。

更重要的是,如果只做工具,很容易陷入一个制造“电子垃圾”的死循环。因为做工具的商业模式通常是收订阅费(ARR),为了让更多人付费,你必须不断降低门槛,搞各种“一键生成”的模板,追求自动化。这就导致用户生产出大量低质量、同质化的内容。这些内容除了满足用户那一瞬间的“生成快感”,其实没有任何消费价值——发到朋友圈没人看,发到抖音没流量。没人看,用户就不愿意持续付费,整个生态就转不起来。

我们选择做平台,做 AI 时代的 Netflix。我相信一定是 PGC(专业生产内容)带动 UGC(用户生产内容)。所以现阶段我们不追求让所有人都能一键生成,而是通过邀请制,联合国内最头部的 AI 创作者(比如海辛、野菩萨)和传统的影视/短剧公司,用我们的工具去真正打磨出高质量的精品内容。

硅星人:做平台的难度在于,用户为什么要到你的网站来看?如果我把生成的视频直接发到抖音上呢?

David: 传统的视频平台(爱奇艺、抖音)播不了我们的内容。因为 Roto 的内容是非线性的、实时生成的。你在抖音上看到的是一个录制好的死视频,但在 Roto 上,你输入一句“拿着光剑战斗”,主角真的会拿出光剑;你选择“拯救”或“逃跑”,剧情真的会走向不同的结局。这种“可交互的动态体验”,必须依赖我们自研的播放器才能实现。这就是我们独立存在的价值。

当然,我们支持用户将体验过程导出为视频切片发到社媒,但这只是为了传播,完整的互动体验只能在 Roto 发生。

硅星人:冷启动的死循环怎么解决?没有创作者就没有内容,没有内容就没有用户。在产品早期,你们如何解决创作者的“吃饭”问题?

David: 这个问题非常关键。我们现阶段的商业化策略很明确:通过 B 端的品牌资源,来养 C 端的生态。

我们现在不会去向创作者收订阅费,反而鼓励他们多做。通过我们积累的商业资源,我们正在推一种全新的“品牌互动广告”。

品牌方其实非常愿意为“新形式”买单。比如一个球鞋广告,用H5页面的方式,通过 Roto 的技术,用户可以输入指令:“我想看王一博穿这双鞋”或者“我想看迪丽热巴穿”,广告里的人和鞋就会实时改变。这种高互动率的广告样式是传统视频做不到的。

硅星人:这是一个资源生意。

David: 是的。目前无论是用 H5 还是其他方式,都是为了把生态打起来。

在“抽卡”与“控制”之间,寻找工程化解法

硅星人:要实现你说的这种体验,光靠现在的视频生成模型似乎不够。具体到工程层面,比如我在体验时发现,生成的内容需要和上下文强关联。如果用户输入的内容太离谱,模型“崩”了怎么办?

David: 这是一个非常关键的工程问题。我们并没有把生成的权利 100% 交给用户,而是采用了一种“完形填空”的机制。

在我们的生成节点里,创作者其实已经预设了一个 Prompt 的“底座”(大概占 60%),比如规定了“中景、夜晚、赛博朋克风格、主角拿着某物”。观众的输入(比如“拿着一把咸鱼”)会被转化为一个“标签”,嵌入到这个 Prompt 中(占 30%)。

系统不会直接把这个 Prompt组合扔给视频模型,而是在后台先跑一遍语言模型(LLM)。LLM 会根据剧情背景(Context),将用户的简单输入改写为一段更符合视频模型理解的、情节饱满的 Video Prompt。比如你只输入了“一把剑”,后台可能会将其扩充为“在昏暗的烛光下,主角紧紧握住一把寒光闪闪的古剑,眼神坚毅”。这样既保证了用户的参与感,又确保了生成内容在创作者设定的审美和逻辑框架内,避免了“抽卡”式的不可控。

硅星人:还有哪些环节用到了AI,你们是如何去搭建的?

David: 这是一个多模态的协作流程。首先是意图识别:当用户输入文字或语音时,LLM 会判断这个意图是倾向于“正向拯救”还是“悲观逃跑”,从而决定剧情走向哪个分支。

其次是生成执行:我们会调用视频模型生成画面,调用语音模型生成角色的对白。我们目前对模型持开放态度,比如最近火爆的 Seedance 2.0,它的控制力度和表现力都有阶梯式的提升,我们就可以接入。我们相信随着推理加速技术的发展,视频生成终将达到“实时”级别。Roto 现在做的,就是为那个“实时时刻”搭建好所有的基础设施和内容范式。

技术+艺术+商业的组合,做全球市场

硅星人:你的MBTI是什么?

David: 我是 ENFP,快乐小狗。

硅星人:ENFP,创业者里面很少诶。

David:对,我其实还是一个蛮在乎过程是否快乐开心的人。创业是一个生活方式,在这个过程中,整个体验,然后对世界或者一件事儿的理解,包括你结交的这些小伙伴,这个对我来说最重要。

硅星人:但是ENFP其实容易情绪化,再加上创业的过程中波折也很多。

David:我不是个情绪化的人,但创业的过程中,有时候你就觉得这个事情怎么就做不出来,对吧?短时间内有很多事情放在一起。

我给自己的忠告是:既然你选择了创业,掌握了控制权,就要接受这种不稳定。其实没有哪一天是“World Ending Day”(世界末日)。你不会因为一个决定,公司就立刻死掉。凡事都是有余地的,关键还是看整体节奏,创始人心态也会传导给团队,对吧。

硅星人:你和你的团队是怎么认识的?

我和我的合伙人是大概去年上半年的时候认识的。在组队之前,我一直在思考:到底什么样的人适合一起创业?我身边很多清华或者硅谷的朋友,他们的创业团队通常是“全技术班底”,大家代码能力都很强。但我这次想尝试一种不同的建队思路——“技术+艺术+商业”三位一体

我自己负责技术和艺术愿景,而我的合伙人则是一位在商业化上非常有经验的连续创业者,他有丰富的广告行业背景和品牌资源。这种互补的组合,让我很好奇能不能在商业落地上跑出一些不一样的尝试,毕竟只靠技术很容易陷入“不知道怎么赚钱”的困境。

硅星人:创业差不多半年,你感觉国内外的氛围有什么区别?

David: 可能因为我在海外待了很久。我的感受是,国外是下限很高但上限不够高的环境,大家可以过得很安稳,做长期主义的 Research;而国内是下限很低但上限很高的环境,生存压力大,市场急躁,但如果你有想法,这里的产业链速度、人力成本和政策支持能让你极快地把东西落地。

我选择回国创业,也是希望能结合两边的优势:用硅谷的长期主义思考产品,用中国的速度去实现它。

硅星人:那 Roto 最终的市场定位是怎样的?侧重国内还是国外?

David: 我们的目标一定是全球化,甚至更侧重海外市场。

国内的内容产业已经高度平台化了,像爱优腾抖这样的巨头把持着流量,新的用户和创作者规模化确实比较难,但小公司也有很多值得做的事儿。

相比之下,海外市场是“内容至上”,而非单纯的“流量至上” 。在海外,像 A24 这样的小型 Studio 或者一些独立的内容制作公司,只要内容够好,是有生存空间的,不会轻易被大平台卷死。我觉得海外的竞争环境对极致创新的小企业更友好 。

所以我们在产品形态上,我们一定会做独立的 App,做全球的推广,在 Twitter、YouTube 上花精力,不拘泥于国内的叙事逻辑,去赚全球市场的钱。

黄小艺

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测