对话 Roto：不做 “AI 剪映”，他们想把Netflix没做好的互动剧用AI重做一遍-品玩

AI 视频界的“剪映”太多了，而Roto 想做 AI 时代的 Netflix。

作为母公司 FansAI 发布的全球首个开放世界互动视频平台，Roto 背后的团队均来自硅谷大厂与国内顶尖科技公司，试图构建一个介于游戏与影视之间的新物种。

对于创作者来说，Roto提供了一个节点式的创作工具，你可以设置剧情节点铺陈故事，设置生成节点调用 AI 实时产出画面，设置交互节点让观众输入文字或语音，或者通过分支节点决定故事走向不同的结局；发布之后，对于观众来说，他们就不再是被动的接收者，而是可以把自己的名字、形象甚至决策实时融入剧情，让每一次观看都成为独一无二的个性化体验。产品体验：https://rotopus.art/

我们和 FansAI联合创始人、Roto创始人 David Xu 聊了聊，他此前是 TikTok、Snapchat 的 AI 产品经理，着手了 AI 绿幕、AI 相机等功能的落地，另一方面，他也是一个在话剧团表演、在 Livehouse 组乐队的“非典型艺术生”。Roto 某种程度上正是这两个自我合二为一的载体——他希望用技术去拓展艺术表达的边界，而不是仅仅做一个冷冰冰的工具。

“我不否认市面上全链路视频创作工具的价值，但如果只做工具，为了让更多人付费，必须不断降低门槛，很容易陷入制造‘电子垃圾’的死循环。”

在他看来，用 AI 生成视频再发到抖音，本质上仍然是旧的内容消费逻辑；但每一代新技术的诞生，必然会催生一种全新的内容样式，而Roto代表的交互式视频，会是一种可能。

以下是对话实录：

当一个硅谷产品经理，决定做“艺术生”的梦

硅星人：可以先给大家介绍一下你们的产品？

David： 我们分成两部分：一部分是创作端，创作者可以用我们的平台去完成他们自己的 AI 互动剧并发布；另一部分是播放端，用户作为观众观看这些剧集，通过输入、语音等交互动作，改变剧情。我们比较笃定的是未来的内容是由观众共同创作的，每一次观看都可以成为独特的、高沉浸度的体验。

在创作流程上，现阶段用户按照“节点式”的逻辑构建剧情。节点主要有四种类型：

剧情模块（Story Module）：创作者上传自己已有的、设定好基调的视频内容。

交互模块（Viewer Interactive）：创作者设置问题或触发点，让观众输入（文字或语音），这些输入会被存下来影响后续发展。

分支模块（Branching）：根据用户输入的意图或行为，判定剧情走向不同的结局。

生成模块（Generation Module）：创作者选择各类视频模型（如 Veo, Seedance 等），在用户交互后实时生成画面。

硅星人：相当于我可以用你们的平台做一个《完蛋了！我被美女包围了》，并发布在你们平台上让其他用户玩？

David： 可以的。我们已经上线了十部互动短片，比如我们有一个教程短片叫《Roto 大战 Bug》。

[录屏2026-02-14 15.00.26.mov]

硅星人：挺可爱的，你们做了多久？

David： 一个人断断续续做了一周吧，这个是用Seedance 2.0 做的。如果你想做一个简单的交互，可能 1 个小时就弄完，但如果你想做一个稍微看起来还不错的片子，其实是需要很多构思的。

硅星人：这种互动形式其实并不完全算“新物种”，Netflix 之前也尝试过《黑镜：潘达斯奈基》，游戏行业也有类似的 AVG。但现阶段 AI 模型的能力还不足，生成速度慢、效果不稳定。为什么你选择在这个时间点切入？毕竟现在连基础的 AI 视频工具都还在解决“可用性”问题，你们还要在此基础上加一层复杂的交互。

David： 根本还是在于我们相信AI会带来下一代内容形式。AI 带来的核心变革是“相对实时”和“个性化”：

相对实时：虽然现在生成还要几秒甚至更久，但相比传统影视制作的“异步”（拍完剪完才能看），AI 正在向“同步”演进。

个性化：过去的内容，创作者和观众边界分明。但在 AI 时代，观众可以把自己的名字、形象甚至决策融入剧情。

我们不必像 Netflix 那样把所有分支的可能性都拍出来（那成本太高了），而是在框架内，让 AI 根据观众的输入去实时生成。这是一条此前从未有过的路径。

硅星人：所以你不想等技术完全成熟了再做？

David： 对。技术的发展是阶梯式的，现在的模型可能还不够快，但我们判断未来一定会达到秒级甚至毫秒级。在这个技术成熟的一两年过渡期里，内容侧的思考是不能停滞的。

就像短视频刚出来时，大家花了很长时间才探索出“竖屏、15秒、全身拍摄、快节奏剪辑”这套范式。AI 互动内容也需要时间去探索它的镜头语言和叙事逻辑。对于小公司来说，如果等大厂把技术都做完美了再进场，我们就没有任何机会了。我们必须在技术还不成熟的时候，先把“新一代内容平台”的范式立住。

硅星人：你对“内容”本身有执念吗？在此次创业之前，你的经历是怎样的？

David：我本科毕业后在硅谷呆了 10 年，先后在 Pinterest、TikTok 和 Snapchat 做产品经理。在 TikTok 时，我们做了 AI 绿幕；在 Snapchat，我负责将摄像头下的功能全 AI 化（AI 配文、修复、生图），接触了非常多的模型，但更多还是基于技术，去找成熟场景下的优化可能。但我始终觉得每一代新技术的诞生，都会催生一种全新的内容样式。

就像照相机带来了摄影，电脑带来了 CG 和游戏。现在的 AI 视频技术，如果不去创造新样式，只是用来做传统的视频，那就是在走老路。

另外，我也算是一个艺术创作者。我在清华读书的时候是话剧团、街舞团的成员，后来组过乐队当主唱，在海外的十年里，我也会去 Livehouse 演出，参加一些跳舞的活动和比赛。

硅星人：多才多艺型创业者，所以你读书的时候成绩怎么样？

David：那肯定是一般<笑>。但我会觉得清华很好的一点是，你在里面可以活成各种样子。如果你是很想学习，你是可以在学术上钻研。但如果你想探索其他东西，学校也提供这些资源，比如会请中戏的老师来教课。对艺术创作的爱好，我毕业十多年了，一直都没有断过。

在过去，技术圈和艺术圈是有 Gap 的。做技术的人容易轻视内容，觉得那是“软”的东西；做内容的人又不懂技术边界。Roto 对我来说，就是把这两个自我合二为一的载体。我希望用技术去拓展艺术表达的边界，而不是仅仅做一个冷冰冰的工具。

不做新“剪映”，做下一代“AI爱优腾”

硅星人：现在市面上有很多 AI 视频创作工具，大多致力于解决从剧本到生成的全链路问题。而 Roto 目前似乎更侧重于交互架构，创作过程中存在“断层”，用户可能需要在其他平台生成好素材再上传。你们为什么不把“剧本生成”或“一键抽卡”这部分功能做进去？你们和这些工具的本质区别究竟在哪里？

David：首先，我不否认目前市面上那些“全链路工具”的路线，但我认为这个赛道已经卷得太同质化了。

大家现在的通用逻辑都很像：从剧本拆解到关键帧，再到生成片段、拼接。但这套链路大家都在做，如果我们现在也冲进去，很容易就变成单纯的“抢市场”和“做推广”，跟别人其实拉不开差距。

我们要先做别人做不了的事——也就是这个节点式的创作架构、交互逻辑的搭建，以及配套的播放器。这是我们的核心差异化。

而且说实话，现阶段 AI 写剧本的能力也就“60 分水平”。让 AI 自动写剧本、拆分镜，已经被证明效果还不够好，很难产出真正高质量的内容。创作者可以带着好的剧本进来，或者在其他工具里生成好素材，然后利用我们的平台把这些素材“搭”成一棵复杂的剧情树。

更重要的是，如果只做工具，很容易陷入一个制造“电子垃圾”的死循环。因为做工具的商业模式通常是收订阅费（ARR），为了让更多人付费，你必须不断降低门槛，搞各种“一键生成”的模板，追求自动化。这就导致用户生产出大量低质量、同质化的内容。这些内容除了满足用户那一瞬间的“生成快感”，其实没有任何消费价值——发到朋友圈没人看，发到抖音没流量。没人看，用户就不愿意持续付费，整个生态就转不起来。

我们选择做平台，做 AI 时代的 Netflix。我相信一定是 PGC（专业生产内容）带动 UGC（用户生产内容）。所以现阶段我们不追求让所有人都能一键生成，而是通过邀请制，联合国内最头部的 AI 创作者（比如海辛、野菩萨）和传统的影视/短剧公司，用我们的工具去真正打磨出高质量的精品内容。

硅星人：做平台的难度在于，用户为什么要到你的网站来看？如果我把生成的视频直接发到抖音上呢？

David： 传统的视频平台（爱奇艺、抖音）播不了我们的内容。因为 Roto 的内容是非线性的、实时生成的。你在抖音上看到的是一个录制好的死视频，但在 Roto 上，你输入一句“拿着光剑战斗”，主角真的会拿出光剑；你选择“拯救”或“逃跑”，剧情真的会走向不同的结局。这种“可交互的动态体验”，必须依赖我们自研的播放器才能实现。这就是我们独立存在的价值。

当然，我们支持用户将体验过程导出为视频切片发到社媒，但这只是为了传播，完整的互动体验只能在 Roto 发生。

硅星人：冷启动的死循环怎么解决？没有创作者就没有内容，没有内容就没有用户。在产品早期，你们如何解决创作者的“吃饭”问题？

David： 这个问题非常关键。我们现阶段的商业化策略很明确：通过 B 端的品牌资源，来养 C 端的生态。

我们现在不会去向创作者收订阅费，反而鼓励他们多做。通过我们积累的商业资源，我们正在推一种全新的“品牌互动广告”。

品牌方其实非常愿意为“新形式”买单。比如一个球鞋广告，用H5页面的方式，通过 Roto 的技术，用户可以输入指令：“我想看王一博穿这双鞋”或者“我想看迪丽热巴穿”，广告里的人和鞋就会实时改变。这种高互动率的广告样式是传统视频做不到的。

硅星人：这是一个资源生意。

David： 是的。目前无论是用 H5 还是其他方式，都是为了把生态打起来。

在“抽卡”与“控制”之间，寻找工程化解法

硅星人：要实现你说的这种体验，光靠现在的视频生成模型似乎不够。具体到工程层面，比如我在体验时发现，生成的内容需要和上下文强关联。如果用户输入的内容太离谱，模型“崩”了怎么办？

David： 这是一个非常关键的工程问题。我们并没有把生成的权利 100% 交给用户，而是采用了一种“完形填空”的机制。

在我们的生成节点里，创作者其实已经预设了一个 Prompt 的“底座”（大概占 60%），比如规定了“中景、夜晚、赛博朋克风格、主角拿着某物”。观众的输入（比如“拿着一把咸鱼”）会被转化为一个“标签”，嵌入到这个 Prompt 中（占 30%）。

系统不会直接把这个 Prompt组合扔给视频模型，而是在后台先跑一遍语言模型（LLM）。LLM 会根据剧情背景（Context），将用户的简单输入改写为一段更符合视频模型理解的、情节饱满的 Video Prompt。比如你只输入了“一把剑”，后台可能会将其扩充为“在昏暗的烛光下，主角紧紧握住一把寒光闪闪的古剑，眼神坚毅”。这样既保证了用户的参与感，又确保了生成内容在创作者设定的审美和逻辑框架内，避免了“抽卡”式的不可控。

硅星人：还有哪些环节用到了AI，你们是如何去搭建的？

David： 这是一个多模态的协作流程。首先是意图识别：当用户输入文字或语音时，LLM 会判断这个意图是倾向于“正向拯救”还是“悲观逃跑”，从而决定剧情走向哪个分支。

其次是生成执行：我们会调用视频模型生成画面，调用语音模型生成角色的对白。我们目前对模型持开放态度，比如最近火爆的 Seedance 2.0，它的控制力度和表现力都有阶梯式的提升，我们就可以接入。我们相信随着推理加速技术的发展，视频生成终将达到“实时”级别。Roto 现在做的，就是为那个“实时时刻”搭建好所有的基础设施和内容范式。

技术+艺术+商业的组合，做全球市场

硅星人：你的MBTI是什么？

David： 我是 ENFP，快乐小狗。

硅星人：ENFP，创业者里面很少诶。

David：对，我其实还是一个蛮在乎过程是否快乐开心的人。创业是一个生活方式，在这个过程中，整个体验，然后对世界或者一件事儿的理解，包括你结交的这些小伙伴，这个对我来说最重要。

硅星人：但是ENFP其实容易情绪化，再加上创业的过程中波折也很多。

David：我不是个情绪化的人，但创业的过程中，有时候你就觉得这个事情怎么就做不出来，对吧？短时间内有很多事情放在一起。

我给自己的忠告是：既然你选择了创业，掌握了控制权，就要接受这种不稳定。其实没有哪一天是“World Ending Day”（世界末日）。你不会因为一个决定，公司就立刻死掉。凡事都是有余地的，关键还是看整体节奏，创始人心态也会传导给团队，对吧。

硅星人：你和你的团队是怎么认识的？

我和我的合伙人是大概去年上半年的时候认识的。在组队之前，我一直在思考：到底什么样的人适合一起创业？我身边很多清华或者硅谷的朋友，他们的创业团队通常是“全技术班底”，大家代码能力都很强。但我这次想尝试一种不同的建队思路——“技术+艺术+商业”三位一体。

我自己负责技术和艺术愿景，而我的合伙人则是一位在商业化上非常有经验的连续创业者，他有丰富的广告行业背景和品牌资源。这种互补的组合，让我很好奇能不能在商业落地上跑出一些不一样的尝试，毕竟只靠技术很容易陷入“不知道怎么赚钱”的困境。

硅星人：创业差不多半年，你感觉国内外的氛围有什么区别？

David： 可能因为我在海外待了很久。我的感受是，国外是下限很高但上限不够高的环境，大家可以过得很安稳，做长期主义的 Research；而国内是下限很低但上限很高的环境，生存压力大，市场急躁，但如果你有想法，这里的产业链速度、人力成本和政策支持能让你极快地把东西落地。

我选择回国创业，也是希望能结合两边的优势：用硅谷的长期主义思考产品，用中国的速度去实现它。

硅星人：那 Roto 最终的市场定位是怎样的？侧重国内还是国外？

David： 我们的目标一定是全球化，甚至更侧重海外市场。

国内的内容产业已经高度平台化了，像爱优腾抖这样的巨头把持着流量，新的用户和创作者规模化确实比较难，但小公司也有很多值得做的事儿。

相比之下，海外市场是“内容至上”，而非单纯的“流量至上” 。在海外，像 A24 这样的小型 Studio 或者一些独立的内容制作公司，只要内容够好，是有生存空间的，不会轻易被大平台卷死。我觉得海外的竞争环境对极致创新的小企业更友好。

所以我们在产品形态上，我们一定会做独立的 App，做全球的推广，在 Twitter、YouTube 上花精力，不拘泥于国内的叙事逻辑，去赚全球市场的钱。