LibTV 实测：人类用户再也不是产品的全部-品玩

过去两年，AI视频工具走过了一条很典型的路。

一开始是“对话式”，你输入一句话，它吐出一段视频，简单直接，但结果不可控；后来有了“节点式”，把创作拆成剧本、分镜、画面、视频一个个节点，可以分段推进、逐帧调整，但对用户的要求也高了一大截——你不仅要懂创作，还得懂怎么编排工具。

两条路各有各的解法，也各有各的局限。前者太轻，后者太重。

3月18日，LiblibAI推出了新产品LibTV，一个节点式画布形态的AI视频创作平台。画布这个形态本身不新鲜，但LibTV往里面装的东西，让它变得很不一样。

其一是，它往这张画布里塞进了大量精细化的创作工具——九宫格抽卡、多角度三视图、打光控制、扩图、5秒后推演……这些功能指向同一件事：让创作者在调用模型能力的同时，能更准确、更便捷地把控自己的创作意图。

看一个用户创作的案例就能感受到这件事的分量。

这个叫做《青春电幻物语》的短片，日系胶片质感，蒙太奇切得很碎，但碎而不乱——少年少女的面孔、光打进车厢的角度、风吹过麦田的颤动，运镜和场景、色彩和光影在不停切换中保持着统一的调性。

翻开节点图，能看到作者把这件事做得有多细……瞬间就明白了为什么这个短片的质感能这么好——每一个镜头都是被精心设计过的，不是随机抽出来的。

其二是，LibTV能够接入OpenClaw等Agent，通过平台自建的Skill，理解任务、调用模型并自动编排工作流。

这意味着这张画布同时向两类用户敞开——懂工作流的专业创作者，和只想开口说一句话的普通用户。

精细化工具解决的是创作者对结果的掌控感，Agent解决的是创作门槛和效率。把精细到极致的工具和自动化的Agent，同时塞进了一个画布里，LibTV走了一条很不一样的路。

节点式画布出现两年，但模型和产品间的Gap一直在

要理解LibTV在做什么，首先要看看AI视频创作行业的现状。

做AI视频的人，有一个词说起来都会会心一笑——抽卡。

意思是反复生成，赌一个满意的结果出来。早期大家抽卡，是因为模型本身不稳定，生成质量忽高忽低；现在模型能力提升了，但抽卡这件事却没有消失。

原因很简单：模型在进步，创作者的要求也在涨。用户对“理想结果”的定义越来越精确，比如想要一个光影准确、构图合适、情绪到位的镜头，导致提示词的难度和对模型本身的要求也更高了。

于是，为了解决这个问题，节点式工具陆续出现了。

这一产品形态的逻辑，其实很符合视频创作本身的结构——视频不是一张图，是从一帧到下一帧、彼此之间有关联的连续叙事。把视频拆成一个个关键节点分别处理，节点之间保持衔接，最后串成一条完整的叙事链——这让视频创作从“生一段、祈祷它能用”，变成了可以分段推进、分段校验的流程。

但实际上，过去这两年，很多画布都并没能真正解决精准控制的问题，只是先把问题的颗粒度缩小了。这是因为对单个节点的控制，本质是在填模型和产品之间Gap，不仅难度很大，且一直随着模型迭代而变化。

更麻烦的是，节点式工具对用户的要求极高。你需要同时具备两种能力：对创作意图的判断力，以及对工具编排的理解力。前者是创作者本来就有的，后者却是一套全新的技术语言，和创作本身几乎没有关系。

两种能力缺一不可，这让节点式工具在推出很久之后，依然是少数专业用户的领地。

LibTV的解法：更细致的工具+更简易的Agent，让创作者只做“判断题”

工具的易用性和创作的高上限，是一种悖论，但却同时被用户需要。这次，LibTV用“人+精细化工具”、“Agent+Skill”两种方式给出了自己的解决方案。

我们分别测了测这两种方式。

首先，在人+精细化工具这一路径下，我们先创建了图片节点，生成了两个古风人物，然后选择“角色三视图”功能，让后续角色在变化动作和角度时，能够更加稳定准确。

接下来，进入具体的场景图创作，我们设置了河边、树下、亭子里三种场景，LibTV支持多个节点同时生成，可以减少等待时间。

这基础的两步做完之后，接着，LibTV的精细化工具就开始上强度了。

针对当前的图片，工具大体分两类。一类是在原图上做精细控制，比如高清、扩图、重绘、擦除、抠图等等，其中最值得一提的是打光和多角度。

打光工具中，你可以选择智能模式，输入自然语言让模型自己理解，也可以手动操作三维坐标球，控制光从哪个角度打来、亮度是多少、颜色是怎样的，0 Prompt门槛。

看看实际效果，调完之后，画面的质感一下就提升了。

我们再接再厉，尝试了更多打光风格。后续，可以将不同的打光风格，变成视频的首尾帧，气氛的变化不就来了么。

多角度工具做的也是类似的事，只不过控制的变量变成了机位。

用户可以手动拖拽角度球，也可以用提示词，或者拉杆设置角度。左侧、俯视、仰视、背面，你选好点位，AI直接出图。

等一次生成也是等，我们直接同时让每张图都生成多个角度，用来做后续视频生成的参考，从而更精准地控制运镜，让视频的画面更丰富。

除了在原图上做精细控制，还有一批工具是通过斜杠命令调用的。

这些工具更多是从这张图出发，向外延伸出叙事接下来可以走的路，比如刚刚的多角度，在这里可以用“多机位九宫格”，让模型自己分配、一口气生成九个机位和景别的关键帧。

还有剧情推演四宫格，一次生成4个不同的剧情走向；25宫格连贯分镜，一次出25帧，生成出来的多宫格图像，可以用图像工具栏里的宫格切分功能，直接送进新节点。

我们尝试了一下，看着画布直出25宫格并切分，莫名有种很爽的感觉。

值得一提的是，这些功能，本质都是从“一张图”到“这张图能延伸出的所有可能性”。这是一个非常顺的动线，而非散点的。LibTV按照画面的结构，涵盖了光影、角度、景别、剧情推演等等元素，把对应的AI能力封装了起来，可以看出他们对于模型和创作的Knowhow。

图的部分走完，接着就是视频的环节了：将一个或者多个图像节点，连接上视频节点，选模型、时长、比例、画质。

LibTV在这里接入了可灵、Wan等几乎所有主流视频模型，不同模型有各自的适用场景，比如可灵O3可以声画同出，Seedream的中文、古风场景生成得更好，用户可以根据需要灵活切换。

我们从刚才生成的25宫格里选了一些符合剧情变化的具体帧，尝试把它们全部连起来，生成一段视频。

效果大概就是这样，挺惊叹的。

毕竟在此之间，关键帧的生成对Prompt要求很高，作为业余用户，我得靠大语言模型的外挂写提示词，但用25宫格的功能先批量生成图片，再根据效果挑选，再到最终生成视频，这个过程一个词不用敲，只需要等结果，然后做判断就好了，难度狠狠降低了。

视频生成后，你还可以接着做剪辑，或者用视频解析工具做一个更细致的拉片——它能把视频拆成分镜表，每一帧的景别、运镜方式、提示词全部标出来。如果你有想模仿的参考视频，也可以上传后，用这个工具先解析一遍镜头语言。

到这里，LibTV对素材的生成处理已经很完整了，但他们还没停手。

除了图片和视频节点之外，还有“故事脚本生成”节点：你可以给它一段剧本大纲，它帮你生成对应的分镜脚本。

关键是，脚本生成之后，点一下“批量生成分镜”，所有镜头的图就能一起跑出来；图出来之后，点一下“批量生成视频”，图转视频这一步也批量完成。你可以针对单个分镜或者视频做调整，也可以全程自动化。

以这个用户作品为例，可以直观地看到整个流程的自动化程度：

这里有一个细节值得注意：当系统批量生成脚本的时候，就已经对图片和视频每一个分镜做了提示词创作，你不需要为每一个镜头单独写描述。你给方向，AI填细节，这意味着对用户的专业门槛要求，又往下降了一层。

脚本节点的批量创作，是把执行的细节交给AI，人只负责判断，那么Agent的加入，又往更低的“人含量”，迈了一大步。

LibTV在个人中心提供了Access Key，点击右上角的Skills就能查看，让你的Agent，包括OpenClaw、KimiClaw 等等，都可以通过安装LibTV Skills来调用它的所有能力。配置过程很简单，一句话让Agent装好Skills，把Key发给它，就可以用了。

在用的时候，你只需要告诉Agent想生什么，Agent自己调用LibTV Skills，把你的需求传到LibTV的后端，后端Agent自己处理分镜逻辑、选模型、调参数、生成内容，最后把结果返回给你，同时在画布上建好对应的项目，所有节点都是串好的。

实测下来，我们能感觉到，流畅的功能编排和Agent的加入，都在让这个产品变得更易用了。

把人和Agent放进同一张画布

回到行业来看，视频创作工具的本质，是填补创作者真实需求和模型能力之间的Gap。这个Gap不是模型不够强，而是用户想要的东西和模型能理解、能输出的东西之间，始终有一段距离。大量非专业创作者没有办法用模型语言精确表达自己的意图，于是催生了抽卡、到处传提示词的现象。

而LibTV这次做的事，就是在用一批非常务实的功能把这个Gap填得很细。

精细化的工具链，是把模型的黑箱输出，拆解成创作者可以逐项介入的调节动作——光影可以调、机位可以选、剧情可以推演。模型负责生成素材，创作者负责做“选择题”。

而Agent这一侧，则有更长远的意义。未来，随着Skill的积累和调用工具、记忆能力的增强，Agent能够逐渐从“执行简单指令”进化到“理解创作意图”。你今天调好的一个工作流，明天可以被Agent记住；你今天做的一个打光方案，下次可以被Agent复用；你今天为一个角色设定的三视图，以后会成为Agent生成这个角色的默认参考。

而对现阶段更有参考意义的事，当两者在同一张画布上协作，你可以先让Agent跑出一个草稿，再对不满意的节点逐一介入调整，压缩从零开始的成本，创作者只需要把精力放在真正需要判断的地方，其余的交出去。

这是一个渐进式的进化过程：模型提供底层的生成能力，Agent负责调度和记忆，创作者负责审美和判断。三者之间不再是“人vs工具”的对立关系，而是一个协同进化的闭环。

画布这个形态确实不新鲜，但LibTV往里装的东西，让它变得不一样了。