Beyond Real: New AI Creates Videos That Surpass Reality (Sora.Ai Beware)
当前,数字创新的前沿领域,正在探索人工智能如何创造能够模糊现实与虚拟世界界限的视频。
如果你一直关注最新的AI新闻和动态,你肯定知道业界对OpenAI即将发布的新Sora模型充满期待。然而,在我们焦急等待之际,中国的快手公司突然推出了一款具有"颠覆性"的AI模型——可灵(Kling),它的表现震撼了所有人。
可灵是由快手公司开发的视频生成模型。快手你可能并不陌生,他们的应用Kwai非常流行。这款新模型与Sora相似,但有些人认为在某些方面它甚至更胜一筹。最引人注目的是,可灵是对所有创作者开放的,这意味着更多的人可以体验它的功能。
想象一下,如果一个提示词是“一个中国男子坐在桌子旁用筷子吃面条”,可灵就能根据这个提示生成一段几乎逼真到令人难以置信的视频。如果你还记得那个威尔·史密斯吃面条的视频,它看起来像是恐怖片中的场景,可灵生成的视频与之相比简直是天壤之别。可灵能够仅凭一个提示生成长达2分钟、1080p全高清、每秒30帧的视频,这确实令人印象深刻。它精确地模拟了现实世界的物理属性,不仅让视频看起来逼真,连动作都像真实生活一样自然。
可灵背后的技术是其扩散变换器架构,这项技术帮助它将丰富的文本提示转化为生动、现实的场景。它还使用了专有的3D变分自编码器(VAE),并通过可变分辨率训练支持各种长宽比,这意味着它可以处理不同尺寸的视频并保持高质量输出。此外,可灵的3D面部和身体重建技术非常先进,它能够创建展示完整表情和肢体动作的角色视频,所有这些都只需一张全身照片即可驱动。
中国在AI发展方面显然正在提升其竞争力。可灵只是中国AI技术实力的冰山一角,它预示着中国可能已经在这一领域走在了前列。尽管Open AI表示他们计划在年底前发布Sora模型,但面对可灵的出色表现,他们可能需要加快步伐。目前最大的疑问是,中国是否会让可灵在全球范围内可用——目前它只能通过快手的应用程序访问,并且需要一个中国的电话号码。
可灵并非中国首个AI视频生成模型。早在今年4月,Vidu AI就发布了,它能在1080p分辨率下生成16秒的视频。可灵作为Vidu的进化版,提供了更长的视频和更高质量的内容。在其网站上,你可以看到一些演示视频,它们展示了模型处理复杂场景和动作的能力,同时保持了高质量。
可灵背后的技术还包括3D时空联合注意力机制,这有助于它模拟复杂动作并生成符合物理定律的更大动作视频内容。例如,一个男子在沙漠中骑马的视频,马的动作、尘土的痕迹,甚至是背景中的日落,看起来都非常真实。此外,可灵还使用了高效的训练基础设施和极致推理优化,这使得它能够以每秒30帧的速度生成长达2分钟的视频,如一个小男孩在花园里穿过不同季节骑自行车的视频,整个过程都保持了高度的一致性和细节。
可灵的另一个亮点是其强大的概念组合能力,它可以将不同的想法合并成一个连贯的视频,如“一只白猫在繁忙的城市中开车”这样的场景。它还能制作出具有电影级图像质量的视频,如一个男子和一个女人在星空下行走的视频,背景中的星星在移动,这些视频的细节和质量都具有电影感。
此外,可灵支持各种视频长宽比,无论是Instagram的正方形视频、TikTok的竖屏视频,还是YouTube的横屏视频,它都能处理,为内容创作者提供了极大的灵活性。从创作者分享的视频中,我们可以看到可灵生成的视频细节非常精确,例如一个中国男子用筷子吃面条的视频,以及一个厨师在厨房里切洋葱的视频,都展示了极高的逼真度。特别值得一提的是,一个猫在繁忙街道上开车的视频,它结合了汽车、建筑、行人和猫的动作等多种元素,展现了可灵在创造无缝视频中的能力。还有火山在咖啡杯中爆发的视频,以及乐高角色参观艺术画廊的视频,都显示了可灵在处理深度和焦点变化方面的能力。
可灵的另一个显著特点是其模拟现实世界物理的能力。例如,将牛奶倒入杯子的视频,牛奶流动并填满杯子的过程非常稳定和真实。这对于AI来说,正确处理物理交互实际上是相当具有挑战性的。可灵还能生成具有时间一致性的视频,如一列火车穿越不同景观的视频,在整个2分钟内都保持了一致性。
与此同时,OpenAI在三年前解散后重新组建了其机器人团队,并正在积极招聘研究工程师。虽然细节保密,但招聘信息表明工程师将专注于训练多模态模型,为合作伙伴开发功能,并优化核心模型。OpenAI的目标是将其技术整合到其他公司的机器人系统中,而不是直接竞争,这预示着AI驱动的机器人未来充满希望。
总的来说,可灵向我们展示了中国在AI视频生成技术方面的快速进步。他们不仅跟上了美国最好的模型,在某些情况下甚至超越了它们。这可能导致AI发展的竞争性竞赛,各国努力超越彼此,这可能带来激动人心的进步和潜在的风险。我们期待看到OpenAI如何回应快手的可灵AI模型。
0 条评论
请「登录」后评论