“音乐届ChatGPT”Suno成最新热门应用多模态内容生成渐趋成熟-品玩

距 2024 开年仅仅 3 个月,AI 行业便已风云迭起, 前有 Sora 引爆文生视频热潮、万兴「天幕」带来音视频多媒体大模型应用范例, 后有 Kimi 强势突围早已略显拥挤的语言理解赛道。而最新站上行业「浪尖」的, 则是一款被称作「音乐界的 ChatGPT」的产品。

近日,AI 音乐生成软件 Suno 发布 V3 版本, 仅需要简单的描述, 就可以生成 2min 长度、广播质量级别的音乐, 包含从歌词到人声和配器的所有内容。用户甚至可以引导它准确选择想要的流派, 从三角洲蓝调 (Delta Blues) 到电子寒潮, 还可以变换方言。有国内用户用周杰伦的歌词作为基础, 让 Suno 重新生成曲调, 便「重制」了《以父之名》《夜曲》《七里香》等经典曲目, 生成效果令人惊艳。

窥一斑而知全豹。从 2023 年以 ChatGPT、文心一言为代表的大语言模型, 再到 2024 年 Sora、Suno 等音频、视频类大模型,AI 行业正向多模态生成狂奔。正如 AIGC 软件 A 股上市公司万兴科技董事长吴太兵指出, 大模型正在从图文 1.0 时代进入到以音视频多媒体为载体的 2.0 时代。IDC 中国研究总监卢言霞也表示, 要全面打开生成式 AI 的想象力, 还是要依托多模态大模型。

东方证券研报指出, 多模态大模型一方面有利于形成图片、视频等更加生动活泼、更具交互性的应用, 从而有助于 C 端爆款的诞生;另一方面, 多模态大模型能真正打通物理世界和数字世界的障壁, 实现与物理世界最自然的交互, 从而对自动驾驶、人形机器人等具身智能领域的突破提供有力支撑。

业内人士认为, 多模态大模型将最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域采用多模态大模型能力, 既可以提高生产速度又可以提高生产数量, 还可以创造全新的视听感受, 能够帮助企业真正实现降本增效、提升用户体验。

目前, 国内玩家在多模态大模型层面的布局尚且较少, 其中, 万兴科技旗下的万兴「天幕」在多模态内容生成能力上的表现较为瞩目。

前不久, 万兴科技官宣其旗下音视频多媒体大模型万兴「天幕」正式通过国家网信办、国家发改委等七部门发布的《生成式人工智能服务管理暂行办法》备案审核, 成为湖南首批通过备案的大模型之一, 也是备案制实施以来首个获批可面向用户开放服务的音视频多媒体大模型。

万兴「天幕」聚焦数字创意垂类创作场景, 基于 15 亿用户行为及百亿本土化高质量音视频数据沉淀, 打造基于大模型架构的 AIGC 应用基础底座, 全链路赋能全球创作者。据透露, 万兴「天幕」即将对外开放商用, 并将全面集成到万兴科技旗下产品中落地应用。

多模态内容生成能力方面, 万兴「天幕」以音视频生成式 AI 技术为基础, 由视频大模型、音频大模型、图片大模型、语言大模型组成, 涵盖文生视频、文生 3D 视频、视频 AI 配乐、数字人播报等近百项音视频原子能力, 同时支持全球不同语言, 具有「专精特快」优势, 可专业提升视频创作效率、精细化提升垂类质量、特色化补齐创作闭环、快速赋能应用智能化升级, 致力于为全球用户提供音视频创作完整解决方案。

目前, 万兴「天幕」相关能力已在 Wondershare Filmora、Wondershare Virbo 等海外产品上规模化商用。数据显示, 在万兴「天幕」的加持下, 使用产品 AI 功能的用户数倍速增长, 赋能效果显著。