品玩

科技创新者的每日必读

打开APP
关闭
快手

第一手 | 快手自研的文生图大模型“可图”来了,已于近期开启内测

有备而来。

李禾子

发布于 2023年9月18日

今年下半年以来,快手正在频频发力大模型业务。

未来科技力独家获悉,快手在AIGC领域的最新进展——自研文生图大模型可图Kolors)已在公司内部全面开启内测。

继上个月推出大语言模型快意(KwaiYii)后,快手在不到一个月的时间内,又推出了文生图大模型可图(Kolors),在大模型业务方面继“文生文”之后又补上了“文生图”这块版图。

未来科技力从可图项目组研发成员侧了解到,可图文生图大模型有着三个突出特点,分别是强大的文本理解、丰富的细节刻画,以及多样的风格转化。

而从可图大模型内部平台测试版的首页排布可以看出,它已经拥有了成熟的产品雏形。

“可图”大模型内部平台测试版首页
“可图”大模型内部平台测试版首页

尽管可图大模型尚未开启外部测试,它的具体表现我们依然可以从快手App两天前上线的“AI玩评功能中略知一二。

“AI玩评已于915日在快手主站开放内测,由可图文生图大模型提供技术支持。

就在我们以为这又是一个单纯面向短视频创作者的文生图工具、会出现在视频编辑后台时,快手却颇让人意外地把“AI玩评功能放在了评论区。

也就是说,以后你在某个短视频下评论,可能不再需要煞费苦心去找适合的图片/表情包了,快手直接就能为你生成一张。

“AI玩评上线当天,获得测试资格的用户已经开始在快手官方的评论区开始了许愿式留言。

未来科技力也在第一时间获得了内测资格,下面就来看看我们的一手体验。

首先在快手App打开任意一条视频的评论区,找到评论输入框右侧的“AI”按钮,就可以很方便地进入“AI玩评的功能界面。

生成图片的前提是需要先输入一段至少六个字的文字,输入后右侧的AI图标就会自动亮起,告诉你可以开始生成。

先来试试一些比较常规的描述看它能不能听懂,比如输入阳光照耀的沙滩,一个小孩在海边玩耍

几秒之后下方就会出现一组AI生成的图像,每张都标注了不同的风格,包括了新海诚、像素画、写实动漫、国风、赛博朋克和皮克斯等等,据说有十几种。如果对生成的几组图不满意,还可以点右上角的换换看重新生成一组。

从生成的图像来看,理解还是挺到位的。

再输入几句中国古诗句,它竟然也听懂了:

从画面的细节来看,不管是叶片和花瓣的细微纹路,还是根根分明的花蕊,难得能处理得不错(叶片外围的枯边也体现出来了)。

据说快手AI研究团队更改了去噪算法的底层公式和加噪公式,同时精选了一批高细节、高美感的优质数据,在模型学习的后期进行有侧重学习。能让生成图片的细节纹理更丰富,想必也与此有关。

我们再来输入一些中文语境下有着特定含义的词组:

也不错,至少没有把鱼香肉丝画成一只鱼加一片肉,隔着屏幕也闻到了麻婆豆腐的辣味(上面甚至还撒了葱花点缀)。

它甚至能听懂什么是干饭人(“干饭”本来是西南官话方言):

可图大模型对中文表达的理解从一开始可以说就被纳入了考虑。

据快手研发人员透露,快手AI有着数十亿的图文训练数据,这些数据来自开源社区和自研AI技术合成,并且覆盖了常见的三千万中文实体概念,在此基础上训练研发了一个强大的中文CLIP模型。

自研的中文LLM加上融合CLIP的图文特征作为文生图的文本理解模块,让可图大模型能更好地理解中文特色概念,减少了复杂概念、属性混淆等文生图领域常见问题。

不过,既然是把“AI玩评的功能放在了评论区,也要来看看它在评论场景下表现如何。

蹭个热点,输入描述心情的抢不到火车票非常沮丧“AI玩评还是生成了一些比较能反映这种情绪的有趣图像:

而当我输入那句表情包里经典的我听不懂,但是我大受震撼,发现还是生成的简笔画风格和新海诚风格表现最贴切(最受欢迎的生成风格预定?):

整体体验下来,“AI玩评还是有可圈可点的地方,当然前提依然是能用合适的prompt,以及是比较常见的描述来提示AI。而如果考虑到网友们在评论时自由表达心情和口语化的普遍特点,这一功能依然可以做许多探索。

“AI玩评功能其实能看出一部分快手对于大模型应用的思考,也就是——非常强调落地

不同于早前很多致力于打造通用大模型产品的公司,快手这样短视频内容社区,在大模型产品功能的研发上要更重视和社区的结合,在乎的是用户是不是能真正用到。

就像8月依托快意大模型推出的“AI对话功能,有一部分是基于搜索场景,能让用户更便捷精准地找到平台上的内容(在给出答案的同时也会附带相关视频、百科的链接),服务用户的思路同样也延续到了“AI玩评

至于为什么把可图大模型在快手站内首先落地到评论区,快手的官方回答是,

“快手应用的累计互关用户对数超过311亿对,同比增长近50%,日均互动(包括点赞、评论和转发等)总量达80亿次。有较强用户粘性的短视频评论区成为AIGC能力最佳的落地应用场景之一……(花时间和精力找配图)在很大程度上抑制了用户发布评论的意愿,AI玩评能够极大提升用户参与评论的积极性和满意度。”

当然,既然将可图大模型做成了产品,背后可能还承载着快手更大的野心。

今年5月的一季度财报电话会上,快手CEO程一笑第一次向外界透露了快手大模型业务的进展:已组建大模型研发团队,并依托过去在AIGC算法和大规模语言模型方面的技术积累,按计划推进大模型开发和训练。

两个月后,快手在78日宣布开始内测搜索智能问答产品,拉开了大模型应用落地的序幕。

随后就是较为密集的产品及功能发布:88日快手开始“AI对话功能内测,821日大语言模型快意开启内测,915日主站内测“AI玩评功能,直到今天可图文生图大模型浮出水面……

值得注意的是,快手曾在今年810日、面向平台创作者举办的光合创作者大会上第一次正式且较为详尽地介绍了其大模型业务的进展。

针对此前一直向外界透露甚少的大模型业务,快手在这次大会上一口气公布了了多项进展。其中就包括了文本、图像、视频乃至3D素材和音乐音频生成的多种能力,覆盖了视频创作的创意激发、素材挖掘及剪辑制作各个环节,同时还针对直播场景重点介绍了快速制作属于用户自己的孪生数字人的解决方案快手智播

甚至这场一年一度的大会本身,包括海报和嘉宾出场方式等等,也罕见地充满了AIGC的元素。

选择从零开始自研大模型的快手,不知不觉已经积累了许多,慢慢搭建起它口中的全模态大模型AIGC解决方案

所以到这次推出可图大模型,快手可以说也是有备而来。

虽然今年以来国内各大公司都开始陆续推出各自的大模型产品,但就内容公司来说,我们似乎还没有看到过一款能真正让人印象深刻的产品,如何能在训练出一个靠谱大模型的基础上探索出更多属于内容公司的新玩法,想想还是挺让人期待的。

下载品玩App,比99.9%的人更先知道关于「快手」的新故事

下载品玩App

比99.9%的人更先知道关于「快手」的新故事

iOS版本 Android版本
立即下载
李禾子

品玩作者,关注技术和内容的结合,负责报道有趣。欢迎关注「22世纪漫游指北」公众号,线索采集微信:lhz_940107。

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测