品玩

科技创新者的每日必读

打开APP
关闭
业界动态

“长文本”“多模态”再到“价格战”,国产AI大模型哪家最好用?

shuohang

发布于 2024年5月17日

2024年年初Sora的爆火、再到最近OpenAI发布的“全能”大模型GPT-4o,多模态能力已成为AI行业新焦点

514日,OpenAI发布了新一代旗舰模型GPT-4ooomni意为“全能”),标志着AI技术在多模态能力上的重大突破。GPT-4o不仅在文本、音频和图像的理解上具备了流畅的输入输出能力,更在人机交互体验上实现了质的飞跃,其快速响应和情感表达能力让人印象深刻。

如果说2023年用户对AI大模型的印象还停留在“聊天机器人”这样单一的功能,进入到2024年,多模态能力的提升,能够让人工智能技术更好的帮助人类提高工作效率。

在国内,AI大模型的竞争日益激烈。318日,月之暗面宣布其对话式AI助手产品Kimi智能助手支持200万字的无损上下文输入,随后,百度文心一言宣布免费开放200万—500万长文本能力阿里通义千问直接上线1000万字长文本360也官宣内测500万字长文本。讯飞星火、商汤日日新大模型也在4月进行了多项能力的升级;就在515字节跳动发布豆包大模型”家族,将大模型使用成本从以分计价推进到以厘计价可见,国产大模型都在通过比拼技术或价格优势,来在这场大模型竞赛中争得一席之地

然而,也有不少网友吐槽,国内大模型纷纷对标ChatGPT,看似技术提升,实际上在日常生活中并没有实用价值,以长文本为例,日常的合同、保险等长文档,一般在几万字,而大模型所支持的几百万到一千多万的文档处理能力,在日常生活场景中并不多见。

笔者注意到,最近一份评测报告以日常办公、生活等使用场景为维度,对多款国产大模型进行了实测。评测所选取了六家国产大模型:Kimi、文心一言、通义千问、讯飞星火、商汤商量、智谱清言,分别选取了租房合同、汽车保险赔付、撰写报告提纲、辅导孩子作业等几个场景中,从而考察大模型在长文本、图片、视频等多种格式的文档理解、问答、输出能力,即“多模态”能力,以及逻辑推理、数学能力,也就是大模型是否“聪明”。

在日常生活中,除了需要处理长文档,还会有许多的拍照、录像、长视频资料,而当前的大模型已经开始具备处理这些复杂信息,做提炼整理的能力,能够极高的提升办公效率。在做数学题方面,大模型也能够生成解题思路,成为学生的学习助手。

根据评测结果来看,Kimi依然在长文本处理上表现突出,但多模态能力缺失,导致Kimi无法处理很多用户日常需求。而商汤、文心一言和通义千问,也存在图片、音视频文档处理结果不理想,或是存在无法解析视频、大模型对话和文档处理不在一个入口等问题。整体来看,讯飞星火综合能力更强,在解决用户实际问题上更为高效,其综合排名位居第一。

GPT-4o的发布为AI行业树立了新的标杆,而国产大模型的快速发展也让我们看到了追赶甚至超越国际先进水平的可能。在多模态AI的赛道上,国产AI正以强劲的势头不断前行。然而,作为普通用户,我们也希望,国产大模型的发展应当更多地关注用户需求,而不能偏离实际使用场景。AI技术的进步应当服务于用户的实际体验,而非单纯的技术自嗨。只有在深入了解并解决用户痛点的基础上,国产AI大模型才能在国际竞争中站稳脚跟推动AI技术在各个领域的应用落地。

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
shuohang

这家伙很懒,什么也没留下,却只想留下你!

取消 发布
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测