品玩

科技创新者的每日必读

打开APP
关闭

AI商业化热潮开启,景联文科技以高质量数据助推产业落地

2020年10月10日

随着技术不断发展,人工智能正逐渐从云端落地,走进大众生活。腾讯研究院在《2020腾讯人工智能白皮书》中将其描述为“泛在智能”,即广泛存在的智能。

一方面人工智能作为全行业各领域数字化、智能化转型的基础,已变成像网络、电力、交通道路一样的基础服务设施;另一方面,随着技术、算法、数据生产力的不断提升,人工智能正在深入家居、出行、医疗、金融、城市等领域,面向更多元、规模更大的受众。

“泛在智能”说明人工智能目前已经进入技术和产业融合发展阶段,这也意味着在不久的将来,AI将从实验室走向成熟的大规模商业应用,而在这个过程中,数据作为驱动人工智能前进的“燃料”,已上升到了战略性资源。

不可或缺的数据采集与标注

在阿里达摩院发布的《2020十大科技趋势》中重点提到:人工智能正在从感知智能向认知智能演进。

目前,人工智能在“听”“看”等感知领域已经达到或超越人类的水准,但在认知智能领域还处于初级阶段,让知识能够被机器理解和运用,是实现感知智能到认知智能的关键,而为了达成这一过程,背后需要大量的结构化数据支撑。

进入大数据时代后,信息爆炸,写个脚本,数据一抓一大把,但这样的庞杂无序的数据很难直接用来训练AI算法模型。

一方面,当前应用的人工智能算法模型大多是在某一特定场景下,执行某一特定任务,在网络上抓取的信息数据缺乏针对性,很难投入使用。

根据《人工智能2020:落地挑战与应对》报告显示:在图像识别、文本识别、语音识别等单点场景,可以基于外部公开数据进行模型训练。但在解决具体业务问题时,不管是前期模型训练还是模型上线后的使用,都需要用到来自实际业务场景的数据,外部数据价值度有限。

另一方面,业务场景数据也需要经过清洗和标注,才能被人工智能理解应用。因此,需要大量的人来当AI的“老师”,教它们学习知识、认知世界。而充当老师这一身份的就是“人工智能训练师”,也是我们常说的“标注员”。

就像小时候牙牙学语时,父母会指着一只毛茸茸的动物,不断重复地说着“狗”,标注员做的工作也极为类似,他们将狗的图片一个个勾勒出来,并赋予“狗”标签,从而让机器能够准确识别。

对于人工智能而言,这些带有着明确标签的结构化数据必不可少。尽管目前学界、业界正在探索仅使用少量数据的自监督学习,但就目前的发展态势而言,短时间内,AI对数据的依赖的情况还很难改变。

遍地开花的AI数据公司

由于数据的不可或缺性,在人工智能产业的飞速发展的同时,AI数据市场规模也迎来增长,随之而来的还有“掘金者”的疯狂涌入。

相对于人工智能产业链的其他环节,数据生产门槛较低,因此,目前市场上标注团队、兼职个人、众包平台不计其数。只需要数个人力,加上几台电脑,就能组建起一个临时工作室。没有重资本投入,轻快的节奏,加上不断探底的价格,足以迅速占领市场。

早期,这种数据生产模式为人工智能产业探索前进贡献了海量的“燃料”,然而随着AI商业化落地在即,对算法模型的精度要求不断提高,市场对高质量数据的需求也在不断增大,优质AI基础数据成为稀缺资源。

以开发一个语音交互模型为例,在数据采集阶段,根据语种的不同,大致可以分为外语小语种采集、中文普通话采集、方言采集、方言普通话采集,每个语系下面,又可以逐步细化,并且对于采集人是否为母语者、采集人年龄、采集的话题、时常、格式、质量、是否加入环境噪音等问题,都需要根据实际应用场景,做出界定。

在采集之后,通常还需要对数据信息进行标注,同样以语音标注为例,如果是ASR转写,就需要有精通该门语种的人进行转写标注,如果进行情绪判断、韵律判断,则需要更复杂的操作。

此外,在数据整理好后,还需要至少两轮的质检程序,以保证交付数据的准确率。

对于如此繁复的流程,单兵作战的标注团队以及兼职个人是很难完成的,必须引入成熟的项目管理经验,因此,AI品牌数据商模式应运而生。他们拥有丰富的行业经验、完善的流程管理机制,能够在安全的前提下,帮助客户获取到优质的AI数据。

景联文科技是国内最早一批AI品牌数据商,早在2016年就开始涉足AI数据业务,发展至今,已拥有220人全职标注团队,涵盖语义分割、拉框标注、多边形标注、关键点标注、3D点云、2D3D融合标注、图片分类、声纹识别、ASR转写、韵律标注、NLP、文本分类、OCR转写、情绪判断等多种标注业务。支持企业私有化部署、跨地区驻场等定制服务。

目前,景联文科技已与阿里巴巴、华为、vivo、美团、字节跳动、滴滴、陌陌、海康威视、大华、宇视、同济大学、中国人民大学、工信部中国电子技术标准化研究院、公安部一所等多家企业、机构达成深入合作。

庞大的市场需求造就了AI数据产业的繁荣,但另一方面“掘金者”大量涌入,导致行业野蛮生长,数据质量停滞不前。

在AI商业化热潮开启的当下,数据质量直接决定了模型的准确度以及业务场景适用性。就如同那句经典名言——Garbage in, garbage out(输入错误,输出错误),如果投入AI训练的数据精度不够,那么算法模型实际的效果也会差三错四。所以,无论从技术目标还是商业角度思考,高质量数据的十分必要。

在未来,景联文科技将持续聚焦AI数据,为人工智能发展提供优质的“数据燃料”,推动产业落地。

取消 发布

下载品玩App,比99.9%的人更先知道关于「业界动态」的新故事

下载品玩App

比99.9%的人更先知道关于「业界动态」的新故事

iOS版本 Android版本
立即下载
AI阅读助手
以下有两点提示,请您注意:
1. 请避免输入违反公序良俗、不安全或敏感的内容,模型可能无法回答不合适的问题。
2. 我们致力于提供高质量的大模型问答服务,但无法保证回答的准确性、时效性、全面性或适用性。在使用本服务时,您需要自行判断并承担风险;
感谢您的理解与配合
该功能目前正处于内测阶段,尚未对所有用户开放。如果您想快人一步体验产品的新功能,欢迎点击下面的按钮申请参与内测 申请内测