探秘AI幕后:“硬核英雄”的超级武器

2019-09-10 11:15 
分享
分享到
分享到微信

作者 | 云计算的阿晶

出品 | AI科技大本营(ID:rgznai100)

掐指一算八年之前,那时正是国内互联网卯足劲头起飞的一年,各行各业表现都很突出,尤其是与人们生活密切相关的手机,正大踏步地从功能机向智能手机转型,其中的市场需求可想而知,阿晶觉得那种爆炸程度完全不亚于如今人们对5G的狂热追逐。

伴随智能手机的迅速普及并大举助力产业化发展进程,各类 APP 宛如新生。同样是那一年,一家名为云测的企业在业内初现,迎着移动互联网的风口做起了应用测试的业务。回顾当时的云测,创始团队几乎将市面上所有“露头”的手机机型都采购回来,建立云真机平台,提供包括质量测试、自动化测试等在内的诸多服务,为加快移动互联网产品的迭代无私地贡献了自己的血汗。

随着时间推移,企业发展且技术演进,在云测积累大量客户的过程中,一些 AI 企业主动找到云测提出 AI 数据服务的需求。如果说最初选择应用测试是行业所趋的话,这次与“数”结缘则完全是需求导向,就这样云测开始布局AI数据服务行业,旗下的 AI 数据服务品牌“云测数据”就此诞生。据阿晶了解,作为AI数据资源服务的头部品牌,云测数据早已走在行业前列。其拥有足够的方法论和对应的协同工作的处理方式,为智能驾驶、智能家居、智能安防、智慧金融保险等领域提供定制化的数据采集标注服务,可以做到全方位支持文本、语音、图像、视频等各类型数据的处理。截至目前,云测数据在华东、华北、华南都设有数据交付中心和采集基地,已成功为数百家企业提供了一站式AI数据服务。说到此处,不容忽视的一点,伴随 AI 应用落地,对于数据种类、质量以及场景匹配程度的要求正逐渐提升,拥有特定场景数据的优势会逐渐成为 AI 企业在行业内纵横捭阖的“杀手锏”之一。对此,云测数据总经理贾宇航强调,为了贯彻这种战略导向,获取更多特定场景的数据,云测数据结合多年的项目管理流程能力,在全国多地自建了数据场景实验室和数据标注基地,并配备多种采集软、硬件设备,着力打造了一只专业的定制化采集和高质量的标注队伍。

“我们要做到能尽可能多的覆盖 AI 客户的不同长尾场景,满足各类场景要求高、采集难度大等采集作业,从源头提升数据适用性。此外还需凭借管理、风控等方式,最大程度确保数据精确度、保密性等进而完成企业赋能。”他进一步补充道。纵观AI技术以及行业的发展,阿晶觉得其实云测的“数据战略”不无道理。从整体人工智能的发展历程来说,背后支撑的三大要素分别是数据、算法和算力,当人们将过多的精力聚焦在算法和算力上时,殊不知 AI 数据在人工智能商业化落地中发挥着不可替代的作用。举个例子来说,算法模型被设计好后就需要大量标注好的数据进行训练才能实现更智能的结果;如果希望性能和算法精准度得到进一步提升,细化精准的数据更是必不可少,否则会制约整个数据行业以及人工智能产业的发展。具体到商业化的落地,贾宇航表示,虽然算法和算力得到巨大提升,但只有拥有贴近真实场景的精准数据,企业才能在AI落地和商业化道路上越走越稳。

这么看,数据对 AI 就像水电一样关键,如果从 AI 数据服务的发展进程考量,互联网沉积数据可被认为是初始期,时间大致可以追溯到5-10年前。当时很多 AI 领域的企业依托互联网上沉积的大量数据投身算法验证,通过爬虫和数据清洗等简单易操作的方式,至此一些主营数据集产品的公司应运而生。

发展到第二阶段,主要涌现的是通用型数据产品,催生了以“识别”为主,用于实现简单数据分析的用途。“第三阶段,有些企业发现通用性产品确实存在不小的问题,例如无法解决诸多企业面临的实际问题,由此定制化需求的产生势在必行,例如亚马逊 Amazon Mechanical Turk。”贾宇航总结道。“发展到第四阶段,部分企业为了突破行业内算法的局限性,选择通过硬件升级或者数据维度多样化得角度着手,进一步丰富自己的数据库存,但有一点困难之处,这些定制化数据很难通过众包途径获得,定制市场机会无限。”发展到如今,用户数据进入到沉淀时期。该阶段,企业在使用过程中会不断积累数据,进而让产品迭代更加智能。值得注意的是,有些产品自带分享或社交功能,很大程度上会丰富互联网的数据沉积,助力企业进入到下一个阶段并加强其中的循环往复。总体来看,企业在不同的阶段需要不同类型的数据服务,但众包采集和定制化采集是数据采集行业的两种常见模式。其中众包模式的优势主要体现在样本的丰富性上,但对于今日的 AI 数据服务业务的特性,通过众包模式解决所有数据采集的需求显然不现实。更关键的是,定制化需求的采集任务中,众包用户采集到的数据往往差强人意,反倒出现增加审核成本的情况。此处阿晶搜罗了一些有关具体企业级数据采集的资料,其显示 2018 年中国AI公司的总融资规模达到千亿元以上,其中数据采标的市场约为 100 亿元— 300 亿元。具体来说 AI 公司内部的标注部门之间消化,基本占三分之一;剩下的 25%—33% 则流向专门做数据采标的第三方公司。如此看来,数据采集对企业来说不但必要而且重要,但如果企业选择自建团队进行数据采集和标注,必然面临耗费大量时间成本、人力成本的局面;另一方面,花钱花时间不说,要做到壁垒般独享数据,又对数据安全提出更高要求,轻易分享怎么能行?

基于 AI 数据发展路径以及诸多企业痛点,云测主要瞄准了为企业提供定制化场景的数据采集与提供自建团队式的高精度标注服务的业务重点。对此贾宇航解释道,投身做定制化场景数据采集主要在于,目前很多企业已存在的数据维度对于算法提升的效果早就面临瓶颈,必然需要引入更多维度的数据,例如对应场景的多模态数据,将 2D、3D 数据以及声音等多维度的数据结合起来提升算法性能,而这样的数据在互联网的条件下或者通过已有的众包数据采集很难获得。

此外有些企业为了提升算法精度自研了一些硬件,而这些硬件只能通过定制化场景去实现更好的效果。所以帮助企业还原想要的定制化场景是显示业务优势的手段之一,这项实践被贾宇航称之为场景实验室。据阿晶了解,这些场景实验室目前主要分布在华东、华北和华南。在场景实验室中,云测数据会根据客户需求,邀请特定模特到实验室中进行数据采集。可以这样定义,场景实验室是云测数据布局高度定制化、多模态的 AI 数据服务的重要组成部分,借此能使得其交付能力与客户需求平行,甚至领先客户的需求一点点。当然除了很智慧的场景实验室之外,云测数据的核心优势还可总结为三方面。从人才专业性角度出发,目前云测数据主要服务于智能驾驶、金融、智能生活、安防等四大领域,每一领域均由不同的项目经理组负责。其中项目经理都经过包括 AI 基础、作业管理、场景搭建、突发事件处理等至少 350 小时的职前培训,完全能够做到为客户梳理项目需求文档并提供专业咨询服务,从源头上保证高质量输出。更重要的是,云测数据配备了专业的软硬件设备,针对客户不同的定制化需求持续优化工具、迭代产品,满足技术要求高、采集难度大的采集任务,如此一来工具层面确实很给力。

对数据质量和安全的把控方面,云测数据进行了严格的质量风险评估、过程质量控制、质量审核以及质量验收等,用于输出高质量的数据作业;据了解员工都按照流程协同作业,将采集后的数据传输至数据中心,项目交付后直接清毁数据,杜绝员工接触数据的机会,提升数据安全性。

此外以云测为背书,企业还针对数据采集业务搭建了定制化采集场景。基于客户算法模型提出的具体需求定制化搭建采集场景,以达到覆盖尽可能多的实际场景及边际场景的目的,保证采集数据契合算法模型,为客户提供高精度的采集数据。值得提及的是,此环节备采样本覆盖全国及海外的数据采集体系,涵盖各类型图片、视频、音频和文本数据等,同时配备了专业的备采人群样本,可依照客户实际需求快速采集合适的数据样本。在高精度的数据标注服务上,云测数据自建数据基地,所有标注员统一管理、规范生产,在保证数据准确率的同时有效确保标注作业的信息流转,提升标注效率;而自研标注平台则聚合了各种数据标注应用场景,配置灵活,可满足各种数据标注需求,保证标注作业高质量输出。在数据的审核机制方面,主要采用工、审分离的审核模式,即审核团队不参与标注作业;同时将附有标准答案的作业项目无感知地安插在标注人员的正式标注作业中,精准把握标注人员的对标注规则的理解度。谈及宏观市场,贾宇航认为数据标注和采集的确是一个新兴行业,但目前来说整个行业市场足够大,各家其实并没有很激烈的竞争关系。一般情况下,企业在面对满足自身需求的同时,可选择的形式也变得多种多样。当下而言,数据行业更像是一个蹒跚学步的孩童,每个阶段被不同类型的数据服务所满足,面对着不断变化的服务需求,企业服务市场的变革也在同时加速。在此基础上,未来云测数据的发展目标将更多着力在细分领域中,做到领域知识积累更深厚,数据更精准安全。“我们会逐渐将业务向更细分领域场景做深入,以满足企业的未来需求。”如此看来,云测数据的“硬核英雄之路”才刚刚开始…

【责任编辑:钟经文】
中国日报网版权说明:凡注明来源为“中国日报网:XXX(署名)”,除与中国日报网签署内容授权协议的网站外,其他任何网站或单位未经允许禁止转载、使用,违者必究。如需使用,请与010-84883777联系;凡本网注明“来源:XXX(非中国日报网)”的作品,均转载自其它媒体,目的在于传播更多信息,其他媒体如需转载,请与稿件来源方联系,如产生任何问题与本网无关。
版权保护:本网登载的内容(包括文字、图片、多媒体资讯等)版权属中国日报网(中报国际文化传媒(北京)有限公司)独家所有使用。 未经中国日报网事先协议授权,禁止转载使用。给中国日报网提意见:rx@chinadaily.com.cn