近年来,随着大数据和云计算等新一代信息技术的不断进步,人工智能场景应用中加速落地,并快速向各个行业和领域渗透。
其中,数据是人工智能开发和应用的基础,当前以机器学习为主的人工智能技术的高速发展依赖于底层大数据的丰富程度。强大的模型需要含有大量样本的数据集作为基础,数据的质量、多样性将对算法模型的成败产生重大影响。高质量的AI训练数据越多,模型的准确度和重复性就越好。
《2020年中国AI基础数据服务行业发展报告》显示:一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练;一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求;语音方面,头部公司累计应用的标注数据集已达百万小时以上,每年需求仍以20%-30%的增速上升,不仅如此,随着IoT设备的普及,语音交互场景越来越丰富,每年都有更多的新增场景和新需求方出现,对于标注数据的需求也是逐步增长。
可以说,高质量的AI训练数据工作是推进人工智能技术落地的重要环节之一,AI训练数据的质量和规模对于提升AI模型应用效果的成功至关重要。在这一过程中,如何从技术层面、工具层面提升人员效率、数据标注精准度,成为目前阶段的重要课题。
从头部代表企业云测数据的一系列操作中我们观察到,专业的数据标注平台会通过标准化的流程、方法论和人员机制,提高平台的流程化协作能力,来保证数据服务团队的高效的服务能力,准确地把控从创建任务、分配任务、标注流转到质检/抽检等环节,实现对数据标注过程的全流程掌控,更好的提高数据标注的效率、精准度和隐私安全。
云测数据正式对外发布的其针对AI训练数据服务的平台产品——「云测数据标注平台4.0」为AI训练数据服务提供了齐全的标注工具,支持图片、点云、视频、文本、音频、数据清洗等各类型的标注,并针对每种类型设置了具有代表性的标注模板,可解决AI场景落地多样性、丰富性的数据需求。
相比传统的采集数据、训练模型的方式,云测数据提出了「数据在环和模型迭代在环新方式」,将数据在环开发打通,将数据采集、处理、标注、训练、模型输出进行持续迭代集成,实现一站式解决企业AI数据训练需求。
提升效率方面,「云测数据标注平台4.0」通过数据传输、任务创建、数据标注、数据质检、数据交付过程的全优化,提升数据的交付效率,节省时间,从而帮助AI数据训练综合效率提升200%、服务成本降低60%。
「云测数据标注平台4.0」为企业提供了处理大规模感知数据的能力,不仅降低了数据采集周期,还提升了数据标注效率,其在数据识别的准确率方面,也达到了传统数据标注方式无法企及的高度,从工具层面为数据的质量、多样性提供保障,从而为企业节省了大量研发时间和成本。同时极大地促进了人工智能落地的迭代周期,助力人工智能技术发展从“探索期”向“成长期”过渡,为 “数字新基建、数据新要素”为特征的新一波数字经济浪潮保驾护航。
结语:
近日美国未来今日研究所(Future Today Institute)发布了《2021年科技趋势报告》,趋势报告内容表明,人工智能正以惊人的速度从学术界转向企业,并认为未来战争将是一场基于数据和算法的“代码战”。
展望未来,数据将成为各个行业的核心资产,以高质、高效为导向的AI训练数据工具,将成为激发数据要素新动能的强大驱动,为人工智能新发展发挥坚实底座和基础支撑的重要作用。