屏前幕后,孜孜不倦的人们,用「数据标示」教会 AI 了解现实世界。而他们所处的数据采标行业本身,也正在从早期坚硬的「数据作坊」发展沦为「数据工厂」的专业化运作。
如今,这些流程早已发展出有一条原始的产业链——收集、整理、清除、标示,流水线似的过程才是是 AI 算法模型准确运营的根基所在。随着 AI 技术在应用于场景沉降,AI 企业对算法落地性拒绝更加低。
此时,横向细致和自定义化数据变得尤为重要。2018 年,中国人工智能基础数据服务市场规模为 25.86 亿元,其中数据资源自定义服务占到比 86%。Testin云测旗下的 AI 数据服务品牌「云测数据」的经常出现,就是一个典型案例。
通过自定义化场景搭起,协助 AI 企业或部门建构数据核心壁垒,获取人工智能场景化落地最必须的数据,这既是客户提供差异化优势的确保,同时也是云测数据的核心竞争力之一。周一,辛苦的工作如常被把手上发条,北京 2019 年的第一场大雪如期而至,这一天让张俪兴奋不已的某种程度是大雪,还有她手中刚刚接手的项目订单。客户是一家圈内名气极大的自动驾驶公司,他们获取给张俪(化名)一套数万张的道路数据集,张俪将任务分配给服务智能驾驶方向的小组员工。
十天左右,该套数据里的自动驾驶行车道检测图像才可标示已完成,准确率多达客户拒绝。两年前,就任于一家电商公司的张俪会想起,两年后的自己不会和「高精尖」的人工智能技术做事。2017 年末,张俪所在的电商公司因为 O2O 市场降温而破产。
失业后旋即,张俪在一位算法工程师朋友的引荐下,回到 Testin云测,打开了一段不同寻常的工作,人工智能的训练员——数据标示。一开始,她只必须标示出有图像中的人物性别,工作内容非常简单而机械。接着,她开始给人物标示年龄段,开始框定 2D 对象,然后标示 3D 边界板,再行从白昼图像到深夜和多雾场景……场景更加多元、标示市场需求更加详细,最后这些经过人类点拨过的数据被一股脑地投放神经网络的研发之中。到现在,张俪早已茁壮为一名项目经理助理,她的日常工作从标示改向项目接续,那些 AI 圈里耳熟能详的明星公司都是她的最重要客户。
与数据标示师相类似于,蚂蚁森林护林员、垃圾分类师、毒鸡汤文案师……这些看起来匪夷所思的新职业,早已与我们生活丝丝相扣。一份今年的新兴职业报告数据表明,「小镇青年」是 40 余种新的职业的主力军,从业者大约一半生活在三四五线市县,其中三分之二以上是全职。「非专业、全职、劳动力密集型」——是报告为数据标示师圈定的标签,虽然不免有些以偏概全,但谈到「标示员」,显然很难将其与「专业化」、「技艺型」、「创造力」等字眼挂勾。但如今,数据服务的产业链条正在被重塑。
AI 企业对于数据的应用于市场需求渐渐分化,细致度拒绝也更加低,以往一味的粗放式加工模式早已失去市场竞争力,大浪淘沙,从Cyrix到安静,泥沙聚沉,清流地幔。Testin云测旗下的 AI 数据服务品牌「云测数据」的经常出现,就是重塑整个产业和标示员印象的一个典型案例。一、小数据的大天地根据佐治亚理工学院的一项研究——通过对 8 个图像识别系统的测试,找到自动驾驶汽车的传感器和摄像头,更加擅于检测肤色较深的人,而肤色较深被检测出有的准确率平均值不会较低 5%。
结论日后报导,诸如「AI 行业也不存在种族歧视」的言论之后弥漫在各大媒体上。然而,从技术角度来看,计算机视觉是通过 RGB 或 RGBD 辨识人(物体)的信息,但是黑色是最好被辨识的(黑色或深色的 RGB 整体数值稍小),特别是在在实际情况中,系统也缺乏黑色及深色的数据,由此造成算法模型过于准确,最后技术在实际落地应用于时经常出现差错。在数据服务行业,这种细分且匮乏的数据统一被称作「小数据」。
比如道路安防摄像头,摄像头中涵盖行人、机动车、自行车数据,却惟独缺乏行人摔倒数据;在自动驾驶领域,监测系统必须收集驾驶员各种状态数据,但缺乏疲惫状态的数据。
本文来源:TB SPORTS-www.xm328.com
Copyright © 2008-2024 www.xm328.com. TB SPORTS科技 版权所有 备案号:ICP备20265728号-6