首页 >
ChatGPT火爆背后的数据标注员「辛苦又廉价,比教人还费劲」,如何看待这一现象? – 网络|
2月15日,经济观察报记者在兼职猫平台报名了一份数据标注员的兼职,当晚,项目负责人赵强杰电话询问了记者的基本情况,随后将记者拉至一个名为“试标”的微信群里。“新进群的同学先看群公告,再看聊天记录里的视频,看完有想做(数据标注)的,私聊找偶试标,只差三个人了。”这是一份时长36分钟的标注培训视频,示范了如何在一帧车载鱼眼摄像头录制的视频中,通过将立柱、机动车、行人等障碍物的接地点连接到一块,从而精准标注出一块蓝色区域。“标注人员需以封闭多边形的形式标出视频每一帧画面中障碍物接地点freespace的边界。”与教学视频配套的另一份培训文档上有对该项目的概述。“freespace简单说就是可行驶区域,常见于泊车场景的数据标注,通过将栅栏、墙面等障碍物阻隔的近端区域,未被机动车占用的可泊车位等边界的像素坐标信息标注后,用于帮助AI定义可行驶区域,可以实现自动泊车、一键呼叫等功能。”上海一家智能硬件企业的算法工程师冯易向经济观察报解释。赵强杰所说的试标,便是兼职数据标注员的面试,通过标注“实战”来测试应聘者的工作能力,在大致看完了标注项目的教学视频后,记者私聊了赵强杰,表达了想要试标的意愿,随后得到一个测试账号。记者登录一个名为数加加众包的数据标注平台,并在其中打开了赵强杰指定的测试项目。在观看教学视频之初,这份标注工作的难度并不高,只不过是按照既定规则将画面中可行驶区域标注出来。但在实际操作过程中,记者还是遇到了不少难题,例如画面中远处的立柱被遮挡,无法准确标出边界与接地点,抑或是画面远处过于模糊,无法区分标注物体所属类型。用了将近10分钟,记者勉强完成了第一帧图像的标注,过程中,赵强杰多次催促了记者。“你确定你看过视频了吗?看过视频是不可能还标成这样的,要像你这样标,AI学完车就直接撞柱子上了。”在收到了试标注的图像后,赵强杰向记者反馈。他还告诉记者,通常一段鱼眼视频会有20帧图像需要标注,熟练的数据标注员一天需要标200-300帧画面,像记者这样的标注速度无法胜任兼职工作。在记者进行试标的同时,一位在深圳上班的白领董程也加入了赵强杰的群。他稍早前在社交平台上看到有关兼职数据标注员的介绍信息,随后被“下班兼职、工资日结、日薪300、就像连连看”等关键词吸引,在私聊发布信息的博主后,获得了赵强杰的联系方式并进群。同记者一样,董程也在随后的试标中被赵强杰淘汰,记者对比了董程标注的截图与赵强杰提供的正确标注截图,发现除了个别点位的标注不同外,大致区域范围其实并没有太大差异。“自动驾驶类的数据标注需求是很严的,不精细的数据甲方是不会验收的,你看起来可能就差一点点,但是人人都差一点点,累积起来给到AI训练那边可能就会是天大的错误,如果出现无效训练,轻则浪费一些成本,重则要出人命的。”面对记者的疑问,赵强杰说。深圳一家AI企业的产品经理何茂对记者表示,在算力、算法和数据构成AI应用的三大要素中,训练的准备数据可以算得上是最重要环节,谷歌大脑创始人吴恩达就曾指出:“AI研究80%的工作应该放在数据准备上,确保数据质量是最重要的工作;业界如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。”何茂告诉记者,当前主流的机器学习算法为有监督学习,即让机器通过标签化的数据进行学习训练,“就像人类一样,小时候有人告诉你什么是汽车,什么是飞机,教你学会了鉴别,这就叫有监督学习”。而在有监督学习中,通过对大量原始语音、视频、文本及图片数据进行加工处理,从而使机器能够识别和学习这些信息的数据标注工作,便成了机器学习顺利进行的关键环节。“对经过标注的数据集进行模型训练,可以让AI在未来再次接收到对应数据时,能够进行简单分类并输出正确判断,例如freespace数据标注,便能够让AI在泊车场景下快速判断可行驶区域与可停泊车位,所以数据标注就像是AI的启蒙老师,教给不同场景下的AI最基础的鉴别和分类功能。”何茂解释。冯易指出,对于有监督学习算法来说,训练数据的需求空间还很大,所以基础数据服务对模型算法发挥着关键支撑作用。偶给AI当老师:辛苦又廉价,比教人还费劲-经济观察网
好奇JAVA开发LinkedList插入数据真的比ArrayList快吗? - 网络| | 好奇JAVA开发LinkedList插入数据真的比ArrayList快吗? - 网络| ...