正文
但做过类似兼职的人在社交媒体抱怨:真的做不了太久,眼睛受不了。
在那个标记为11群的近200人大群内,不断地有人退出、加入,就像一条永不停歇的虚拟流水线。
苏打也在类似的一个微信群里。
前不久,她在招聘平台看到国内某个大厂发布的数据标注兼职岗位。专业不限、经验不限,唯一的门槛是学历——必须是985/211硕士及以上。
这份兼职是为大模型思考过程和输出结果进行打分。输出结果的正确与否、是否照顾到了用户的情绪、感受,以及思考过程是否符合逻辑且高效等等都需要纳入考量。
苏打通过筛选后,也被拉到了一个微信群。同样的,在正式接单之前,需要先进行培训和测试。
苏打收到了一份长达几十页的文件,详细介绍了各个打分维度和评判标准。根据这个打分体系,她需要先进行两到三轮的试标,达标后才可进行接单。通过测试后,在正式的标注过程中,也需保证正确率。如果正确率低于平均水平,便会失去标注资格,需要重新测试。
据苏打观察,她所在群里测试的通过率并不高。
“这份工作的难点是记忆、理解的成本特别高。在标注之前,你得先理解、记住他们的评价体系和打分标准。”更让苏打难受的是,这些标准并不是固定不变的。
有时候,面对相似的问题和回答,她用相同的思考方式去打分,结果却截然相反。
就像是写没有标准答案的一张张试卷,无法通过自我努力或学习提升正确率,只能原地不停得打转、消耗自己的脑力和体力,最后获得的报酬微乎其微。
苏打告诉我们,这份兼职也是按计件收费,标注一件的费用只有3-7元。
比苏打幸运一些,廖仔没有这些严苛的KPI和考核标准。
廖仔参与标注的是国内另外一家互联网大厂的外包项目。他领导着一个由10名标注师组成的小组。项目里,有好几个这样的组别,对该大厂的大模型进行评估、鉴定、指定标注规则。廖仔会对每天需要标注的任务进行分配,再告诉组员具体的规则和评判标准确保客观性。除数据标注之外,他还需跟算法团队、产品研发团队沟通,根据上下游反馈调整模型的评估和鉴定。
廖仔还是以咖啡机器人举例,如果要AI制作咖啡,那么就需告诉它整个链路,包括咖啡树如何种植、咖啡豆有哪些品类、分子结构如何、怎么研磨等等。通过每一步的数据标注,对它进行调校,然后再回归到模型,让它自主训练。
三种数据标注工作可以大致勾勒出这个职业背后的隐形分层:
-
自动售货机标注,考验“体力+注意力”,靠重复和熟练提升效率;
-
为大模型的思考过程和输出结果打分,要求较强的理解力和记忆力,像在答一道道没有标准答案的试卷;
-
大模型评估,则在标注之外承担流程管理和沟通工作,具备一定自主性。
常有人将数据标注比做AI流水线上的“螺丝钉”。
在廖仔看来,即便是拧螺丝钉,到他这一步,最起码清楚了用什么工具拧、怎么拧效率会更高。
尴尬的岗位:
重要,但是廉价
站在产业链更上游的Jackson,能从更为完整的流水线上审视数据标注的意义。
Jackson是海外一所名校研究生毕业,现在在上海一家科技企业从事基础模型训练工作。他告诉「定焦One」,模型训练主要包含三个部分:预训练、监督微调和强化学习。
预训练所需的数据量动辄十几TB,主要来源于公开爬虫数据、模型合成数据、第三方采购数据或企业自有数据。这一阶段对人工标注的依赖较少。
数据标注师主要介入的,是后两个阶段。
-
微调阶段(Supervised Fine-Tuning,简称SFT)目标是让预训练后的通用语言模型适应特定任务或对话场景,使其输出更符合人类期望。简而言之,就是输入特定数据后,教会模型“如何回答”。