数据标注是对原始数据进行加工处理,比如分类、拉框、注释、标记等加工处理,并将其转换成机器可识别信息的过程。数据标注企业,通常需要完成数据集结构/流程设计、数据处理、数据质检等工作,为下游客户提供训练数据集、定制化服务。
呈现整体向上的发展趋势
每天下班回家后,你是不是都会呼叫一个“人”:“小爱同学,打开电视”;做饭或者放松时也会说:“小爱同学,播放音乐”;在晚上临睡前同样会问:“小爱同学,明天的天气怎么样?”每一次关于天气、新闻、音乐等问题,小爱同学都能够认真答疑解惑。
事实上,在我们的日常生活中,人工智能已经无处不在。大到智慧医疗、自动驾驶、智能政务……小到手机扫码、人脸识别、语音转文字以及智能客【我爱线报网】服……
当我们享受人工智能所带来的便捷体验时,是否思考过这到底是如何实现的?其中,数据标注发挥了重要作用。作为人工智能算法得以有效运行的关键环节,数据标注能够把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,使计算机最终实现自主识别,从而在日常生活中实现那一幕幕人机对话的场景。
“目前,数据标注行业呈现出整体向上的发展趋势。首先,市场规模逐步扩大,预计今年的实际增长会达到百亿元,增长率达到20%~25%。其次,行业正朝着细分和专业化领域的方向发展,垂直化、行业化属性逐渐增强。同时,数据标注人员的工作内容或处理数据的维度,也逐渐偏向行业化。”云测数据总经理贾宇航如此说道。
云测【我爱线报网】数据总经理 贾宇航
对此,360智脑大模型产品资深专家葛灿辉表示,数据标注行业正处于变化的转折点上,由此就决定了它不能再依靠传统的商业模式。因为低端的、简单的标注任务正逐渐被大模型所替代。这意味着数据标注的价值体现应该跟上行业发展的步伐,不仅要尝试与大模型相结合,更要聚焦大模型暂时还处理不了的数据及内容。
大模型时代的到来,正加速推动人工智能开发从以模型为中心朝着以数据为中心的方向转变。这使得数据标注的重要性更加凸显。相关机构根据国内需求方与供应方营收增长情况推算,预计2024年数据标注市场规模为130亿~180亿元,2025年市场规模为200亿~300亿元。
“数据标注是人工智能发展的基石。在大模【我爱线报网】型的训练过程中,尽管大模型的语料大部分无需标注,使用的都是互联网上的公开数据,但质量参差不齐。为了训练基础模型,需要的语料必须是质量高且无过多重复的。因此,需要对数据进行分类,去除低质量和重复的内容,留下高质量的语料进行基础训练,这是大模型基础模型训练的必要条件。”明略科技集团高级技术总监吴昊宇说。
明略科技集团高级技术总监 吴昊宇
市场规模逐渐扩大以及重要性日益显著,使得数据标注行业愈发受到行业及投资机构的青睐。2023年,包括像星尘数据、标贝科技、整数智能、柏川数据、曼孚科技、恺望数据等行业企业均获得新一轮融资。此外,像阿里巴巴、百度、京东、字节跳动、科大讯飞等头部企业也与地方持续深化合作,加【我爱线报网】快推动数据标注产业基地的建设。
然而,数据标注行业在高速发展的同时,仍然面临着诸多挑战和问题。例如,标注复杂度提升,高质量数据标注能力有待提高:现阶段,随着人工智能模型能力的增强,数据标注的任务变得更加复杂和精细,因此使得标注需求也更加精细化、专业化,要求标注人员应具备相应的专业知识和技能;人力成本高昂:金融、医疗、自动驾驶等领域对数据标注的专业度要求极高,运用传统的标注方法已经难以满足当前的行业需求,只有更多专业性人才的输入,才能解决这一问题,但这也直接关系到高额的人力成本问题;数据安全难以保证:在数据标注行业中,从数据采集、数据标注,再到数据存储、数据传输,其中每一个环节都必须保证数据安全合【我爱线报网】规。而一些众包、转包模式下的标注数据可能会缺乏安全性,使用户面临数据泄露的风险。
基于此,应该建立先进的数据标注平台与成熟的标注、审核、质检机制,支持计算机视觉、语音识别、自然语言处理等多类型数据标注;建立完善的人员培训、管理体系,提升他们对特定领域知识的理解能力,并利用自动标注工具辅助处理一些简单或重复性任务;通过技术创新,优化标注流程,提高标注效率,同时适当投资自动化标注工具,降低人力成本;制定完善的信息隐私保护方案,建立严格的数据处理和保护流程,获得国际信息安全及隐私安全管理认证等。
行业化、垂直化属性逐渐增强
随着人工智能进入多元行业和场景落地阶段,自动驾驶、医疗、法律、金融等有一定专业性要【我爱线报网】求的垂直化场景将成为主要需求,从而带动行业进一步朝着垂直化、定制化方向发展。这将使得专业性要求越来越高,市场准入门槛显著提高。
在贾宇航看来,未来,数据标注也会和人工智能技术一样,逐渐深入到各个行业及场景当中,呈现细分化、专业化的发展趋势。在这一过程中,对技术迭代将提出更高要求,不仅数据处理要做到足够专业,对行业特征和企业需求也要有深入了解。例如,在自动驾驶领域就包括了点云联合标注和时序标注的相关要求,这就需要一套强大的标注工具满足点云和不同维度数据融合处理的要求。
车辆信息标注场景
从不同阶段的数据标注服务需求来看,在研发阶段,企业一般使用开源数据集或数据集产品进行训练,数据标注需求量大,标注内容【我爱线报网】倾向于标准化;在训练阶段,企业通常需要部署私有化标注平台以及较强的数据安全管理流程,对数据标注内容需求更多、更丰富,准确性要求更高;在产品落地阶段,企业不仅需要部署私有化标注平台,对采标的数据内容有特殊指向,对服务方稳定性和效率也有较高要求。
“如果将数据标注描述成一条虚拟的生产线,在根据不同行业和企业要求进行改造,并提供需求数据的同时,还应该基于行业理解,与企业共同制定相关的标注规范和规则,从而让算法发挥出更高的识别效率。此外,我们还要深度参与到客户人工智能算法从预研立项、定制开发到部署投放的全过程中,凭借自身的数据服务能力,在不同阶段为客户提供自制数据集,定制化的数据采集、数据清洗和数据标注【我爱线报网】服务以及数据中台集成能力。”贾宇航进一步说道。
从这方面来看,头部的品牌数据服务商由于具备较强算法能力和稳定训练数据资源,有实力打造AI辅助标注、自动化标注平台工具,标注效率、质量和成本优势将愈发凸显。
吴昊宇表示:“以明略科技为例,以前我们只能在客户聚集量大的几个大的行业上应用算法进行数据标注,比如我们所擅长的美妆、3C、大健康、食品饮料等行业。对于小行业或规模不大的客户,仍然需要依靠规则进行处理。不过,现在通过低成本的方式,我们可以自己进行标注和训练,覆盖到以前算法无法覆盖的行业和领域,使我们能够在一些小而垂直的领域深入发展。”
“通过走访客户,使我深刻的感受到,企业在对大模型不了解的情况下很容【我爱线报网】易走向两个极端:一是对其嗤之以鼻,二是认为其无所不能。其实,这两种认知都是不可取的,都会极大影响企业的技术应用。大模型能够有效处理已经转化为离散化序列的文本、语音、图像、视频等符号,从而最大化地还原数据的某些规律,这也是多模态模型被推出来的原因。由此来看,数据标注不仅朝着垂直化领域、专业化服务的方向发展,也正在由单模态向多模态标注发展,从而实现语音合成、图像识别、多语种翻译等多种类型融合。”葛灿辉如是说。
360智脑大模型产品资深专家 葛灿辉
复合型人才成为刚需
猎聘大数据研究院近日发布的《2023年度就业趋势数据报告》显示,当ChatGPT火爆全球后,数据标注人员需求量大幅增长,2023年较202【我爱线报网】2年增长34.43%。从行业分布来看,数据标注新发职位主要集中于互联网、计算机软件、人工智能三大行业,占比为29.65%、12.7%、9.96%。
不仅如此,数据标注行业朝着行业化、垂直化的方向发展,也要求数据标注人员不仅要掌握标注技术,还需要储备更多的专业化知识。例如,在CT图像中标注肺癌肿瘤生长点的具体位置,在自动驾驶领域了解相关交通法规和汽车驾驶技能,知晓金融理论知识等,要完成这些操作都需要接受长时间培训才行。
葛灿辉表示,大模型构建完成之后,需要对数据的合理性进行人工校验。如果缺乏行业知识,将无法判断大模型输出内容的准确性、可靠性以及是否与企业实际业务相契合。所以,数据标注会随着大模型垂直【我爱线报网】化的发展,而大幅提升对标注人员的要求,这不仅体现在标注技能或者判断技能的提高上,还包括对行业知识的掌握和积累。
“目前来看,行业对于高素质标注人员的需求是大于供给的。因此,数据标注企业为了更快地解决人才短缺的问题,未来可能会面向特定行业去招聘所需要的人才。尽管这是一种反向操作,但效果往往会更明显。举例来说,如果让一个懂标注的人去学医,那似乎是不可能的,但让一个医疗领域的人去学标注,可能经过短期培训就能上岗了。”葛灿辉如是说。
对此,贾宇航表示,现在来看,数据标注仍然处于较为早期的发展阶段,即数据标注人员掌握一定的标注技能,积累了一些粗略的标注经验,就能完成标注工作。其实,这制约了整个行业的发展。未【我爱线报网】来,这个行业可能会需要本科生、研究生或者从业多年的人。而实现将这些人有效聚集,并为垂直行业提供数据标注服务,将会成为行业发展的一个重要节点。
进一步来讲,针对垂直行业大模型,它的标注类型,微调所需要的问答、人工的评测以及预训练之中所需要的垂直领域的专有知识,这些其实都需要数据标注人员去持续深化了解的。“我们其实可以看到,数据标注在面对大模型迭代时,采取的更多是一种应对性策略,并没有做到主动引领或者超越。我认为,这个超越的点会来自于越来越多垂直行业大模型涌现之后,数据标注人员对于行业知识的积累和沉淀以及去满足这些细分行业数据标注处理结果的过程。”贾宇航解释道。
由此来看,数据标注不是简单的数据录入工【我爱线报网】作,它需要具备一定的专业知识和技能。在人工智能技术快速发展的背景下,具备行业知识、技术能力和项目管理能力的复合型标注人员将更加抢手。
人机协作最具性价比
在数据标注行业没有走到“镁光灯”下,仍然默默无闻的时候,大多数人认为,数据标注是一个劳动密集型产业,技术含量和入行门槛都不高,并且容易被自动标注所取代。不过,当人工智能尤其是大模型崛起,数据价值愈发显现,数据标注行业被广泛关注时,大家还会持这种观点吗?
在笔者看来,尽管大模型的爆发将数据标注推向AI辅助标注、自动标注,数据标注进入了技术密集型时代,但人工标注并不能完全被自动标注所取代,人机协作才是最佳模式。贾宇航表示,未来,每一个有数据需求的企业,【我爱线报网】人工标注占整个数据标注的比例会逐渐减小,但是数据标注的量级会逐步扩大。所增加的数据标注量尽管会由自动标注承担,但人工标注的地位是不能被完全替代的。在特定场景下,还需要通过自动标注和人工标注相结合的方式,为客户提供更为高精度的数据。
以自动驾驶行业为例,目前,该领域的数据标注以人工标注为主,机器标注为辅。从最早依赖视觉到现在的多传感器融合,从“3D点云+图像”的融合标注到现在的4D标注,自动驾驶技术应用的复杂性、多元场景需求给数据处理、数据标注方法都带来了极大挑战。为此,不仅应该全面升级数据标注及数据管理工具链和不同模型的预标注能力,包括图像整帧、自选物体、区域、点云批次识别和文本识别等,还应该重【我爱线报网】新定义基于预标注的人工标注效能,如能效看板、综合看板等,并针对特定算法类型的数据持续优化迭代。
吴昊宇表示,根据人工参与程度,主要的标注方法可分为人工标注、半自动标注和机器自动标注。其中,人工标注的准确度最高,但速度较慢且可能存在遗漏错误的情况;半自动标注即先使用某些算法进行部分标注,然后由人进行纠正。这种标注方法的速度会大大提高,但人可能会受到预标的影响,倾向于接受机器已经预标注的内容;机器自动标注则利用大型模型,通过Zero-shot(零样本)或者Few-shot(少样本)的方式进行标注,这种方式预启动周期更短,但容易出现与第二种标注方法相似的问题,此时,良好的标注规范和人工审核就显得尤为重【我爱线报网】要。
“此外,模型的微调和与人类偏好的对齐也是非常重要的一步。人类偏好对齐基本上都是靠人工标注来实现的。特别是在GPT早期,大部分工作都是靠人工标注,例如标注哪些内容是不合法的、违反社会道德的以及哪些是人们更喜欢看到的表达方式。然而,随着大模型的发展,许多大模型的对齐工作已经可以采用模型生成模型、模型生成语言的方式来完成。然而,这种方式仍然存在问题,即大模型生成的内容可能存在不准确之处,因此,人的批判性思考,即评估和对齐,仍然是必不可少的。”吴昊宇进一步说道。
在葛灿辉看来,随着算法模型的不断进化,大模型训练将越来越多地引领数据标注走向自动化,这会是一个明确趋势,但这会是一个相当长的过程。此外,大【我爱线报网】模型虽好,但需要大算力支撑,动辄就是数千万,甚至上亿元的投入,并不是每个企业都能负担得起。因此,自动标注与人工标注相结合,才是目前更具性价比的方案。
“模型发展会有两个大趋势:一是越来越大,二是逐渐变小。关于通用大模型,未来全球可能只有少数几家公司有实力去构建。同时,这些公司会把模型的参数复杂度训练到一个别人都追不上的程度,从而使得自己能够解决更加复杂的问题。在某些特定场景下的模型,这部分模型会变小,生成速度也会变快,成本也会降低,这也是模型发展的另外一个趋势。而小模型的评估、确认则是采取机器为主,人工为辅的方式,在自动标注的基础上增加人工审核和校验的过程。”葛灿辉说。
百度智能云数据标注基地业务【我爱线报网】产品负责人也表示,为提高数据标注的质量和效率,百度智能云自主研发了大模型数据标注平台,支持从大模型微调、强化学习到模型评估的数据生产闭环。结合平台独有的人机协同标注、多轮智能审核等智能化工具,可大幅提升数据标注的产能和质量,同时帮助企业实现降本增效。
总体来看,随着用工管理日趋规范以及标注需求量的激增,纯人工标注在效率和成本上的优势将逐渐削弱,使用AI赋能的自动标注工具来提升效率和质量,将逐渐成为数据标注企业提高市场竞争力、降本增效的利器。
然而,这并不意味着人工标注会被淘汰。相反,随着自动化技术的不断发展,数据标注者需要不断学习和提升自己的技能,以适应不断变化的职业环境。同时,我们也需要探索将自【我爱线报网】动化技术和人工数据标注相结合的方法,以提高工作效率和质量。
行业洗牌在即
如今,随着数据标注行业整体向上发展,市场规模逐渐扩大以及专业需求的多样化,更多的行业企业会进入这一领域,不仅中小数据供应商的市场份额将被压缩,行业也将大概率进入“洗牌期”。
在这一过程中,头部AI企业以及品牌数据服务商将凭借品牌效应、技术实力、服务意识以及业务能力等优势,逐渐成为市场的主导力量。而对于想要进入这一领域的其他企业或者个体来说则需要考虑更多因素。
例如,如何获得高质量的数据标注项目、如何构建和培训专业团队、如何使用或开发高效的标注工具以及如何确保数据的安全和隐私。同时,行业内的竞争和项目周期长、验收复杂等问题也是需要【我爱线报网】考虑的因素。虽然在一段时间内传统数据标注的总需求不会减少,但这应该仅是一段“窗口期”。在这一阶段,数据标注公司在依靠传统业务积累营收的同时,还需要积极投入到新业务建设或者新技术的研发创新上,努力提升自己的核心竞争力。
总的来说,数据标注行业正处于关键转型期,行业洗牌在所难免。这既是对行业的一次重塑,也是对参与者的考验。在这个过程中,技术实力强大、服务品质优异、管理规范和发展方向明确的企业和个人将更有可能脱颖而出,抓住行业发展的机遇。
记者手记
在初步接触这一领域时,笔者认为,数据标注就是一个劳动密集型行业,技术含量和业务门槛都不高。
然而,大模型的出现,使得数据标注逐渐向AI辅助标注和自动标注方向发展【我爱线报网】,行业开始进入技能密集时代。不仅如此,随着大模型逐渐走向垂直化、专业化,定制化服务在数据标注市场将占据更大比例。未来,“基础模型+微调”将成为AI开发的新范式,定制化的数据标注服务将成为市场需求的主流。
而对于数据标注人员的要求也呈现出一定的梯度分布特征。较为低阶的标注,如标点、划线等,普通人经过简单培训即可胜任;中高阶的标注,如对自动驾驶、大模型等的标注,则对标注人员的要求更高、更专业,一些细分复杂场景可能会需要更专业、更高学历的数据标注师来完成。
在笔者看来,数据标注行业早已走过了单纯依靠人工的粗放式发展时期,正向着高质量、高效率、规范化和定制化的方向发展。
这一阶段,在人工智能技术广泛应用于图【我爱线报网】像识别、语音处理、自然语言处理等领域的背景下,对高质量标注数据的需求持续增长;数据标注行业正逐步规范化,不合规的中小供应商面临被淘汰的风险,市场将更加青睐具有稳定数据来源、强大技术支持和规范管理体系的服务商;随着人工智能技术的深入应用,企业对数据服务的需求更加多样化和定制化,能够提供专业、精准、高效数据标注服务的企业将更具市场竞争力。
作者:路沙
编辑:高珊珊
监制:刘晶
推荐阅读
友情提醒: 请尽量登录购买,防止付款了不发货!
QQ交流群:226333560 站长微信:qgzmt2