Llama4Behemoth

搜索文档
大模型下半场:谁在掘金数据标注?
36氪· 2025-09-02 08:25
Meta收购Scale AI交易分析 - Meta以约150亿美元收购Scale AI 49%股份 交易后Scale AI估值达290亿美元[1] - Scale AI创始人兼CEO汪滔将卸任并加入Meta组建超级智能小组 同时保留Scale董事会席位[1] - 收购反映Meta对高质量训练数据的迫切需求 因其Llama4Behemoth模型30%语料来自低质量社交媒体内容 导致多模态理解等核心指标落后GPT-4.5约12%[2] 数据标注行业概况 - 全球数据标注行业市场规模约20亿美元 其中美国市场占8.38亿美元份额达40%[5] - 行业主要分为三类玩家:纯人力型公司(低成本劳动力标准化任务)、互联网大厂众包平台(自有业务需求+外部劳动力池)、智能型服务商(自主研发平台+算法能力+定制化解决方案)[3] - 头部智能型企业多从人力公司进化而来 Scale AI前身为"ScaleAPI" 通过"人力API"模式积累数据后逐步采用AI替代人力[4] Scale AI业务模式演变 - 公司最初通过"人力API"模式为开发者提供远程劳动力团队服务 客户包括丰田本田等企业[4] - 2018年起构建"机器预标注+人工复核"混合工作流 用算法完成预标注后由人工专家审核修正[4] - ChatGPT平均标注成本低于0.003美元 比传统众包平台便宜20倍 GPT-4标注准确率达88.4%超过人类标注员的86.2%[4] 全球市场竞争格局 - 美国企业凭借全球化分工将基础任务外包至菲律宾肯尼亚等低成本地区 Scale AI通过Remotasks平台拥有超24万注册工人[6] - 中美技术存在明显差距:中国云测数据自动标注主要应用于智能驾驶领域 海天瑞声智能化水平有限仍高度依赖人工[6] - 美国形成完整产业生态 除Scale外还有SurgeAI(微调服务)、Turing、Lionbridge(文本语音)等专业公司[8] 行业技术发展趋势 - AI标注目前仅适用于交通图像人脸识别等标准化任务 规则制定和质量把关仍需人工介入[8] - 大模型训练重心从预训练转向强化学习 对医疗影像法律文本等专业化数据需求增加[9] - 标注员需具备专业知识与跨学科能力 任务涉及推理链条和多模态对齐等复杂场景[10] 代表性企业对比 - Surge AI专注于高质量数据生成(如编程代码数据) 2024年营收达10亿美元超越Scale AI的8.7亿美元[10] - 合成数据作为替代路径存在局限性:现实场景变化时有效性不足 数据安全风险限制大规模应用[10] - 数据标注行业正向更高质量和更强专业化方向演进 技术壁垒不断拔高[11]