Data Annotation
搜索文档
探索跨境“来数加工”,东莞竞逐高端数据标注新赛道
21世纪经济报道· 2025-12-05 06:27
数据标注作为激活数据要素价值、衔接算法模型与产业应用的核心环节,正为大模型训练、自动驾驶等前沿领域提供核心支撑。 (原标题:探索跨境"来数加工",东莞竞逐高端数据标注新赛道) 南方财经记者程浩 东莞报道 12月2日,对于向春燕来说是一个大日子,她负责的东莞驰千数据公司正式落户东莞万江数据标注产业园(以下简称"东莞数标园")。作为百度云 的数据合作伙伴,驰千数据跟随百度云从重庆毕节来到东莞,开启粤港澳大湾区数据标注新旅程。 数据、算法和算力是构建AI系统的三大核心要素,随着AI模型训练进入下半场,行业垂直模型和智能体方兴未艾,数据标注的重要性正被重新评 估。数据标注脱离了原来从简单的人工标注,开始向高技术含量、高知识密度和高价值应用数据领域延伸,数据标注产业正从劳动密集型加速向 知识技术密集型迭代。 东莞作为科创制造强市,拥有丰富的人工智能应用场景和深厚的工业数据积淀。当前,东莞正全力推进国家人工智能应用中试基地与数据产业集 聚区建设,以"湾区数谷"为重要载体,率先布局高质量数据标注产业,对海量工业数据进行深度挖掘与价值提炼,加快形成一批行业级高质量数 据集,促进人工智能与先进制造深度融合。 工信部电子五所人工 ...
日照“五共”模式,破解数据标注人才难题
齐鲁晚报· 2025-11-14 09:56
文章核心观点 - 人工智能数据标注产业面临应用型人才紧缺和实践经验不足的挑战 日照市通过产教融合的“五共”模式探索出特色发展路径 以教育链、人才链、产业链协同发力 为产业输送稳定人才 [1] 教育链建设 - 推动8所高校设立数据标注相关专业 开发《AI数据标注技术》等实用课程 让学生在课堂学习技能 [1] - 引入企业项目进校园 通过“工学交替”让学生参与数据清洗和AI标注审核等实战 实现毕业即能对接岗位需求 [1] 人才链培养 - 在省内率先出台《数据标注产业高质量发展三年行动计划》 推进建立以企业为主导、高校为支撑的产教融合人才培养机制 [1] - 鼓励基地引进优秀团队 企业建立人才激励机制 以激发创新活力 [1] 产业链布局 - 以日照为中心辐射周边 打造“校内基地+校外园区”生态 每年为近9000人次学生提供实训 [1] - 实现“实习-就业”无缝衔接 为产业输送稳定人才 [1]
19岁亚裔女孩,做“赏金猎人”,融了1个亿
虎嗅APP· 2025-11-08 09:29
公司概况与市场定位 - Datacurve是一家成立于2024年的年轻数据标注公司,其核心产品Shipd平台采用“游戏化标注”方式,将算法题、调试任务等编程挑战打包为“通关任务”并明码标价,吸引工程师参与完成[2][3] - 公司成立一年多即累计融资1770万美元(约合人民币1.2亿元),其中2025年10月完成的A轮融资额为1500万美元,投资方包括Chemistry的Mark Goldberg以及DeepMind、Anthropic、OpenAI等AI一线公司员工[2][4] - 公司旨在挑战该领域的绝对独角兽Scale AI,后者估值已达200多亿美元,而同赛道公司Turing的估值也达到22亿美元[3] 商业模式与核心优势 - 平台通过“赏金猎人”形式与游戏化结构吸引工程师,任务被包装为“Quests”,并设有排行榜、连胜奖励与任务等级,使参与者兼具解题者和竞技者身份[10] - 平台强调“工程师优先”的社区文化,旨在为高技能参与者提供有归属感、认可度与专业认同的生态环境,而非单纯的任务派发系统[11] - 这种“游戏化+精英制”设计形成了独特护城河,平台不追求让所有人都参与,而是筛选能完成特定类型任务的顶尖工程师,从而保障数据质量[11] - 平台上线不久已支付超过100万美元的赏金,吸引了来自亚马逊、AMD等企业的高级工程师参与[15] 产品理念与冷启动过程 - 公司起点源于CEO Serena Ge在Cohere实习时意识到高质量编码数据供给是模型能力提升的瓶颈,传统标注方式无法满足模型所需的复杂度与专业性[12] - 公司将数据标注转变为具备挑战性质的题目,通过游戏化平台激励工程师贡献数据,这一理念使其成功入选硅谷最大孵化器Y Combinator的2024年冬季项目[13] - 公司始终将Shipd定位为“面向工程师的消费者产品,而不是数据标记操作”,将大量精力投入用户体验优化,确保用户“愿意来、愿意留”[15] - 商业化路径上,公司初期聚焦与高端AI实验室和工具型初创公司建立合作,包括OpenAI、Anthropic等基础模型实验室,依托早期投资人网络与口碑传播实现数据销售[15] 版权风险与合规机制 - 平台通过多层机制防护版权风险,包括贡献者原创声明、自动抄袭检测以及共识评审机制(即同行互评)[19] - 平台从源头控制任务来源,优先发布来自受控仓库的题目,避免涉及企业私有代码,部分任务要求工程师在沙盒环境中从零编写[19] - 在法律层面,公司通过“数据合同”和“许可协议”清晰定义数据的使用范围、归属权和责任边界[19] 行业竞争格局与公司对比 - 数据标注行业公司主要分为由人力资源公司转型而来(如Mercor、Turing)和新型数据公司转型而来两大类[24] - Mercor从AI招聘公司转型为数据标注服务商,依托其积累的医生、律师等专家资源,在RLHF和垂直领域标注任务方面展现出强竞争力[24][25] - Turing从远程工程师招聘业务扩展至AI基础设施服务,实现从人才服务向训练数据与人才管理一体化平台的转型[25] - Datacurve的直接竞争对手是同样走精细化高质量数据路线的Surge AI,后者采用human-in-the-loop机制,由领域专家配合定制化模型完成标注[18][25] - 公司未来计划将平台机制迁移到金融、医学、营销等垂直专业领域,以拓展业务边界[25]
37岁天才华裔,问鼎“最年轻亿万富豪”
36氪· 2025-10-10 04:06
公司核心信息 - Surge AI创始人Edwin Chen即将获得10亿美元首轮融资 公司估值或将升至约240亿美元 创始人持有75%股份 身家达180亿美元[1] - 公司成立不到五年 年营收已超10亿美元 几乎从创立首日就实现盈利[4] - 公司员工250名(包括全职、兼职和顾问) 0融资 2024年营收12亿美元 超过竞争对手Scale AI同期8.7亿美元的营收[7] - 公司客户包括谷歌、Meta、微软以及AI实验室Anthropic和Mistral等巨头 仅Meta一家生成式AI部门去年在Surge AI的支出就超过1.5亿美元[7] - 创始人Edwin Chen拒绝1000亿美元的收购报价 并将典型的由风投支持的硅谷初创公司描述为「快速致富的计划」[7][14] 商业模式与技术优势 - 公司业务为数据标注 为生成式人工智能大模型提供大量"干净、精准"的训练数据 是AI产业中最基础、最不可或缺的角色 被业内戏称为"赛博富士康" AI产业的"卖铲人"[5] - 公司采用人机协同的变通方案:由AI生成数据并自行标注 但由人类评估其表现 不同于旧式数据标注模式[7] - 公司从成立一开始就选择"高质量标注"路径 主打质量和专家匹配 希望让AI学会"人类的复杂性、人性的丰富性" 聘请斯坦福、普林斯顿和哈佛的教授来训练AI[13][15] - 公司专门搭建Surge Force精英网络 标注员需提交5道试写题目并经资深标注员审核通过后才可加入 业务围绕"隐私优先、安全第一"构建 成为医疗、政府等重视AI伦理与数据治理机构的首选供应商[14][15] 创始人背景与公司文化 - 创始人Edwin Chen出生于1988年 父母从台湾移民美国 17岁进入麻省理工学院学习数学、语言学和计算机 曾在谷歌、Dropbox、Facebook、推特等公司工作 2020年33岁时创业[9][11] - 创始人因在推特和Facebook的工作经历中遭遇数据标注质量问题(如外包商将咖啡馆标注成医院 错把"讽刺帖"标为"正面内容")而意识到高质量数据的重要性 从而创立Surge AI[11][12] - 公司创业初期就做出"反硅谷"决定:不要VC的钱 靠自有资金发展 并定下三条铁律:不融资、不烧钱、不接简单订单[14] - 产品上线不到12个月营收突破八位数 精准押中大语言模型风口 与多家巨头达成合作[14] 行业地位与发展愿景 - 数据标注公司卡住了AI的数据入口 正如英伟达掌控了算力命脉[5] - 公司希望成为一家引领AI行业发展的企业 创始人将更多地走向台前 将自己定位为更具影响力的思想领袖[8] - 在全球AI创新浪潮中 华人成为科技创新的中坚力量 《时代》杂志2025年全球百大AI人物榜单中多位华人上榜[18]
人工智能高质量数据集生态发展大会在重庆永川举行
新华网· 2025-09-29 08:41
大会概况 - 人工智能高质量数据集生态发展大会于9月28日在重庆永川举行 主题为构建高质量数据集 赋能AI新发展 [1] - 大会通过政策宣介 案例分享 揭牌签约 产业对话等形式推动人工智能数据基础设施建设 深化区域数据要素协同创新 [1] - 大会是永川区推动数据要素市场化配置改革和人工智能产业发展的重要举措 [7] 合作与基地建设 - 重庆市大数据应用发展管理局与永川区政府签署协议 共同建设重庆市数据集建设应用基地 [3] - 重庆市大数据局支持永川区企业参与重庆城市可信数据空间的数据集建设 并指导构建数据标注标准规范及质量控制体系 [3] - 西部数据标注研究院和西部数据集生产基地在大会上同步揭牌成立 [3] 机构职能与规划 - 西部数据标注研究院由中国信息协会与永川区政府共同发起 定位为数字技术共享平台 产业孵化平台及生态构建平台 [4] - 研究院将开展人工智能 高质量数据集等领域的技术科研创新 标准制定 质量评测 并培养复合型数据标注人才 [4] - 西部数据集生产基地由中国信息协会与永川区政府共建 旨在推动数据集生产类企业落地 促成数据要素汇集 打造辐射全国的数据产业 [4] 产业生态与合作 - 永川区与中国移动 中国电信等12家企业签署合作项目 与会代表围绕高质量数据集建设等话题进行深入交流 [6] - 永川区将数据标注产业作为推动数字经济和实体经济深度融合的重要抓手 积极探索数据标注+场景应用流通模式 [6] - 永川区目前园区已集聚数据标注类企业18家 建成标注坐席1.2万席 2024年相关业务营收达13.76亿元 是西南地区重要的数据标注产业基地 [6] 未来发展目标 - 永川区以建设数据要素产业聚集强区为目标 全力推进建设数据标注产业园等四大行动 [7] - 永川区力争到2027年成为成渝地区双城经济圈数据要素流通枢纽节点和数据标注服务基地 [7]
OneMedNet Expands Into $1.5B Healthcare Data Annotation Market With MedCase
Globenewswire· 2025-09-24 12:45
战略合作公告 - OneMedNet Corporation与Medcase宣布建立战略合作伙伴关系[1] - 此次合作为公司在医疗AI生态系统中开辟了一个高增长的收入渠道[1] 市场机遇与规模 - 全球医疗数据标注市场规模在2025年达到15亿美元,预计到2030年将增长至28亿美元[2] - 该市场正处于关键增长阶段,为专注于医疗领域的专业提供商创造了即时机会[2] 合作协同效应 - OneMedNet将其iRWD™平台和全国范围的提供商网络与Medcase超过15,000名医疗专业人士的标注服务相结合[2][3] - 这种高质量真实世界数据与专家标注的结合为双方创造了独特的竞争优势[3] 公司定位与高管评论 - 合作将OneMedNet置于医疗数据价值链的中心,有望满足巨大的未满足市场需求[5] - 对专业医疗标注的需求正在加速,合作使Medcase能够为客户提供无与伦比的真实世界数据访问权限[5] 行业背景与增长动力 - 医疗是数据标注行业中增长最快且最具防御性的垂直领域[6] - 医疗特定数据管理提供商的人员数量实现了58%的同比增长,凸显了市场的加速发展[7] - 领域特定的专有数据日益成为AI模型开发的关键差异化因素[7] 公司资源与能力 - OneMedNet通过其iRWD™平台利用超过1,750个医疗站点的未开发潜力[7] - Medcase拥有超过15,000名临床医生,提供专业的医学数据标注服务[11][12]
Mercor 高速增长的秘诀与其中的聪明人|42章经
42章经· 2025-09-14 12:40
公司业务定位 - 核心业务是帮助顶尖AI公司招聘各行业专家 而非传统数据标注公司[4][26] - 通过专家提供系统性反馈来提升AI模型智能 替代传统数据标注平台[6][27] - 交付物为评估标准和基准测试规范 相当于模型的PRD[27][28] 商业模式 - 采用平台化运营模式 客户将资金支付给平台 再由平台结算给专家[8] - 平均时薪超过90美元 不同职业差异显著:英文语音训练21美元 软件工程师100-200美元 皮肤科医生高达400美元[16] - 从100万美元到1亿美元年化营收运行率仅用11个月 增速超过Cursor的12个月纪录[39] 市场竞争优势 - 完全替代传统数据标注平台 模型可直接基于其提供的评估标准进行强化学习[6] - 核心能力在于人才质量评估 能通过科学方法从万份简历中筛选顶尖人才[10][11] - 相比Scale AI被收购后的业务下滑 Mercor抓住模型升级带来的市场空白[20][25] 运营流程 - 获客主要依靠熟人推荐(超50%专家来源) 推荐人可获得推荐费[12] - 采用AI视频面试自动生成问题 20-30分钟面试后生成带转录文本的视频报告[13] - 通过多人交叉验证机制确保标注质量 异常方案会被及时识别并淘汰[15] 市场前景 - 数据标注市场规模约50-100亿美元 随OpenAI等公司持续投入而扩大[36] - 业务模式可复用到所有行业 核心是解决"挑选"环节的痛点[32] - 未来工作形态将向项目制演进 全职岗位减少 AI衡量能力将拓展至更多场景[29][30] 团队特质 - 团队平均年龄22岁 多位成员曾获Thiel Fellowship并有过创业经历[39] - 决策速度极快 依赖创始人直觉而非完全数据驱动 强调快速试错[48][49] - 执行能力突出 团队每日工作时间为7:30至凌晨1:00 依靠增长作为核心激励[53][55] 人才标准 - 注重技术实践能力 要求候选人展示实际构建成果[58] - 强调Agency(主动性) 即克服困难达成结果的能力[59][60] - 通过概念类比测试学习能力 例如用MCP vs API的类比快速理解新概念[63][65]
这家百人“作坊”,凭什么年入70亿,还成了OpenAI的“御用陪练”?
36氪· 2025-08-02 00:03
公司概况 - Surge AI是一家专注于高质量数据标注的AI公司,仅有110名正式员工,却在2024年创造了超过10亿美元的年营收,反超行业巨头Scale AI [1] - 公司正启动首轮融资,目标募资10亿美元,估值或达150亿美元 [1] - 创始人Edwin Chen是37岁的华人理工男,曾任Twitter工程主管,对行业痛点有深刻理解 [3][7] 商业模式创新 - 重构数据标注行业竞争维度,形成"极致质量 × 精英团队 × 自动化系统 × 使命感文化"的乘法模型 [10] - 专注RLHF(基于人类反馈的强化学习)等高价值环节,收费是同行的2-5倍,项目最低门槛数百万美元 [13] - 开发智能人机协同系统,110人团队每周处理数百万条高质量数据,人均产出是Scale AI的近9倍 [16][17] 人才战略 - 筛选全球最顶尖的1%标注人才,包括博士、硕士,将其视为"AI工程师"而非"数据工人" [11] - 创始人对初创公司招聘有独特见解,认为早期应追求10-100倍突破而非微调,产品方向应由创始人亲自把控 [12] - 通过使命感凝聚团队,标注者被视为"AI的父母",许多高学历人才因能实践毕生所学而长期工作 [19] 行业对比 - 2024年营收10亿美元,超过Scale AI的8.7亿美元 [21] - 与传统模式相比,解决了质量堪忧、效率低下、价值密度低三大痛点 [6][7][9] - 与Snorkel AI的程序化标注相比,更擅长需要人类价值观和常识判断的复杂任务 [23] - 与Turing的专家众包平台相比,通过自研平台将精英人才整合成高效协同团队 [24] 核心优势 - 重新定义行业问题:AI需要的是蕴含人类智慧的"养料"而非简单"标注" [25] - 打破"数据=劳力"的铁律,证明"更聪明的人力+更聪明的系统"可超越线性规模增长 [25] - 构建了包括人才、技术、文化在内的全方位质量导向体系 [10][19] - 创始人坚持不卖公司,以"培育AGI"为使命,形成难以复制的精神护城河 [17][19]
又一位剑指AGI的华人理工男!这家百人“作坊”,凭什么年入70亿,还成了OpenAI的“御用陪练”?
混沌学园· 2025-08-01 12:06
行业背景与问题 - AI数据标注行业长期遵循"人力=产量"逻辑 以Scale AI为代表的传统模式依赖海量兼职人员处理简单重复任务[7][8] - 大语言模型(LLM)兴起后 需要理解逻辑、文化、偏见等复杂反馈 传统模式暴露三大弊端:标注错误率高(如餐馆标成医院)、效率低下(小项目启动需数月)、价值密度低(空洞数据泛滥)[8][12] - 行业存在"价值错配":顶级AI工程师被迫从事低价值数据预处理 而非专注模型创新[11] Surge AI商业模式创新 - 重构竞争四维度:极致质量×精英团队×自动化系统×使命感文化 形成乘法效应[15] - 精英路线:全球筛选顶尖1%标注人才 包括博士硕士 将其定位为"AI教练"而非数据工人 团队仅110人但人均产出达Scale AI的9倍[16][17][21] - 专注高价值环节:主攻RLHF(基于人类反馈的强化学习)领域 收费达同行2-5倍 服务OpenAI等顶级实验室[19] - 智能系统:开发人机协同平台 AI负责质检与辅助 人类专注高阶判断 每周处理数百万条高质量数据[20][21] - 文化驱动:以"养育AGI"为使命 标注者自视为"AI父母" 形成金钱无法替代的精神凝聚力[24] 商业成果与行业影响 - 2024年营收超10亿美元(约70亿人民币) 反超Scale AI(8.7亿美元) 零外部融资情况下估值达150亿美元[1][27][28] - 客户质量审计表现优于Scale AI 获O'Reilly创始人公开称赞 Meta投资Scale后更多实验室转向Surge[27] - 开创"高维战场":与Snorkel AI(程序化标注)相比更擅长人类价值观判断 与Turing(专家众包)相比提供更稳定的团队协同输出[29][32] - 验证新范式:证明"更聪明人力+更智能系统"可超越线性规模增长 重新定义AI数据需求为"人类智慧养料"而非简单标注[30][31]
Surge AI估值超千亿元 数据标注产业走向台前
中国经营报· 2025-07-31 17:32
公司概况 - Surge AI是一家专注于数据标注的AI企业,成立仅五年便成为估值150亿美元(约合1000亿元人民币)的"独角兽",目前正在进行10亿美元的首轮融资 [1] - 公司由前Google和Meta工程师Edwin Chen于2020年创立,旨在解决传统数据标注行业效率与质量双低的问题 [2] - 2024年营收突破10亿美元,客户包括OpenAI、谷歌、微软、Meta、Anthropic等全球顶级科技公司和研究机构 [3] 业务模式与技术优势 - 构建智能化标注平台,集成计算机视觉与自然语言处理技术,通过动态任务调度系统优化全球众包资源,大幅提升标注效率 [4] - 通过资本杠杆快速收购区域性标注服务商,形成覆盖多语种、多场景的服务网络,摊薄边际成本 [4] - 与OpenAI、Anthropic等大模型企业合作,通过对AI大模型输出内容进行质量分级和校验,帮助提升模型性能 [3] 行业背景与市场机遇 - 数据标注是AI发展的关键基础产业,涉及数据筛选、清洗、分类、注释等加工处理,对高质量数据集建设至关重要 [1] - 全球AI数据需求以每年230%的速度增长,大模型参数量每12个月扩大10倍,GPT-4训练消耗的10万亿token中超过60%需人工标注 [2] - 中国数据标注市场规模从2020年30亿元增长至2024年80亿元,年复合增长率超25%,预计2029年达204.3亿元 [6] 技术发展趋势 - 行业正从"手工作业转向人机协同",AI辅助工具渗透率不断提升 [1] - 未来突破方向包括:主动学习框架减少人工干预、跨模态联合标注提升一致性、隐私计算集成满足合规需求 [8] - 智能化标注技术如预训练模型初步标注+人工审核修正,将成为提高效率和质量的关键 [8] 政策与产业生态 - 中国出台系列政策支持数据标注产业发展,国家数据局指导7个城市建设数据标注基地,已建设数据集524个(规模超29PB),服务大模型163个 [7] - 地方应用案例涌现,如中国电信四川公司利用19个地市方言语音大数据构建四川方言数据集并训练方言大模型 [6] 竞争格局与挑战 - 行业正从劳动密集型向技术驱动型转变,需求增长但面临数据存量、质量、利用效率等问题 [7] - Surge AI模式依赖特定市场环境与资源优势,不同地区和企业需差异化发展路径 [4]