数据标注

搜索文档
海天瑞声20250625
2025-06-26 14:09
纪要涉及的公司和行业 - 公司:海天瑞声、Scale AI、中国移动 - 行业:数据标注产业 纪要提到的核心观点和论据 海天瑞声 - **业务模式**:分为定制服务、标准化产品和与训练数据相关的应用服务三类[3] - **业绩波动因素**:2022 年业绩快速增长得益于下游车厂对自动驾驶视觉数据需求增长;2023 年收入下滑受数据出境法规阶段性影响[4] - **2023 年业绩表现**:整体业绩同比回暖,归母净利润扭亏为盈,毛利率因企业多模态数据投入和独特数据集采购需求提升[6] - **海外市场拓展**:2023 年拓展部分智能终端领域头部海外客户;2024 年境外收入预计同比增长近 90%,超 1 亿元;新加坡控股公司实现订单和产能覆盖[5][14][15] - **政企合作进展**:与中国移动联合发布解决方案,共同拓展政府客户;参与东盟语料库建设及可信数据空间构建;与多地成立合资公司拓展下游应用开发[5][16] - **AI 应用落地**:积累大量标准化产品,拓展相关业务;与中国移动联合发布解决方案,预计项目体量显著增长[17] - **营收增长预期**:预计今年整体营收增长超 40%,达约 3 亿多元;智能语音、自然语言处理和计算机视觉业务预计高速增长,后两者增速超 50%[18] 数据标注产业 - **政策支持与市场增长**:预计到 2027 年复合增长率超 20%;七个试点城市发展相关企业,带动产值超 83 亿元;政策持续关注[2][7] - **数据需求增长与规划**:大模型驱动数据需求从通用知识向专业知识延伸;国家数据局规划建设三类高质量数据集[2][7] - **市场规模与竞争格局**:2025 年市场规模有望突破 100 亿元,增速超 30%;2023 年需求方自建团队占 60%,品牌数据服务商占 35%,市场集中度提升[2][8] - **第三方品牌服务商需求**:大模型对垂直、专业、深度数据挖掘需求增加,第三方品牌服务商需求增长,头部份额将提升[9] Scale AI - **业务模式**:为 AI 和机器学习提供数据标注和管理服务,涵盖数据标注、管理、评估、自动化平台及数据生成服务[10] - **客户群体与营收**:客户包括自动驾驶、金融、政府等;与头部 AI 公司合作;2023 年营收近 9 亿美元,预计 2024 年超 20 亿美元[11] - **融资情况**:2024 年 6 月获 Meta 投资,投后估值约 290 亿美元,Meta 以 14.3 亿美元获 49%股权[10] - **与国防部合作**:2020 年获 9100 万美元订单,2022 年获 2.49 亿美元新合同,业务拓展至数据处理和应用开发,2023 年提供算法优化和模型部署服务[12] - **标注方式平衡**:海外设外包人工标注团队,提升自动化标注水平,大模型后期微调及专业领域仍需人工标注[13] 其他重要但是可能被忽略的内容 - 海天瑞声定制服务知识产权不归公司所有,不能重复销售;标准化产品可重复销售[3] - 海天瑞声作为中国移动参股方,参与国家数据局主持的数据标注领域民营经济座谈会[16]
Meta、Scale交易后,最大赢家竟是Uber?
虎嗅· 2025-06-25 05:36
行业格局变动 - Meta收购Scale AI 49%股份引发行业震动,OpenAI和谷歌等主要客户已缩减或计划切断与Scale的合作 [1] - 数据标注领域竞争对手受到鼓舞,积极抢占市场空白 [2] - 优步旗下Uber AI Solutions借机扩张,向新客户推介服务 [4] 优步的战略布局 - Uber AI Solutions从最初5个市场扩展到30多个国家和地区,众包数据标注人员数量自年初翻倍 [7] - 推出新服务提供现成数据集(音频、视频、图像、文本)及AI智能体开发工具,并开放内部管理平台 [4] - 部门更名以突出AI属性,计划通过自动化流程(如自然语言需求描述)与竞争对手形成差异化 [5] 优步的竞争优势 - 市值1750亿美元,去年营收439亿美元,资源储备远超依赖风投的小型竞争对手 [8] - 拥有50余家企业客户,包括Aurora和Niantic,时薪20-200美元吸引数万名标注人员覆盖STEM、法律等领域 [7] - 强调产品交付能力和运营经验的双重基因,目标将数据标注发展为重要业务线 [8] 竞争对手动态 - Mercor(估值20亿美元)等企业认为高技能人才网络构建效率是竞争关键 [9] - Scale旗下Outlier平台曾指出优步入局反映行业价值被广泛认可 [8] - 优步需应对过往监管争议,但客户未明显介意,公司承诺数据安全管控 [10]
揭秘华人创办的数据标注帝国Surge:成立五年0融资,去年营收10亿美元
36氪· 2025-06-20 11:13
数据标注行业现状 - 数据标注领域因Meta与Scale AI达成143亿美元投资交易成为硅谷新焦点 [3] - 该行业长期处于边缘地带 但实为AI模型性能优化的关键基础 [3] - Surge AI为当前市场份额和竞争力最强的行业龙头 实际体量已超过Scale AI [3][7] Surge AI核心业务表现 - 2023年营收达10亿美元 超过Scale AI同期8.7亿美元 [4][7] - 成立五年未融资 完全依靠自力更生实现盈利 [4][7] - 定位高端服务商 收费为Scale的2-5倍 客户包括谷歌 OpenAI Anthropic等 [6][7] - 合同工起薪每小时20美元 通过子公司Data Annotation Tech管理劳动力 [5] 创始人及公司发展历程 - 创始人埃德温・陈为MIT语言学与数学背景 曾任职Facebook Dropbox谷歌Twitter [9] - 因亲身经历传统数据标注效率与质量双低痛点 于2020年创立Surge AI [9] - 早期通过攀岩馆社交获得Airbnb Neeva等首批客户 自筹资金启动业务 [10] - 专注语言模型领域 2022年服务客户扩展至Anthropic等AI头部企业 [10] 技术优势与行业竞争 - 构建标准化质控体系 通过持续评估合同工光标轨迹等信号保证数据质量 [12] - 客户反映其流程保密但效果显著 类比云服务"黑箱"式高效体验 [12] - Meta生成式AI团队2023年向其支付超1.5亿美元 接近Scale的2亿美元 [13] - 面临OpenAI自建标注团队及谷歌多供应商策略带来的价格压力 [13] 行业争议事件 - 2024年5月遭遇加州集体诉讼 被指控违法分类合同工及欠薪 [8] - 同类公司Scale等也面临类似诉讼 原告律师称工作条件"反乌托邦式" [8] - 公司发言人驳斥诉讼"毫无根据" 目前未披露具体财务细节 [5][8]
速递|华人创业已低调超越Scale AI,零融资的Surge AI年收10亿美金
Z Potentials· 2025-06-20 03:50
行业概况 - 数据标注行业因Meta Platforms与Scale AI达成143亿美元收购49%股份交易而成为硅谷新热点[1][3] - 行业核心工作包括雇佣合同工对AI模型响应进行评级、编写专业领域问题与答案以训练模型 时薪起价20美元[5] - AI模型从玩具转向商业工具推动数据标注需求激增 行业出现蒸馏技术等替代方案可能压低价格[14] Surge AI公司定位 - 定位为高端数据标注服务商 收费是Scale AI的2-5倍 客户包括谷歌、OpenAI和Anthropic等头部企业[3][6] - 专注语言模型标注 通过严格质量管控实现行业领先工作质量 被客户评价为"好得令人放心"[7][11] - 创始人Edwin Chen提出开发具有"创造力和偶然性"AI的崇高目标 追求模型输出能引发情感共鸣[3] 财务与运营表现 - 2024年营收10亿美元(超越Scale AI的8.7亿) 成立五年未融资且实现盈利 110人团队人效达Scale三倍[2][4] - Meta生成式AI团队2023年支付超1.5亿美元标注费用 接近Scale同期获得的2亿美元[12] - 采用合同工模式 但未披露净收入留存率 行业惯例约50%收入需支付给承包商[4] 创始人背景 - Edwin Chen为MIT语言学与数学专业 曾任Facebook、Google等公司机器学习工程师 亲历数据标注痛点后创业[9][10] - 通过攀岩馆偶遇等非传统方式获取首批客户 初期自筹资金并招募前同事组建团队[10] - 坚持不融资策略 若获Scale同等估值(290亿美元)将跻身科技顶级富豪行列[4][6] 竞争格局 - Scale AI获15亿美元融资 组建超千人团队 CEO成为硅谷名人 但营收未达10亿美元目标[6][7] - 新兴竞争对手涌现 谷歌等客户为规避供应商锁定引入多服务商 导致Surge议价能力下降[14] - 行业面临集体诉讼风险 Surge被指控错误归类员工性质 Scale等公司亦有类似纠纷[7][8] 技术方法 - 采用持续评估机制 通过措辞分析、光标轨迹等多维度信号监控外包人员工作质量[12] - 为保持输出风格一致性 要求不同标注者在代码示例结构、长度等方面高度统一[11] - 设置无标准答案问题及多人共识机制 防止标注者敷衍了事[11]
湖北推进可信数据空间发展 到2028年开发至少300个应用场景
长江商报· 2025-06-17 23:43
湖北省推进可信数据空间发展 - 湖北省发布《湖北省推进可信数据空间发展行动方案》,目标是到2028年建成不少于30个成效突出的可信数据空间,开发不少于300个应用场景,上架不少于2000个数据产品 [1] - 方案提出可信数据空间"建、用、管、服"一体化发展,形成"建空间、用数据、活机制、强生态"闭环 [1] - 五类数据空间建设重点方向包括城市可信数据空间、企业可信数据空间、行业可信数据空间、跨境可信数据空间和个人可信数据空间 [5] 武汉市打造数据要素枢纽城市 - 武汉市数字经济规模占地区生产总值比重超过50%,在2024全国数字经济百强市中排名第10,较上年前进1位 [2] - 武汉市在中国数字生态指数2024中排名第6,较上次前进3位,数据要素市场发展居中部城市之首 [2] - 2024年武汉市共有6个项目获批数据领域中央预算内投资补助资金1.095亿元 [2] 武汉市数据标注产业发展 - 武汉市已有数据标注相关重点企业60余家,开发了一批行业高质量数据集和数据标注工具平台 [3] - 《武汉市数据标注产业发展三年行动方案》提出,到2027年相关资产入表、产品登记、数据交易等业务体量超过50亿元,带动人工智能相关产业规模增量超过100亿元 [3] - 目标引进培育数据标注龙头企业2家,产业规模力争进入全国第一方阵 [3] 可信数据空间建设规划 - 国家数据局提出到2028年建成100个以上可信数据空间 [4] - 可信数据空间通过构建"数据共享安全屋"实现数据价值的安全流转,确保数据"可用不可见" [4] - 支持武汉、襄阳、宜昌等市州开展试点,打造涵盖可信管控、资源交互、敏捷计算等能力的底座 [5]
三年行动方案发布,武汉发力数据标注产业
证券时报网· 2025-06-13 13:09
武汉市数据标注产业发展规划 - 武汉市提出《数据标注产业发展三年行动方案(2025-2027年)》,目标到2027年打造数据标注产业园区,引进培育龙头企业2家、细分领域标杆企业不少于4家、高成长性中小企业不少于20家 [1] - 计划实现数据标注相关业务体量超过50亿元,带动人工智能相关产业规模增量超过100亿元,产业规模力争进入全国第一方阵 [1] - 武汉市数字经济规模占地区生产总值比重超过50%,2024年全国数字经济百强市排名第10(较上年提升1位),中国数字生态指数排名第6(较上次提升3位),数据要素市场发展居中部城市之首 [1] 数据标注产业现状与措施 - 武汉市现有数据标注相关重点企业60余家,已开发行业高质量数据集和标注工具平台,形成一批应用成果 [2] - 《行动方案》提出12项具体措施,涵盖产业集聚、能级提升、供需对接、生态优化、安全应用5个方面 [2] - 具体措施包括打造产业园区、培育企业梯队、建立质量标准、加强技术创新(如开发原创标注工具)、建设高质量行业数据集、搭建供需对接平台等 [2] - 对通过数据标注形成的高质量数据集和产品应用给予资金奖励 [2] 公共数据资源开发机制 - 武汉市探索"整体授权+个别授权"运营模式,鼓励公共数据与社会数据深度融合,采取计价免费方式激励主体参与开发 [3] - 发布公共数据资源授权运营目录,建立审核评估机制(包括数据需求审核、产品出域审核等)及收益分配监督评价机制 [3]
发力这一数据产业,武汉探索超大城市数字治理新模式
第一财经· 2025-06-13 09:23
武汉数字经济与数据标注产业发展 - 2024年武汉数字经济规模占地区生产总值比重超过50%,数据要素市场发展居中部城市之首,全国数字经济百强市排名第10,中国数字生态指数2024排名第6、较上次前进3位 [1][3] - 到2027年武汉数据标注产业相关业务体量目标超过50亿元,带动人工智能相关产业规模增量超过100亿元,产业规模力争进入全国第一方阵 [1][2] - 武汉已构建全市一体化数字资源体系,建立统一标准、统一编目、统一归集、统一供数的管理机制,形成全市数据资源"一本账" [3] 数据标注产业规划与目标 - 《武汉市数据标注产业发展三年行动方案(2025-2027年)》提出12项具体措施,从产业集聚、能级提升、供需对接、生态优化、安全应用5个方面推动产业发展 [1] - 到2027年目标打造数据标注产业园区,引进培育龙头企业2家,培育细分领域标杆企业不少于4家、高成长性中小企业不少于20家,产业规模年均复合增长率超过20% [2] - 武汉已有数据标注相关重点企业60余家,开发了一批行业高质量数据集和数据标注工具平台,形成了一批数据标注应用成果 [1] 公共数据资源开发利用 - 武汉探索"整体授权+个别授权"的授权运营模式激发公共数据要素潜能,鼓励公共数据和社会数据深度融合,采取计价免费方式鼓励各类主体参与开发利用 [3] - 发布全市公共数据资源授权运营目录,建立公共数据资源调用审核、需求审核评估、产品出域审核、争议处置、收益分配及监督评价机制 [3] - 加快城市大模型建设应用,开发城市治理"语料库"和"知识库",促进具身智能、医疗检测、教育培训等垂直领域大模型训练 [3] 产业发展具体措施 - 鼓励数据标注企业参与建设高质量行业数据集,加强产品在人工智能等领域应用,持续推动自主原创、行业领先的数据标注工具开发 [2] - 搭建供需对接线上信息平台和开展线下对接活动,促进产业链协同发展,向数据标注企业开放数据集开发建设场景 [2] - 推动公共数据标注与开发利用,支持标注数据安全应用 [1][2]
海天瑞声20250612
2025-06-12 15:07
纪要涉及的行业和公司 - 行业:数据标注行业 - 公司:海天瑞声、Meta、Scale AI、中国移动 纪要提到的核心观点和论据 Meta收购Scale AI对行业的影响 - 体现数据标注行业潜力,Meta高估值收购展示行业中长期发展空间,2025年Scale AI预计收入达20亿美元远超预期[2][3] - 可能使其他大厂因数据敏感性撤出业务,为海天瑞声等带来机会[2][5] 数据标注产业估值模式 - 多样,包括按收入、利润、年度经常性收入(ARR)、订单评估,不同方法反映投资者对企业不同方面价值的关注,Meta高价收购未盈利但高增长的Scale AI显示市场对该领域未来发展高度期待和认可[2][6] Scale AI的价值和成功秘诀 - 价值在于高效数据处理能力,标注精度达99.7%高于市场平均,年均复合增长率接近100%,主要收入来自美国军方和政府部门,能为Meta提供多模态数据处理一体化能力,帮助实现数据资产化[2][7][10] - 成功秘诀是专业化数据处理能力和强大客户资源,2024年有2.9亿美元订单,创始人激进风格和兑现承诺能力促进公司成长[8] 海天瑞声业务情况 - 商业模式:通过生产和销售标准化或定制化数据集实现收入,标准化产品毛利率高,定制化服务产权归客户[11] - 国内业务:2025年一季度国内市场增长快得益于中国移动,收入结构变化,视觉数据占比提升至49%用于训练通用大模型;从2024年三季度开始与多地政府合作进行公共数据治理[4][13][17][18] - 境外业务:2024年整合菲律宾马尼拉数据基地,为中国头部互联网公司提供内容审核服务,已并表运行,一季度收入超1000万,全年预计四五千万[12] - 未来布局:积极布局多模态数据标注,优化数据处理流程,加强与政府部门合作,为承接大型订单做准备[2][9] 其他重要但可能被忽略的内容 - Scale AI在人机耦合模式下,通过顶尖算法工程师和多层次标注人员体系,实现全球范围内极致数据标注,2024年全球有24 - 28万人为其执行数据任务[14][15] - 海天瑞声业务包括订单来源、标注环节、建立可信数据空间,在各地与中国移动当地机构合作,不同地方业务侧重不同[16] - 地方政府资金保障情况对海天瑞声项目选择影响大,公司重视地方财政专项资金稳定性,通过动环监控等确认预算情况决定项目推进与否[4][19]
5月CPI同比下降0.1%,星巴克下调非咖产品价格 | 财经日日评
吴晓波频道· 2025-06-10 00:49
中国5月经济数据 - 5月CPI同比下降0.1% 环比下降0.2% 其中农村下降0.4% 食品价格下降0.4% 服务价格上涨0.5% [1] - PPI同比下降3.3% 环比下降0.4% 工业生产者购进价格同比下降3.6% 1-5月PPI和购进价格均同比下降2.6% [1] - 能源价格走低与旅游价格修复相互抵消 消费品行业需求整体疲软 居民消费呈现此消彼长态势 [1] - 国际原油和煤炭价格走弱带动PPI持续下行 企业盈利承压 行业加强价格竞争监管 [2] 中国5月贸易数据 - 前5个月进出口总值17.94万亿元 同比增长2.5% 其中出口10.67万亿元增长7.2% 进口7.27万亿元下降3.8% [3] - 5月美元计价出口同比增长4.8% 进口下降3.4% 东盟为第一大贸易伙伴 贸易额增长9.1% 占外贸总值16.8% [3] - 对美贸易额下降8.1% 其中出口下降8.7% 进口下降6.3% 海运价格反弹显示贸易关系修复 [3] - 进口增速回落反映内需疲软 东盟和欧盟需求部分对冲美国下滑影响 [4] 美国消费信贷数据 - 4月消费信贷增长179亿美元 创2025年最大单月增幅 信用卡利率未随美联储降息下调 [5] - 学生债务达1.797万亿美元历史新高 面临大规模违约风险 信用卡90天逾期率上升 [5] - 消费信贷增长部分用于必要开支 就业市场降温导致低收入者财务紧张 [5] - 消费者通胀担忧加剧 短期靠信贷维持消费 但未来计划趋于谨慎 [6] 星巴克中国市场策略 - 下调数十款非咖啡产品价格 大杯平均降幅5元 最低23元 打造全天候消费场景 [7] - 面临本土品牌竞争压力 设立首席增长官推进本土化 通过联名营销挽回客户 [7] - 北美低价策略产生负面效果 中国降价旨在提升复购率而不损害品牌调性 [8] 泡泡玛特市场表现 - 创始人王宁身家203亿美元成为河南首富 持有公司48.73%股权 市值约1467亿元 [9] - IP THE MONSTERS营收30.4亿元 同比增长726.6% 成为公司第一大IP [9] - 反映年轻一代"悦己型"消费崛起 潮玩经济逆势增长 [9] - 需建立更深层次情感连接以延续热度 护城河建设仍需时间 [10] MetaAI领域布局 - 拟超100亿美元投资Scale AI 为史上最大私营融资之一 该公司去年收入8.7亿美元 [11] - Scale AI专注数据标注服务 客户包括微软和OpenAI 预计今年收入翻倍至20亿美元 [11] - 投资显示Meta加码AI军备赛 增强军事AI领域影响力 [12] 量化交易市场占比 - 传闻量化交易占比达四成 头部私募否认 估算私募量化日成交额不足2000亿元 [13] - 量化策略普及度提升 高频交易增加流动性但影响趋势形成 [13] - 监管加强维护市场公平 量化交易是市场发展必然产物 [14] A股市场表现 - 沪指涨0.43%至3399.77点 深成指涨0.65% 创业板指涨1.07% 成交额1.29万亿元 [15] - 超4100只个股上涨 创新药概念领涨 券商板块受汇金入主影响拉升 [15] - 市场呈现"众人拾柴"特征 权重股平滑波动 3400点附近抛压减少 [16]
全国残疾人专场公益招聘会(北京主会场)举行
环球网· 2025-05-18 02:35
招聘会概况 - 全国残疾人专场公益招聘会(北京主会场)于5月17日在北京五棵松万达广场举行 [2][4][6][8][10] - 活动由中国残疾人联合会就业服务指导中心指导,北京市残疾人社会保障和就业服务中心等单位主办 [2][4][6][8][10] 参与企业及岗位 - 招聘会共汇集60余家企业 [2][4][6][8][10] - 提供300余个适合残疾人士的岗位 [2][4][6][8][10] - 岗位覆盖销售、数据标注、加工制造、信息技术等多个类别 [2][4][6][8][10] 招聘会现场情况 - 网络技术公司工作人员帮助视障人士填写就业意向 [4] - 应聘者用手语与招聘人员交流 [4] - 手语翻译在启动仪式现场为应聘者加油鼓劲 [10]