Workflow
数据质量
icon
搜索文档
深陷信任危机!特朗普“政治清洗”正引发数据质量崩溃?
金十数据· 2025-12-10 13:31
美国联邦统计机构现状与挑战 - 美国联邦统计机构正面临能力脆弱和公众信任受损的危机,急需特朗普政府和国会提供更多资金和人员支持以履行基本职责并恢复公众信心[1] - 劳工统计局、经济分析局和普查局等机构发布的数据对政策制定者、投资者、公司及公众决策至关重要,但其工作因长期预算缩减、调查回复率下降以及近期对其独立性和完整性的威胁而变得更加艰难[1] - 报告呼吁必须立即采取行动,以阻止联邦统计机构履行基本使命能力的严重下滑,并解决对联邦统计数据可信度的不确定性[1] 特朗普政府时期的具体压力与事件 - 特朗普政府削减政府规模的行动在许多机构留下了巨大缺口,数据工作成为裁员的附带损害[1] - 2024年8月,在一份疲软的非农就业报告发布后,特朗普解雇了劳工统计局局长,并无证据地指责其操纵数据,此举遭到经济学家和统计学家的反驳[2] - 政府方面则指出就业数据出现大幅修正,称数字需要“公平和准确”[2] - 总统解雇劳工统计局局长的行为被报告修改为:通过指责统计机构负责人过去存在政治操纵行为,破坏了对未来的信任[2] 公众信任度下降与机构管理问题 - 一项调查显示,公众对联邦数据的信任度从2024年6月的57%下降到了9月的52%[3] - 政府今年采取的其他破坏官方统计的行动包括解散咨询委员会、未能填补领导职位空缺以及在未咨询国会或公众的情况下删除数据集[3] - 报告指出,首席统计师和普查局局长的职位已由兼任其他全职职位的政治任命人员担任,这可能会进一步侵蚀信任[3] 报告提出的建议措施 - 报告敦促特朗普政府将关键数据机构职位豁免于联邦招聘冻结之外[3] - 报告呼吁国会资助研究和IT基础设施的升级,以帮助提高统计质量[3] - 报告认为这些措施将开始恢复系统提供国家所依赖的及时、相关和可信统计数据的能力[3]
不融资、不烧钱、不扩团队,华裔 CEO 创办的AI独角兽打入谷歌、Anthropic核心供应链,如今营收近百亿
36氪· 2025-12-10 09:12
公司概况与业绩 - 公司Surge AI是一家专注于提供高质量AI训练数据的公司,其核心业务是“教AI模型什么是好、什么是坏”,通过真人数据训练模型,并测量模型进步 [15] - 公司成立于2020年,在不到4年时间里,实现了年营收超过10亿美元,且从未接受任何外部融资 [1][4][11] - 公司在实现10亿美元营收时,员工人数不到100人(约60-70人),实现了极高的人均产出 [11] - 公司自成立第一年起就实现了盈利 [7] 创始人背景与创立初衷 - 创始人兼CEO Edwin Chen是美籍华裔,拥有MIT数学与语言学背景,并曾在Google、Meta、Twitter等公司负责机器学习与内容审核项目 [5] - 创立源于其在大型科技公司工作时观察到的行业痛点:即便资源雄厚的大厂,在将原始数据转化为高质量训练数据时也常因标注粗糙而失败 [5] - 2020年GPT-3发布后,创始人意识到需要全新的解决方案来构建下一代AI模型,因此创立了Surge AI,专注于高级复杂的训练数据用例 [42] 核心技术体系与质量保障 - 公司构建了名为“Surge Force”的精英标注员网络,准入门槛极高,申请者需提交试写题目并由资深标注员审核 [6] - 标注员网络包括全球专业人士,甚至聘请了斯坦福、普林斯顿和哈佛的教授参与,旨在将人类专业知识与价值观编码进数据 [6] - 公司开发了先进的人机协同系统和算法,通过追踪每位标注者的数千个行为信号,并用机器学习分析来检测和对抗低质量标注行为 [6][17] - 数据质量的定义远超简单的勾选检查,而是追求“诺贝尔文学奖级别”的复杂、主观且细腻的成果,这需要大量技术来测量 [15] 客户与市场地位 - 客户名单几乎囊括所有AI巨头,包括OpenAI、Anthropic、谷歌、微软、Meta [7] - 仅Meta的生成式AI部门,2024年在Surge AI的服务上支出就超过1.5亿美元 [7] - 凭借高质量服务,公司赢得了顶尖客户群并拥有极高的议价能力 [7] 商业模式与公司理念 - 公司坚持不融资、不参与硅谷传统的融资与公关游戏,其成功完全依靠打造比别人好10倍的产品,并通过口碑获得早期客户 [12][13] - 这种模式吸引了真正理解数据质量、关心AI模型效果的客户,从而获得了最有价值的反馈 [14] - 创始人认为,未来会出现更极端的公司形态,例如“每位员工贡献1亿美元营收”,AI带来的效率将彻底改变公司的构建方式 [11][12] - 公司将自身定位为更像一个研究实验室,而非典型的初创公司,其驱动力是好奇心、长期激励和学术严谨性,而非季度指标 [34][45] 对AI训练与行业发展的见解 - 数据质量是模型能力差异化的关键因素之一,不同团队的目标函数和“品味”会影响所需的数据类型,最终导致模型行为不同 [18][36] - 当前行业普遍采用的基准测试(Benchmarks)可信度低,因为它们经常包含错误、结构混乱,且容易被模型针对性优化(刷分),与解决真实世界问题的能力相关性弱 [18][19] - 强化学习环境(RL Environments)正变得越来越重要,它们是对现实世界的模拟,能让模型在混乱、多步骤的交互任务中学习,暴露其在孤立基准测试中无法发现的薄弱环节 [22][23] - 模型训练是一个多阶段演进的过程,包括监督微调(SFT)、基于人类反馈的强化学习(RLHF)、评估标准(Rubrics)与验证器(Verifiers),以及新兴的强化学习环境,每种方法都是模型学习的不同形式 [26][29] 行业趋势与未来展望 - 未来AI模型将因不同实验室的价值观和优化目标不同而变得越来越差异化,而不仅仅是能力上的微小差距 [36][37] - 被低估的趋势是:聊天机器人将开始内置各种可执行的小应用或UI(“成果物”),直接在聊天界面中完成复杂任务 [39] - 被过度炒作的领域是“Vibe Coding”(凭模糊需求生成代码),直接使用此类生成的代码可能长期损害代码库的可维护性 [39] - 数据公司有机会成为AI时代真正的“基础设施级企业” [9]
智能座舱竞争转向“数据质量、场景颗粒度与深度适配”之争
新京报· 2025-11-28 03:47
行业核心观点 - 随着大模型能力普及,汽车行业智能座舱出现明显的功能同质化趋势,竞争正从“模型规模”转向“数据质量、场景颗粒度与深度适配”之争 [1] - 智能座舱交互范式正从“被动响应的工具”向“主动认知伙伴”加速跃迁,通过整合多维度数据主动预判并提供服务 [1] - 2025年智能座舱开始从“数字冗余”转向“实用主义”的理性变革,竞争焦点将从“功能的广度”回归“体验的深度” [1] 竞争策略与发展方向 - 车企需构建“场景—数据—模型”的一体化闭环能力,实现“模型即应用”,以在真实用车场景中形成差异化体验 [1] - 未来智能座舱的价值锚点在于体验深度,用户对智能座椅、智能音响等舒适性硬件的支付意愿正在提升 [1] 交互设计趋势 - 智能座舱交互回归理性,触控与物理按键进入“再平衡”阶段 [1]
AI要向电商“抽佣”了
第一财经资讯· 2025-11-26 16:14
AI重塑电商流量入口 - AI驱动的对话式交互(如ChatGPT、豆包)正成为新的电商核心流量入口,改变用户从传统搜索(如百度、谷歌)或直接访问网站(如亚马逊)的购物习惯[2][3] - ChatGPT月活跃用户超过7亿,豆包月活跃用户达到1.6亿,巨大的用户基础使其具备成为重要电商入口的潜力[2][5] - 电商流量向AI入口迁徙的趋势在中美市场同步发生,OpenAI与Shopify、Etsy合作,豆包排他性接入抖音商城,形成购物闭环[3][5] 电商巨头AI布局与竞争态势 - 字节跳动通过豆包与抖音商城构建电商闭环,豆包月活1.6亿,抖音月活超10亿,抖音电商支付GMV在2025年已位列行业第三,对阿里巴巴、拼多多、京东构成威胁[5][6] - 阿里巴巴推出千问APP,公测第一周下载量突破1000万,但其在电商导流上尚未形成闭环(测试中提供京东链接而非天猫链接),并将此项目视为"AI时代的未来之战"[6] - 百度通过文心助手(订阅用户数达1200万,对话轮次同比增长约5倍)和文心一言应对AI浪潮,并在AI搜索中测试电商组件,双十一期间日交易额峰值接近600万元[10][11] AI电商新模式:代理式电商与商业化潜力 - AI从"能回答问题"迈向"能理解你",发展出"代理式电商"(Agentic Commerce),大模型可能成为消费者的个人采购代理,直接完成商品询价、比对等决策流程[4][12] - 当大模型(如OpenAI、谷歌、国内大模型)承担采购代理角色并接入电商系统时,它们可能在交易中间"抽佣",开辟新的商业化入口[12] - AI参与的电商模式被认为能提供比传统搜索引擎或电商平台更好的用户体验,但传统巨头不会坐以待毙,会通过迭代转型或推出类似产品进行竞争[9] AI电商面临的数据挑战与可信度问题 - 大模型决定用户能看到什么,其筛选逻辑的准确性与可靠性至关重要,必须避免呈现虚假或错误信息,这对技术成熟度提出高要求[14] - AI生成内容可能结构"完美"但存在细微关键错误,且其依赖的公开互联网数据可能存在偏颇(如为吸引流量而粉饰的内容),无法完全反映真实消费者需求[15] - 在商业场景中,AI系统的核心价值在于能有效整合企业的私有数据、行业专业数据及公开数据,构建可信的数据连接与挖掘能力[16][17]
打破数据质量鸿沟!清华腾讯Bee项目发布1500万高质量数据集,刷新MLLM全栈开源SOTA
量子位· 2025-11-11 04:24
项目背景与核心观点 - 全开源多模态大模型的性能长期落后于闭源和半开源模型,核心瓶颈在于“数据质量鸿沟”而非模型结构[1][2] - 清华大学与腾讯混元团队推出全栈式开源解决方案Bee项目,旨在通过提升数据质量来缩小开源社区与顶尖模型的差距[2] - 当前MLLM领域存在三层结构:顶尖闭源模型、权重开放但数据私有的半开源模型、以及性能落后的全开源模型[5] Honey-Data-15M数据集 - 数据集规模达1500万样本,经过多重精细清洗和创新性的双层思维链扩充[6][16] - 采用双层CoT推理结构:约1220万短CoT样本培养基础逻辑能力,约270万长CoT样本针对复杂问题设计[19] - 数据集来源多样化,覆盖7大领域:通用、图表、描述、STEM、文档、定位与计数、OCR[17] HoneyPipe数据增强管线 - 构建了基于DataStudio框架的自动化数据增强流程,提供透明可复现的方法论[12] - 流程分为三个阶段:噪声与无关性过滤、短CoT增强与验证、长CoT增强循环[18] - 使用规则过滤和模型过滤确保图文语义一致性,并通过LLM-as-a-Judge进行保真度验证[18] Bee-8B模型架构与训练 - 模型基于Qwen3-8B LLM、SigLIP2-so400m-patch14-384视觉编码器和简单的两层MLP投影器[23] - 采用五阶段训练配方:MLP预热、视觉-语言对齐、多模态SFT、高效精炼SFT、策略优化RL[22][27][24] - 关键的多模态SFT阶段在完整的Honey-Data-15M数据集上进行,全面注入复杂推理能力[27] 性能表现与行业影响 - 在数学与推理任务上表现突出:MathVerse基准达67.0分,超越InternVL3.5-8B的61.5分;LogicVista以61.3分登顶[28] - 在图表与文档任务上优势明显:CharXiv-RQ获得57.3分,以近12%优势超越所有对手[28] - 在通用VQA任务上全面领先:MMStar达71.4分,MMVet达83.9分,CountBench达93.0分[25][28] - 项目证明通过优先保证数据质量的透明方法论,比盲目堆砌数据量更有效[26]
喂了几个月的垃圾推文,大模型得了「脑腐」,这病还治不好
机器之心· 2025-10-21 03:43
文章核心观点 - 研究表明,大语言模型长期接触低质量的网络内容会导致认知能力持续下降,类似人类的“脑腐”现象[4][6][7] - 即使后续用高质量数据重新训练,模型的认知损伤也无法完全修复,出现永久性变化[6][7][29] - 数据质量是LLM能力衰退的因果驱动因素,需要重新定义训练阶段的数据筛选为安全问题[17] 研究动机 - “脑腐”概念描述低质量内容对人类认知的钝化作用,同样适用于从互联网信息源学习的LLM[9] - 研究LLM的“脑腐”将数据策展重新定义为人工智能的“认知卫生”,指导训练语料库的获取、过滤和维护[10] - 与以往关注训练数据质量的工作不同,该研究提供关于数据质量的新视角,关注社交媒体内容的琐碎性和易消费性[10] 实验方法 - 提出“LLM脑腐病假设”,通过受控实验验证持续接触垃圾网络文本会导致认知能力持续下降[12] - 采用两个正交操作化方法构建垃圾数据集:M1(参与度-帖子受欢迎程度和简短程度)和M2(语义质量-文本耸人听闻或肤浅程度)[13] - 实验使用真实的Twitter/X语料库,保持一致的token规模和训练操作,包括后续相同的指令微调[15] 研究结果 - 垃圾数据预训练导致推理能力下降23%,长期记忆下降30%[14] - 人格测试显示自恋和心理病态水平上升[14] - 在4个LLM上观察到推理、长时记忆理解、安全性及“黑暗特质”方面显著下降(Hedges' g > 0.3)[15] - 垃圾数据比例从0%上升到100%时,ARC-Challenge得分从74.9下降到57.2,RULER-CWE得分从84.4下降到52.3[16] 关键发现 - 思维跳跃是主要病变:模型频繁截断或跳过推理链,解释大部分错误增长[23] - 部分但不完全恢复:扩大指令调优和干净数据预训练能改善认知衰退,但无法恢复到基准水平[23][29] - 受欢迎度是更好指示器:推文受欢迎程度比长度更能反映大脑腐化效应[23] - M1干预对推理和长上下文能力的影响比M2干预更显著和渐进[25]
穿越市场不确定性:晨星,让投资一路畅行
Morningstar晨星· 2025-10-16 01:05
公司创立背景与使命 - 公司于1984年由股票分析师Joe Mansueto创立,旨在弥合普通投资者与专业机构之间的信息鸿沟 [2] - 公司的核心使命是赋能投资者成功,并将专业的投研信息和工具带给每一位投资者 [2][14] 核心业务与数据能力 - 公司构建了全球最大、质量最高的投资数据库之一,覆盖约80万种投资产品 [3] - 通过收购PitchBook等举措,公司打通了公募与私募市场的壁垒,连接价值孤岛 [3] - 公司提供独有的分析工具,如奖牌评级、晨星分类和可持续评级,以缩短从数据到决策的距离 [3] 服务于资产管理者与机构投资者 - 公司致力于以严谨的数据质量为专业机构筑牢投资护城河,数据质量直接影响策略成败 [3][4] - 通过晨星投资风格箱、星级评级和图表报告等直观设计,将复杂金融理念清晰传达给客户 [5] - 公司分析师坚持独立观点和审慎态度,为投资顾问在市场噪音中引导客户坚持长期主义提供依据 [6] 携手公募基金与银行理财 - 公司为公募FOF、银行理财等机构提供独立、客观的管理人研究与基金研究支持 [10] - 公司提供宏观与策略层面的研究支持,助力机构构建更稳健、符合长期目标的投资组合 [12] - 公司分享全球产品创新趋势洞察,为机构开发具备前瞻性的金融产品提供思路与工具 [13] 公司规模与全球业务 - 公司是全球最主要的投资研究机构之一,业务遍及北美、欧洲、澳洲及亚洲等33个市场 [17][20] - 截至2025年6月30日,公司所管理及给予投资建议的资产约为3520亿美元 [20]
How the government shutdown complicates the Fed's rate cut options
Youtube· 2025-10-09 21:44
美联储决策复杂性 - 政府停摆导致美联储无法获得关键的政府就业和通胀数据 使其在劳动力市场放缓与关税导致物价持续上涨的背景下决策复杂化 [1] - 美联储面临是否依赖已知劳动力市场数据和替代数据集 还是选择暂停行动直至官方数据发布的困境 [3] - 如果政府停摆持续且数据缺失 美联储可能因缺乏清晰视野而选择在下次会议上暂停行动 [7] 数据质量与影响 - 政府停摆不仅导致10月份数据延迟发布 其连锁效应还将影响后续数据质量 例如10月CPI数据因工作人员无法收集而需估算 这将引发对11月和12月报告可靠性的质疑 [4] - 在政府停摆前 CPI篮子中约10%的商品由工作人员估算 而近几个月这一比例已升至约三分之一 数据清晰度持续下降 [4] - 替代数据集虽有助于拼凑全貌 但无法完全填补信息空白 例如对9月非农就业人数的预测范围从增加6万人到减少3万人 差距巨大且无法准确衡量失业率 [11][12] 经济与市场影响 - 政府停摆每周对GDP造成约10个基点的拖累 联邦雇员每日损失约4亿美元薪酬 进而影响整体经济支出 [6] - 若美联储因数据不明朗而暂停行动 市场将受到严重冲击 因为市场已提前定价了持续的降息路径 暂停将导致市场轨迹出现重大转折 [8][9] - 尽管存在数据缺口 但企业盈利依然强劲 第三季度盈利增长预期从8%上调至8.8% 为2003年以来仅有的五次在财报季前上调预测的情况之一 显示市场基本面稳固 [15][16] 劳动力市场解读 - 美联储目前更关注失业率作为衡量劳动力市场健康状况的更好指标 因为移民政策和退休人数增加导致非农就业数据的平衡率近期发生变化 [12] - 在政府停摆前 劳动力市场已显现放缓迹象 美联储原本希望从后续数据中看到市场趋于稳定的信号 [2]
让大湾区成为数据安全使用典范
南方都市报· 2025-09-15 23:10
数据质量 - 数据质量是大模型训练中最重要的一环 需通过无监督机器学习发现异常数据或有监督方法通过专家标签识别低质量数据 [2][4] - 数据量不足会直接影响数据质量 联合实验室需整合大湾区高校资源构建大数据平台 推动工业界合作项目积累高质量数据 [4] - 实验室可推出数据测试平台供各类大模型测试性能并改进不足 [4] 数据关联与应用 - 智能体落地需解决数据互联问题 当前技术难题在于智能体间缺乏协同与数据串通 应聚焦垂直行业具体应用场景 [6] - 大模型在产业应用具高价值 例如保险业可通过大模型文件处理能力提升理赔案效率 [5] - 数据驱动需实现良性循环 通过实际应用让用户体会便利性而非贪大求全 [6] 数据安全 - 数据安全涉及技术手段如同态加密和隐私计算 需在数据共享与安全间平衡 例如医疗数据隐藏姓名后仍可能通过其他信息映射身份 [5] - 需建立政策与制度层面的数据保护机制 包括数据共享协议和保密协议 引导正确使用数据 [5][8] - 大模型训练涉及商业与个人隐私 需设计保护机制防止敏感问题错误回答 警惕数据投毒等网络攻击风险 [9] 平台与联盟建设 - 联合实验室可整合大湾区高校研究力量 通过联盟协议推动数据安全使用 实现参与者共赢 [8] - 实验室应发挥枢纽作用 推动安全数据积累与开放共享 使大湾区成为数据安全使用典范 [8][10] - 实验室需建设大数据平台和数据测试平台 助力大模型性能测试与改进 [4][10]
AI下半场哨声吹响:数据质量成胜负手——业界首个企业应用AI成熟度模型重磅发布
21世纪经济报道· 2025-09-12 13:00
文章核心观点 - AI竞争进入下半场 模型参数不再是唯一壁垒 数据质量成为企业应用AI的胜负手 [2][3] - 企业应用AI成熟度模型(AIM)发布 提供六维评估体系指导企业AI转型 [1][5][6] - 不同行业呈现差异化AI应用路径 金融/汽车/健康/零售各有侧重 [6][7] 行业应用实践 - 金融行业:中国太保构建"数字劳动力"实现从保险赔付到风险减量的服务跃迁 [3] 兴业银行聚焦业务价值场景构建数百个智能体 [6] - 汽车行业:零跑汽车坚持ROI导向 通过全域自研战略打造软硬一体平台 [6] - 健康行业:蚂蚁集团通过AI健康管家AQ连接支付宝亿级流量/千余家医院/百万级医生 实现线上线下闭环服务 [5][7] - 零售行业:欧莱雅中国将AI融入美妆全旅程 虚拟试妆和销量预测推动创新 [5] 乐刻运动AI客服基础问题解决率超85% AI督导员提升门店巡检效率 [5] 成熟度模型框架 - AIM模型设立战略/组织/数据/技术/应用/商业六个关键维度 [6] - 五级成熟度等级(L1-L5)勾勒从"+AI"到"AI+"的进阶之路 [9] - 战略是指令舱 组织是推进器 数据是燃料 技术是飞控系统 应用是航行轨道 商业价值是目标星球 [9] 行业调研发现 - 金融行业数据基础强大但商业价值需提升 [6] - 汽车行业战略组织突出但数据基础薄弱 [6] - 零售行业整体处于追赶阶段 商业价值实现面临挑战 [6] - 健康行业发展最为均衡 [6] 转型路径方向 - 金融行业从辅助决策迈向自主金融智能体 [6] - 汽车行业从产品智能先行到产品智能与企业智能双轮驱动 [6] - 健康行业走向极致个性化的全周期主动健康服务创新 [7] - 零售行业升级为以消费者为中心的体验跃迁 [7]