斯坦福报告:AI透明度集体倒退!IBM夺冠,马斯克xAI垫底
搜狐财经·2025-12-16 10:28

报告核心观点 - 斯坦福大学等团队发布的《2025年基础模型透明度指数》报告显示,基础模型行业在数据、训练及影响方面的透明度出现集体倒退,平均得分从2024年的58分大幅下降至2025年的40分[1][4] - 透明度不等于开源或模型性能,得分最高的IBM Granite 3.3模型在实际应用性能上并非顶尖,而透明度低的公司可能给安全和治理带来挑战[9][10] - 报告旨在通过量化指标揭示行业透明度现状,为政策制定提供参考,最终目标是实现模型行为可测、声明可证、安全可控,而非要求公司完全公开[10][11] 透明度指数总体趋势 - 2025年透明度指数呈现倒退趋势,行业平均得分从2024年的58分下降至2025年的40分,几乎回落至2023年首次发布时的水平[4] - 公司在旗舰模型的训练数据、训练计算及部署后影响方面的信息披露最为有限,而在模型能力与风险评估方面披露相对较多[4] - 报告评估范围扩大,2025年版本新增了数据获取、使用数据和监控等方面的新指标,并首次纳入阿里巴巴、DeepSeek和xAI等公司[1] 公司透明度表现排名 - IBM以95分的透明度得分位居榜首,而马斯克的xAI和Midjourney得分最低,仅为14分[1][6] - 中国的DeepSeek和阿里巴巴在透明度得分上位于中下游[6] - 开放模型开发者、B2B公司、自行准备透明度报告及签署欧盟AI法案行为准则的公司,其得分普遍高于平均水平[6] 透明度评估框架与指标 - 评估指标分为上游、模型、下游三大类,涵盖数据获取方法、模型属性、分发渠道、使用数据量、风险评估、影响评估等超过100项具体指标[8] - 透明度得分基于明确的量化打分表,若公司未按指标披露相关数据,该项指标得分即为0,例如阿里巴巴Qwen和DeepSeek在“使用数据、影响、部署后监控”三项指标上均得0分,但这不等于它们未做任何披露[8] - 报告指出,公司在方法透明度、第三方参与、可复现性及训练-测试数据重叠报告方面仍面临披露挑战[4] 透明度与模型性能及安全的关系 - 高透明度不直接等同于高模型性能,例如得分最高的IBM Granite 3.3在实际应用场景中并非性能最顶尖的模型[9] - 透明度是安全的前提,但并非必须是报告定义的透明,若公司完全拒绝披露模型生产信息,将难以发现版权内容滥用、隐私数据滥用等问题,模型的偏见和价值观也更难评测[10] - 黑盒模型的评测技术可在一定程度上弥补不透明的问题,随着模型落地深化和监管完善,行业最终目标是实现“公司不需完全公开,但模型行为可测、声明可证、安全可控”[10] 行业影响与政策启示 - 报告揭示了基础模型开发者的当前透明度状态及其变化趋势,指出了需要政策干预解决的关键信息问题[10] - 透明度倒退警示行业未来需要构建综合激励机制,以理解、评估并确保模型的安全与可信[11] - 随着全球政策制定者越来越多地要求特定类型的透明度,该报告为政策讨论提供了实证基础[10]