Large Language Model

搜索文档
OpenAI官方基准测试:承认Claude遥遥领先(狗头)
量子位· 2025-04-03 02:12
模型性能对比 - Claude-3.5-Sonnet在PaperBench基准测试中断崖式领先,第二名o1-high分数仅为第一名的60%,第三名DeepSeek-R1分数为第二名的一半[6] - GPT-4o表现超过推理模型o3-mini-high成为亮点[7] - 测试成绩数据:21.0 ± 0.8(Claude-3.5-Sonnet)、13.2 ± 0.3、6.0 ± 0.3、4.1 ± 0.1、3.2 ± 0.2、2.6 ± 0.2[9] 测试方法革新 - PaperBench相比去年10月MLE-Bnch测试更注重综合能力,要求复现ICML 2024论文全过程(理解/编码/实验)[3][4] - 选取20篇ICML 2024 Spotlight和Oral论文,涉及深度学习/概率方法/强化学习等8个领域,包含8316个可评分任务[15][17] - 采用开卷考试模式,允许有限联网搜索但屏蔽原论文代码库[18] 评估流程设计 - 三阶段流程:创建代码库→GPU执行→自动评分,全程在Ubuntu容器中完成[20] - 采用分级评分标准,按叶节点/父节点逐级评估,核心指标为论文平均复制分数[19] - 使用o3-mini作为裁判模型性价比最高,单篇论文评分成本66美元,比人类专家更经济高效[22][23] 人机对比实验 - AI在工作1-6小时内进度快于人类顶尖ML博士,12-24小时阶段持平,人类需24-48小时才能超越AI[11][12] - 测试显示AI裁判模型o1-mini的F1分数达0.78,接近人类专家0.84的水平[24] 技术开源进展 - 评估所需的代码/数据/Docker镜像已在GitHub逐步开源[25][26] - 公开了BasicAgent和IterativeAgent的系统Prompt模板,强调分步执行/代码规范/时间优化等原则[28][29][30][31] - 提供完整任务指令模板,包含资源说明/提交要求/代码示例等要素[34][36]
KINGSOFT CLOUD(KC) - 2024 Q4 - Earnings Call Transcript
2025-03-19 16:43
财务数据和关键指标变化 - 本季度总营收22.321亿元,同比增长29.6%,增速达30%,超越其他四家上市公共互联网云公司 [9][26][30] - 非GAAP运营利润首次转正,非GAAP运营利润率达1.1%,较去年亏损10.9%提升12个百分点 [11] - 非GAAP毛利达4.277亿元,创历史新高,同比增长63%,非GAAP毛利率为19.2% [11] - 非GAAP EBITDA利润率达16.1%,同比增加17.7个百分点,环比增加6.3个百分点 [12][35] - 截至2024年12月31日,现金及现金等价物总计26.488亿元,本季度经营现金流净流入5.702亿元 [36] 各条业务线数据和关键指标变化 公有云服务 - 本季度收入14.098亿元,同比增长34%,主要受AI相关业务显著增长推动,AI相关业务总账单达4.74亿元,占公有云服务收入的34% [15][30][31] - 来自小米和金山生态系统的收入同比增长76%,2025 - 2027年该生态系统将为公司带来总计11.3亿元的收入贡献,是2023年的10倍 [15] 企业云服务 - 本季度收入8223万元,同比增长22.7%,主要受特定垂直领域需求增加和Camelot IT服务增长推动 [18][31] 各个市场数据和关键指标变化 文档未提及相关内容 公司战略和发展方向和行业竞争 - 公司坚持高质量可持续发展战略,以AI引领转型,深化与小米和金山生态系统的合作,全面探索AI机遇,同时扩大收入规模并提高盈利能力 [9][23][24] - 在AI云计算时代,公司凭借行业洞察、研发投入和计算能力,在客户服务、技术能力和质量保证方面获客户和行业专家高度评价,市场份额和行业声誉显著提升,位居行业前列 [17] 管理层对经营环境和未来前景的评论 - 公司认为AI发展为云行业带来更广泛的推动力,随着DeepSeek的发布,更多企业和个人将使用大语言模型,公司作为市场参与者将从中受益 [44][45] - 预计2025年公有云和企业云收入增长将加速,全年非GAAP运营利润将为正,未来几年收入将加速增长,盈利能力将更高更稳定 [29][37] 其他重要信息 - 本季度IDC成本同比下降2.6%,从7.404亿元降至7.215亿元,折旧和摊销成本从去年同期的1.469亿元增至3.431亿元,解决方案开发和服务成本同比增长10.8%,从5.029亿元增至5.57亿元 [32] - 调整后总运营费用同比下降9.8%,环比下降9.1%,其中调整后研发费用较上季度收窄27%,调整后销售和营销费用较上季度下降,调整后G&A费用因信用损失波动略有增加 [34] 总结问答环节所有的提问和回答 问题1: 近期AI行业趋势对云计算行业供需结构和市场格局的影响,以及公司面临的机遇和挑战;2025年资本支出计划及应对供应端限制的措施 - 公司认为DeepSeek证明中国科技公司在技术和产品上能达到世界高度,降低了部署成本,加速了大语言模型在中国的部署,推动了AI和云行业发展,公司将从中受益;在AI领域竞争和技术改进增加,包括强化学习和多模型用例 [43][44][47] - 公司AI投资包括运营支出(OpEx)和资本支出(CapEx)两部分,过去四个季度在数据中心运营支出约29亿元,资本支出约50 - 60亿元,预计2025年总AI投资100亿元只是开始;公司与股东安排了租赁和表外融资支持AI投资,现有资产负债表上的现金并非AI投资的限制 [51][52] 问题2: 2025年营收增长预期的驱动因素,AI相关营收和小米及金山集团的营收贡献;长期盈利能力趋势 - 2024年Q4营收同比增长30%,超过行业顶级企业,各业务板块包括公有云、企业云以及公有云中的AI和非AI业务均健康增长;公司业务战略调整后客户结构健康,AI将是重要驱动因素,其他业务板块也将贡献增长 [58][60][61] - 公司虽无官方利润率指引,但过去几个季度毛利率持续改善,过去三个季度经营现金流为正,是利润率扩张的重要领先指标;预计EBITDA和运营利润增长速度将快于毛利率,公司管理层旨在保持毛利率、EBITDA利润率和运营利润率健康稳定扩张,同时关注现金流利润率扩张以支持新的AI投资 [61][62][64] 问题3: AI推理的需求及贡献;传统公有云业务设备充分折旧后是否继续产生收入及前景 - 小米和金山生态系统外,DeepSeek加速了大语言模型和AI在各行业的应用,客户数量增加,但单个大客户对集群的大量需求尚未出现,AI和DeepSeek的渗透趋势明显,但反映到财务报表可能需要时间;生态系统内AI推理需求强劲,小米生态的产品和服务以及金山办公的WPS AI用户账户均有增长 [69][70][72] - 公司在服务器和计算能力的折旧政策上较为保守,采用四年折旧政策,相比五年政策可能高估了成本,未来有释放盈利能力的潜力;2023年底和2024年初公司对资产分布和内部资源进行了审查,目前资产负债表上的资产健康,能匹配收入增长机会,有望提高股东回报和盈利能力 [74][76][77] 问题4: 2024年高性能AI服务价格下降、推理服务供应充足对公司GPU云收入定价策略及AI云收入和盈利的影响 - 本季度公司在互联网云业务上市公司中实现了可能是最高的增长率,毛利率也处于行业领先水平,公司对业务保密信息较为谨慎 [81][82] - 公司AI相关服务利润率高于传统以CPU为中心的ICE服务,定价取决于客户需求,公司有多种计算格式可满足不同需求;GPU定价与主要客户的核心生产需求相关,AI服务对客户工作流程和产品至关重要,客户愿意支付更高费用;公司已从传统IT云服务公司转变为AI云及解决方案服务公司,定价模式不同 [83][85][86]
招生 | 人大信院AIM3实验室招收人工智能方向学生
量子位· 2025-03-16 05:37
文章核心观点 介绍中国人民大学AIM3实验室的相关信息,包括实验室概况、导师、科研成果、学生培养、氛围、招生计划和申请条件等,吸引有科研热情的人加入 [1][3][4][5][8][11] 实验室概况 - 隶属于中国人民大学信息学院-计算机系-感知与交互智能计算研究室,研究多模态智能计算,关注大语言模型等方向 [1] - 中国人民大学是“985工程”“211工程”重点建设大学,信息学院计算机专业是国家级特色专业建设点,在教育部第五轮学科评估中评为A,在国际计算机学科排行榜CSRankings统计中,在人工智能和数据库等领域排名位居世界前列 [2] 导师介绍 - PI金琴老师毕业于清华大学和卡内基梅隆大学,现为人大信息学院教授,在顶会顶刊发表论文百余篇,谷歌学术引用超8000次,入选人工智能全球女性学者榜单等 [3] - 青年教师王文轩老师2024年毕业于香港中文大学,研究方向为人工智能大模型,博士期间发表顶会论文二十余篇,指导本科生经验丰富 [3] 科研成果 - 近三年在人工智能顶会上发表论文五十余篇,课题组成员多次进行学术报告 [4] - 积极参与国际权威比赛并获诸多奖项,如蝉联CVPR 2018 - 2020 ActivityNet视频描述挑战赛冠军等 [4] 学生培养 - 组内学生成果突出,近三年7人次获国家奖学金,2人次获百度奖学金 [5] - 毕业生去向良好,主要前往知名科研院所继续科研或互联网大厂从事算法研究 [5] 实验室氛围 - 研究氛围好,学生可自主选课题,经费充足,显卡资源丰富,提供设备支持研究 [5] - 与头部互联网企业和海外院校保持合作,学生可前往实习访问 [5] - 导师重视学生成长,定期组织运动和团建,成员自主设计实验室周边 [6] 招生计划 - 2026年可招收并指导博士生2名、学硕3名、专硕3名、访问生若干,可联系金琴老师或王文轩老师 [8] 申请条件 - 双一流或同等水平学校学生,综合排名前20%,有科研经历优先 [11] - 对科研有热情,踏实专注有毅力,有良好自主学习能力,具备扎实英语功底和编程能力 [11]
AI玩手机越玩越6!西湖大学发布新智能体:会自我进化的AppAgentX
量子位· 2025-03-09 04:45
西湖大学 投稿 量子位 | 公众号 QbitAI 人工智能正迎来前所未有的变革,其中,大语言模型(LLM)的崛起推动了智能系统从信息处理向自主交互迈进。 以DeepSeek为代表的LLM,凭借强大的语言理解与推理能力,在文本创作、编程辅助、复杂任务规划等领域展现出卓越表现。 然而,LLM的潜力远不止于文本生成,它们正在塑造一种全新的智能体形态——GUI代理(GUI Agents)。这类智能体不仅能理解指令,还 能像人类一样直接操作计算机和手机,摆脱对预设规则或API的依赖,带来更自然、高效的交互方式,使AI真正融入软件生态,成为智能操作 系统的一部分。 问题在于,目前的LLM代理虽然具备强大的推理能力,却 在任务执行效率上存在明显瓶颈 。 为了解决这个问题,现在,西湖大学AGI实验室张驰团队推出了 AppAgentX ——一款具备自我进化能力的GUI代理。它能够在不断执行任务 的过程中学习并优化自身的行为模式,实现更加高效的操作。 自动归纳高效操作模式 :代理能够在执行任务时,检测重复性操作模式,并自动总结成更高级别的"一键"操作。 任务执行更快,减少重复计算 :传统的LLM代理每次执行任务都需要重新思考操作 ...
速递|谷歌联创再创业,旨在用AI技术颠覆制造业
Z Potentials· 2025-03-07 02:29
公司动态 - Google联合创始人Larry Page成立新公司Dynatomics 目标是利用人工智能技术颠覆制造业 通过大型语言模型为物体创建高度优化的设计并实现工厂生产[2] - Dynatomics由Chris Anderson运营 其曾担任Page支持的Kittyhawk公司首席技术官 该公司曾开发小型电动飞机但因原型机失败和监管问题于2022年关闭[3] - Larry Page目前基本不参与Alphabet日常运营 仍担任董事会成员且为最大股东 联合创始人Sergey Brin则专注于开发谷歌大型语言模型Gemini[3] 行业趋势 - 硅谷企业家对利用AI模型构建实体物品的兴趣日益增长 例如Arcade公司已应用AI技术设计珠宝产品[3]
Strata Decision Technology and Snowflake Transform Healthcare Financial Analytics with Comprehensive Data Integration
GlobeNewswire News Room· 2025-03-03 15:00
文章核心观点 Strata Decision Technology与Snowflake合作创建美国最大的可比医疗财务数据库之一,旨在提供高效的近实时和历史财务洞察,通过整合数据、提升数据能力等为医疗组织带来多方面益处 [1] 合作背景 - 因客户数据需求呈爆发式增长,Strata为使解决方案适应未来发展,从遗留的StrataJazz本地SQL Server数据库转向可扩展的云架构 [7] 合作内容 - 公司将多样化数据资产统一到Snowflake的云数据平台,消除数据孤岛,为医疗组织提供财务决策单一数据源 [2] - 公司在Snowflake内创建全面医疗智能生态系统,整合多个高价值数据集,未来还将引入专有数据,并利用AI和ML确保数据质量和一致性 [4] - 公司利用Snowflake能力推进患者数据集成策略,通过安全令牌化处理患者信息,连接全支付方索赔数据和详细就诊数据,实现对患者护理连续体的全面洞察 [5] 合作优势 - 合作使StrataJazz和Axiom客户能更高效扩展以应对数据需求,灵活共享数据,Snowflake还支持更快处理复杂数据模型,包括AI、LLM和ML能力 [3] - 整合有助于产生更准确的洞察,如结合索赔数据和人口统计数据进行更严谨的业务量预测,合并索赔和患者就诊数据识别患者行为模式 [6] - 借助Snowflake的弹性和性能,Strata可扩展运营,为客户提供更准确高效的数据和分析能力 [8] 公司介绍 - Strata Decision Technology为医疗组织提供基于云的软件、数据和服务解决方案,超2300家组织依赖其StrataJazz和Axiom解决方案 [9]