Workflow
Large Language Model
icon
搜索文档
企业在院校设奖学金,不能简单地理解为“抢人”
南方都市报· 2025-10-15 00:00
项目概述 - 腾讯全面启动青云奖学金项目,重点关注人工智能领域的基础研究与应用创新 [1] - 项目面向中国大陆及港澳台地区院校就读、具有中国国籍的硕士或博士生 [1] - 首期预计评选15位获奖者,每位将获得总价值20万元现金奖励及价值30万元的云异构算力资源 [1] - 获奖者有机会进入公司实习或就业 [1] 项目背景与行业趋势 - 多位顶尖AI专家(如杨立昆、李飞飞、理查德·萨顿)认为当前大型语言模型缺乏对物理世界的理解和真正推理能力,离人类水平智能尚远 [2] - 行业共识认为人工智能发展需要颠覆性创新,而青年学者最有可能实现此类突破 [2] - 公司设立奖学金旨在发现拥有前瞻性科研视野的青年人才,以应对AI领域的根本性挑战 [2] 青年学者面临的挑战 - 人工智能研究,特别是大模型领域,对硬件算力要求极高,导致资金需求巨大 [3] - 全球GPU因AI爆发式发展及区块链等需求而供不应求,价格高昂 [3] - 许多课题组GPU资源匮乏,学生需自购显卡或依赖需要经费的云算力平台 [3] 项目资源支持的意义 - 奖学金提供的30万元云异构算力资源约可支持3个月前沿GPU实例24小时不间断使用,缓解青年学者的算力瓶颈 [4] - 企业科研人员获奖案例增多(如2025年诺奖得主玛丽·布伦科),表明企业支持对前沿科研至关重要 [4] - 通过提供资源与岗位,企业可能助力中国未来获得诺奖级成果 [4] 企业战略与社会效益 - 企业设立奖学金是履行社会责任、获取人才、发现前瞻性技术路线的多赢举措 [4] - 此类项目有助于公司提前布局可能引领未来的颠覆性AI创新 [2][4]
大模型追逐星辰大海,GPT和Gemini国际天文奥赛夺金
机器之心· 2025-10-13 04:21
大模型在天文奥赛中的卓越表现 - 大型语言模型在国际天文学和天体物理学奥林匹克竞赛中取得金牌级别的成绩,展示了其在复杂科学推理方面的强大能力 [4][5] - GPT-5和Gemini 2.5 Pro两大模型在IOAA基准测试中表现最为突出 [4][12] 评测框架与方法论 - 研究选择IOAA试题作为基准,因其具备更高的生态有效性,能考查复杂推理、创新性问题求解以及多步推导能力 [9][10] - 评估涵盖理论问题(共49个)和数据分析问题(共8个),排除了观测部分 [10] - IOAA题目覆盖广泛的天文主题,包括宇宙学、球面三角、恒星天体物理等,保证了评测的全面性 [10] 理论考试表现 - GPT-5在理论考试中的总体平均得分为84.2% ± 6.1%,Gemini 2.5 Pro为85.6% ± 8.0% [12] - GPT-5在2022年(93.0%)、2023年(89.6%)和2025年(86.8%)的理论考试中取得最高分 [13] - 模型在物理/数学类问题上的表现(准确率67-91%)明显优于几何/空间类问题(准确率49-78%) [24][26] 数据分析考试表现 - GPT-5在数据分析部分的平均得分为88.5% ± 12.6%,高于其理论考试表现 [12][16] - GPT-5在数据分析考试中展现出更强的多模态理解能力,尤其在图像解析和绘图推理方面错误率显著更低 [16] 与人类参赛者的对比 - 大多数大型语言模型的表现超过IOAA金牌门槛,GPT-5在2022、2023与2025年的表现优于当届最佳学生 [17][18] - 在2025年理论考试中,GPT-5得分相对于中位数的比例为443%,排名第一 [19] - 在2023年数据分析考试中,GPT-5得分为100%,相对于中位数的比例为250%,排名第一 [21] 错误分析与能力局限 - 最普遍的错误类型是概念性错误,反映了不正确的处理方法、公式误用和推理缺陷 [26] - 几何或空间推理是第二大错误来源,模型在球面三角学、计时系统和3D可视化方面尤其吃力 [26] - 在数据分析考试中,主要的故障模式包括绘图和图表/图像阅读,计算错误也比理论考试中更常见 [26]
真够卷的!DeepSeek更完智谱更:GLM-4.6,代码国内最强
量子位· 2025-09-30 08:26
模型性能提升 - 代码能力在74个真实场景编程任务测试中超过Claude Sonnet 4,成为国内最强[5] - 在AIME 25、GPQA等八大通用能力评测榜单中大部分对齐Claude Sonnet 4,位列国内第一[6] - 平均token消耗比GLM-4.5节省30%以上,为同类模型最低[8] - 上下文窗口由128K扩展至200K,适应更长的代码和智能体任务[28] 实测能力展示 - 代码生成速度快,不到一分钟即可生成一个射击类小游戏[14] - 能够创建多彩的可交互动画,并实现鼠标点击交互效果[16][18][19] - 能处理涉及重力、摩擦力和逼真反弹的经典物理编程题目[20][22] - 数学能力方面,能正确解答AIME 2025试题,并展示了识图的多模态能力[24][25] 国产芯片适配与部署 - 在寒武纪国产芯片上实现FP8+Int4混合量化部署,是国产芯片首次真正落地的FP8+Int4模型芯片一体化方案[27] - 在摩尔线程新一代GPU上,借助vLLM推理框架,能用原生FP8精度稳定运行GLM-4.6[30] - 模型与国产芯片的组合通过智谱MaaS平台正式对企业和大众开放服务[32] 成本与市场策略 - 推出GLM Coding Plan,最低20元包月套餐,以Claude 1/7的价格提供其9/10的智商水平[34]
Shanghai Synyi Medical Technology Co., Ltd.(H0050) - Application Proof (1st submission)
2025-09-29 16:00
公司概况 - 公司为上海森亿医疗科技股份有限公司,2016 年 4 月 25 日成立为有限责任公司,2025 年 9 月 23 日转变为股份有限公司[2][154] - 公司股份面值为每股人民币 1 元,包括非上市股份和 H 股[187] 业绩总结 - 2022 - 2024 年公司收入和客户数量复合年增长率为 42%,毛利润复合年增长率为 67%,运营亏损改善 79%,毛利率为 39%[50] - 公司营收从 2022 年的 1.437 亿人民币增长 66.3%至 2023 年的 2.391 亿人民币,2024 年进一步增长 22.1%至 2.919 亿人民币[83] - 2024 年 6 月 30 日止六个月到 2025 年同期,公司营收从 9110 万人民币增长 23.3%至 1.123 亿人民币[83] - 2022 - 2025 年各阶段的毛利润及利润率:2022 年毛利润为 3870 万元,利润率 26.9%;2023 年为 7280 万元,利润率 30.4%;2024 年为 1.084 亿元,利润率 37.1%;2024 年上半年为 5060 万元,利润率 55.6%;2025 年为 4370 万元,利润率 38.9%[114] - 2022 - 2024 年及 2024 和 2025 上半年亏损分别为 3.758 亿元、3.521 亿元、2.069 亿元、1.03 亿元和 9745.5 万元[104] - 2022 - 2024 年及 2024 和 2025 上半年调整后亏损分别为 2.283 亿元、1.407 亿元、5027.4 万元、2375.4 万元和 2174.9 万元[108] 用户数据 - 截至 2025 年 6 月 30 日,公司服务超 750 家医院,其中超 400 家大型医院,赋能超 800 家客户[44][48] - 2025 - 2025 年 6 月每月 AI 评估超 2300 万次,通过临床决策支持系统服务患者超 3700 万[50] - 2022 - 2025 年 6 月,公司客户数量分别为 121、179、244、83 和 134 个[83] 未来展望 - 全球医疗支出预计从 2024 年的 70.0 万亿元增至 2030 年的 84.4 万亿元,中国从 9.7 万亿元增至 13.2 万亿元,复合年增长率为 5.2%[53] - 全球医疗 AI 解决方案市场预计从 2024 年的 400 亿元增至 2030 年的 906 亿元,中国从 164 亿元增至 353 亿元,2024 年和 2030 年分别占全球的 41.0%和 39.0%[54] - 预计到 2030 年,全球 L3 阶段医疗 AI 解决方案市场将达 108 亿元,中国达 70 亿元;L4 阶段全球市场预计到 2030 年达 8 亿元[54] - 预计未来平均现金消耗率为 600 万元人民币/月[124] 新产品和新技术研发 - 公司核心技术 Synapse 由前沿 AI 算法、医学知识工程和异构数据治理构成,形成技术飞轮[65] - 公司开发覆盖 L1 到 L4 阶段的全栈技术框架,已商业化部署 L1 - L3 阶段解决方案[76] - 截至 2025 年 6 月 30 日,公司研发团队有 137 名员工,平均工作经验 8 年[93] - 2022 - 2024 年及 2025 年上半年研发成本分别为 1.359 亿、0.984 亿、0.63 亿和 0.223 亿元人民币,分别占同期总收入的 94.6%、41.2%、21.6%和 19.8%[93] - 截至最后实际可行日期,公司拥有 38 项注册专利(含 36 项发明专利)、10 项待申请专利和 436 项软件著作权[97] 市场扩张和并购 - 2025 年上半年公司在沙特阿拉伯建立全球首个 AI 诊所试点[75] 其他新策略 - 公司的增长策略包括加强大语言模型和代理 AI 的研发应用、拓展海外市场等[87] - 计划到 2027 年实现 90%的交易管理自动化[88] - 到 2025 年优化三级医院管理[88] - 公司采用项目制收入模式,特定合同期内免费维护,后续收取维护和升级服务费,重大升级单独计费[92]
Prediction: Wall Street's Most Valuable Public Company by 2030 Will Be This Dual-Industry Leader (No, Not Nvidia)
The Motley Fool· 2025-09-28 07:06
文章核心观点 - 一家历史估值低廉的万亿美元市值公司拥有必要的催化剂,有望在2030年前超越英伟达、苹果和微软,成为华尔街最有价值的上市公司 [1][5][14] - 尽管英伟达目前在人工智能领域占据主导地位,但其作为市值最高公司的地位面临历史先例和竞争威胁的挑战 [6][9][10] - 亚马逊凭借其电子商务的领先地位、高利润的云服务AWS以及广告和订阅服务,结合其历史低估值,最有可能在2030年成为市值第一的公司 [14][16][21][22] 万亿美元市值公司概况 - 历史上仅有11家上市公司达到过1万亿美元市值,其中10家在美国交易所上市,包括“七巨头”所有成员、博通、台积电和伯克希尔·哈撒韦 [3] 英伟达的现状与挑战 - 截至9月24日收盘,英伟达市值超过4.3万亿美元,是首家达到4万亿美元市值的公司,最乐观的分析师认为其估值可能超过6万亿美元 [6] - 英伟达的优势在于其作为企业数据中心AI GPU领导者的主导地位,其Hopper、Blackwell和Blackwell Ultra三代AI芯片需求旺盛且订单积压严重 [7][8] - 英伟达面临的风险包括:过去三十年的每一个新趋势在其发展早期都经历了泡沫破裂事件;企业目前远未优化AI解决方案或从其AI投资中获得正回报 [10][11] - 英伟达的许多大客户正在开发自研AI GPU用于其数据中心,这些芯片建造成本更低、更易获取,可能侵蚀英伟达的竞争优势 [12] 亚马逊的竞争优势 - 亚马逊的电子商务部门占美国在线零售额的37.6%,其领先地位稳固,但相关运营利润率极薄 [15] - 亚马逊云服务AWS是全球云基础设施支出的领导者,第二季度市场份额为32%,几乎相当于微软Azure和谷歌云的市场份额总和 [17] - AWS在剔除汇率影响后同比增长率保持在十几个百分点,生成式AI解决方案和大型语言模型能力有望进一步提升其增长率 [18] - 截至第二季度,AWS年化收入运行率超过1230亿美元,尽管其净销售额占比不到19%,但在2025年上半年贡献了公司近58%的运营利润 [19] - 亚马逊的广告服务因其网站每月吸引数十亿用户而拥有卓越的定价能力,订阅服务则通过与NFL和NBA的独家流媒体合作以及Prime会员福利获得定价权 [20] 亚马逊的估值分析 - 从2010年到2019年,亚马逊的年末估值介于过去12个月现金流的23至37倍之间 [21] - 根据华尔街共识,亚马逊的每股现金流预计将从2024年的11.04美元增长至2029年的27.52美元,这意味着其基于2029年预期现金流的估值仅为8倍 [21][22] - 基于此,亚马逊的市值可以合理地从当前水平增加2.5万亿至4万亿美元,并且仍将显著低于其在2010年代的平均现金流倍数 [22]
视远·正心明智——机器之心2025年度AI榜单正式启动
机器之心· 2025-09-26 03:31
人工智能技术发展 - 大模型快速迭代 几乎每天都有新的突破性模型和训练方法登场[3] - GPT-4.5到GPT-5、Genie 3等模型在理解、生成、推理能力上不断突破[4] - 模型能力进步催生新应用形态 包括代码生成领域自动完成复杂程序编写和智能体领域自主完成多步骤任务[4] 中国人工智能进展 - 国产大模型性能逐步逼近甚至领先国际水平[4] - 开源生态展现强劲势头 Design Arena排行榜前15名开源AI模型全部来自中国[4] - 中国人工智能发展在2025年表现更加精彩[4] 年度评选榜单体系 - 最强技术实力企业TOP10评选标准包括长期技术研发布局、领先技术储备和人工智能技术在核心业务中的关键作用[7] - 人工智能领军企业TOP20要求企业在技术研发、落地应用和商业模式等方面构建完整运营能力[8] - 最佳大模型TOP20评选国内有代表性且实力强大的基础大模型[9] - 最佳大模型产品TOP20聚焦国内最有价值的大模型产品与应用[10] - 具身智能领军企业TOP10评选具备系统性技术布局与持续创新能力的企业[12] - ScienceAI领军企业TOP10关注人工智能与其他学科的交叉领域应用[13]
阿里巴巴(09988)正式推出其迄今为止规模最大、能力最强的模型 Qwen3-Max
智通财经网· 2025-09-24 03:07
模型性能与排名 - Qwen3-Max-Instruct预览版在LMArena文本排行榜上位列第三 超越了GPT-5-Chat [1] - 正式版本在代码能力和智能体能力方面进一步提升 在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平 [1] - Qwen3-Max-Thinking推理增强版本在AIME 25、HMMT等高难度推理基准测试中取得100%准确率 [1] 模型规模与技术参数 - Qwen3-Max模型总参数超过1T(万亿)[1] - 预训练使用了36T(万亿)tokens [1] - 模型结构沿用了Qwen3系列的模型结构设计范式 使用了global-batch load balancing loss技术 [1] 技术特性与创新 - Qwen3-Max-Thinking版本集成代码解释器并运用并行测试时计算技术 [1] - 该模型是阿里云通义千问迄今为止规模最大、能力最强的模型 [1] - 模型作为Qwen3-2507系列的后续升级版本推出 [1]
Trump Brings in Oracle to Manage the TikTok Algorithm in US
Youtube· 2025-09-22 17:03
TikTok交易结构与关键方 - 甲骨文将作为公开上市实体牵头收购TikTok并与多家私人投资者共同拥有TikTok [1] - 交易涉及TikTok算法将被重写或由甲骨文授权使用算法此前一直是谈判的难点 [1] - 甲骨文已在其数据中心托管TikTok数据技术基础设施部分已准备就绪 [1] - 交易完成后TikTok将由美国实体和基于美国的私人投资者拥有甲骨文将在运营中扮演关键角色包括重新训练一套从字节跳动租赁的算法副本 [3] - 交易法律复杂性在于美国法律强制要求TikTok出售给美国所有者但禁止字节跳动参与运营中国法律则禁止算法等敏感技术出口 [10][11] 甲骨文公司治理与战略定位 - 甲骨文宣布首席执行官Safra Catz将由两位联合首席执行官接任此次领导层变更是向更年轻管理层过渡 [3][4][5] - 新任联合首席执行官之一目前负责甲骨文云基础设施该部门正是TikTok交易以及公司当前所有人工智能合作的技术支撑 [5] - 甲骨文处于非常强势的市场地位尤其通过其云基础设施业务抓住了人工智能领域的合作机遇 [4][5] 行业竞争格局与AI战略转向 - TikTok的不确定性使部分用户和内容创作者转向替代平台如YouTube、Instagram和Snapchat [6][7] - 行业竞争焦点已从推荐算法优劣转向基于自有数据训练大语言模型的能力例如OpenAI利用开放互联网数据Meta利用社交网络数据开发大模型 [7][8] - 规模较小的参与者如Snapchat尽管可能获得用户参与度增长但缺乏基于自身数据训练大语言模型的基础设施处于竞争劣势 [8][9] - 市场期望美国版TikTok能专注于利用其视频数据训练专属大语言模型但多方投资者参与可能导致战略更侧重于短期盈利和投资回报而非长期产品构建 [9][10][14]
Ark's Cathie Wood on H-1B Visas, China Tech Sector, TikTok Takeover
Youtube· 2025-09-22 08:54
H-1B签证政策对科技行业的影响 - H-1B签证新规及申请费是特朗普总统与印度谈判进程的一部分,预计短期内将对科技公司产生影响[1][4] - 该政策可能迫使科技公司提高效率,同时人工智能的兴起正大幅减少编码岗位需求,改变劳动力结构[4][5] - 长期来看,政策可能放宽,但当前谈判会占据舆论焦点,掩盖美国在政策方面的积极基本面活动[2][4] 人工智能对生产效率与竞争格局的影响 - 生成式AI和自然语言编程正在提升生产效率,科技公司已享受到巨大的生产率提升,从而维持了利润率[5][12] - 大型语言模型领域的竞争公司数量已经减少,目前主要竞争者包括OpenAI、Anthropic、xAI和Gemini[11][12] - AI公司获得企业愿意付费的明确信号,企业为替代博士级员工愿意每月支付2000美元或更多,这激励了持续投资[13] 中美科技竞争与市场估值 - 中国科技公司估值约为美国同类公司的一半,中国在开源软件领域发展迅速,部分源于美国公司因担心知识产权盗窃而停止对华销售[7] - 中国开始反思商品化是否过度,特别是在电动汽车领域,同时开发大型语言模型成本高昂,对非盈利公司构成挑战[8][9] - TikTok事件被视为特例,而非新常态,这可能是中美更广泛谈判的一部分,特朗普总统可能在对华关系上取得超出预期的进展[19][20][21] 加密货币与数字资产前景 - 尽管比特币当日出现抛售,但投资组合对数字资产领域的敞口仍在增加,比特币被视为该领域的领导者[24] - 区块链技术正推动三大革命:货币革命、金融服务革命以及前所未有的数字产权革命[25] 投资研究公司的差异化策略 - 研究能力是核心差异化优势,采用类似“共享经济”的模式免费提供研究成果,例如公开特斯拉模型[14][15] - 尽管主动管理基金普遍出现资金外流,但该公司资金流保持平稳,并且在进入英国和欧洲市场两年后,即将达到10亿美元规模,势头强劲[16][17]
GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍
量子位· 2025-09-22 08:08
文章核心观点 - Scale AI发布的新软件工程基准测试SWE-BENCH PRO显著提升了难度 导致主流大语言模型的解决率普遍低于25% 远低于旧基准SWE-Bench-Verified约70%的水平[1][5][23] - 尽管整体表现不佳 但GPT-5在已提交的任务中准确率达到63% 显著优于Claude Opus 4.1的31% 显示其在优势领域的稳定性[3][4] - 新基准通过采用全新商业代码库、排除琐碎修改任务、增加多文件复杂场景以及严格防数据污染设计 更真实地反映工业级软件工程挑战[9][12][13] 基准测试设计特点 - 测试集包含1865个问题 分为公共集(731题)、商业集(276题)和保留集(858题) 覆盖消费者应用、B2B服务和开发者工具等多元化代码库[12][18] - 严格排除1-10行代码的简单修改 专注于需要大量多文件修改的复杂任务 更符合实际开发场景[13][8] - 采用人工增强的问题陈述 包含详细的需求说明和接口信息 确保模型获得充分上下文[16][19] - 测试环境容器化运行 每个任务在特定语言环境中评估 失败测试经人工筛选 偶尔失败的测试运行三次确保结果稳定性[20][21][22] 模型性能表现 - 在公共集上GPT-5以23.3%解决率领先 Claude Opus 4.1以22.7%紧随其后 Claude Sonnet 4达到16.3% Gemini 2.5 Pro Preview为13.5%[25][26] - 商业集表现更差 最优模型Claude Opus 4.1仅17.8% GPT-5为14.9% 显示模型在真实商业场景能力有限[26][27] - 老模型表现不佳 DeepSeek Qwen-3 32B和GPT-4o解决率分别只有3.4%和3.9%[24] - 编程语言差异显著 Go和Python表现较好(部分模型超30%) JavaScript和TypeScript波动大(0%-30%) 不同代码库解决率差异明显(低于10%至超50%)[30] 模型失败模式分析 - Claude Opus 4.1主要失败在语义理解(错误解答48.5%)和语法错误(32.7%) 显示技术执行强但算法理解存在挑战[31][34] - GPT-5未回答率高达63.1% 但提交答案的准确率较高 工具使用有效性存在差异[32][31] - Claude Sonnet 4主要问题为上下文溢出(61.6%)和无休止文件读取(29.5%) 显示上下文管理能力不足[31][34] - Gemini 2.5失败模式较均衡 含工具错误(38.8%)、语法错误(30.5%)和错误解答(18%)[34] - Qwen-3 32B工具错误率高达42% 凸显集成化工具使用的重要性[34]