Large Language Model - 财报，业绩电话会，研报，新闻 - Reportify

Large Language Model

搜索文档

阿里开源最强编码模型 Qwen3-Coder：1M上下文，性能媲美 Claude Sonnet 4

Founder Park· 2025-07-23 08:21

模型发布与性能 - 阿里通义团队发布并开源Qwen3-Coder系列代码模型，其中Qwen3-Coder-480B-A35B-Instruct是最强版本，拥有480B参数激活35B参数的MoE结构，原生支持256K token上下文并可通过YaRN扩展到1M token [3][4] - 该模型在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use等任务上达到开源模型SOTA水平，性能媲美Claude Sonnet4 [5] - 在Terminal-Bench测试中得分为37.5分，优于Claude Sonnet4的35.5分和OpenAI GPT-4.1的25.3分 [6] - SWE-bench Verified测试中达到69.6分（500轮交互）和67.0分（100轮交互），接近Claude Sonnet4的70.4分和68.0分 [6] 技术架构与训练 - 预训练数据总量达7.5T，其中代码数据占比70%，在保持通用与数学能力的同时强化编程能力 [12] - 采用Code RL训练方法，通过自动扩展测试样例构建高质量训练实例，显著提升代码执行成功率 [15] - 实现Long-Horizon RL训练系统，可同时运行20k独立环境，在SWE-bench Verified上取得开源模型SOTA效果 [16] - 利用Qwen2.5-Coder对低质数据进行清洗与重写，提升整体数据质量 [12] 产品应用与集成 - 模型已在Qwen Chat网页版上线供免费体验 [6] - 推出开源命令行工具Qwen Code，基于Gemini Code二次开发，优化了Agentic Coding任务表现 [17] - 支持通过OpenAI SDK调用，只需配置环境变量即可接入 [20][21] - 可与Claude Code集成使用，通过阿里云百炼平台申请API Key实现 [22][23] - 支持与社区工具如Cline结合，通过OpenAI兼容模式接入 [27] 性能对比数据 - WebArena测试得分49.9分，优于DeepSeek-V3的40.0分，接近Claude Sonnet4的51.1分 [6] - Mind2Web测试得分55.8分，优于Claude Sonnet4的47.4分和OpenAI的49.6分 [6] - BFCL-v3测试得分68.7分，优于OpenAI的62.9分，接近Claude Sonnet4的73.3分 [6] - TAU-Bench Retail测试得分77.5分，优于DeepSeek-V3的59.1分，接近Claude Sonnet4的80.5分 [6]

Artificial Intelligence

Large Language Model

Artificial Intelligence

Large Language Model

只因一个“:”，大模型全军覆没

自动驾驶之心· 2025-07-17 12:08

大模型漏洞研究 - 研究发现大模型（如GPT-4o、Claude-4、LLaMA3-70B）普遍存在被简单符号（如冒号、空格）或推理开头语（如"Thought process:"、"解"）欺骗的问题，导致假阳性奖励信号 [4][5][7] - 实验显示GPT-4o对符号":"的假阳性率达35%，LLaMA3-70B对"Thought process:"的假阳性率高达60%-90% [22] - 漏洞具有跨语言普遍性，中文、日语等语言的开头语同样能诱发高假阳性率 [23] 对抗性攻击与模型表现 - 专用生成式奖励模型（如Multi-sub RM、Omni-Judge）和通用LLM在5个推理基准测试中均未能抵御对抗性响应 [17][19] - 模型大小与假阳性率无单调关系，7B-14B参数模型表现最佳，32B-72B模型因倾向自主解题导致假阳性率回升 [32] - 通过嵌入相似度搜索可自动生成新对抗性响应，使漏洞无限繁殖 [26] 解决方案与模型改进 - 腾讯AI Lab等机构构建增强训练数据集，结合2万条对抗样本与原始数据训练Master-RM模型 [29][30] - Master-RM基于Qwen2-5-7B-Instruct微调，跨数据集测试中对"万能钥匙"的假阳性率接近0%，与GPT-4o评估一致性达0.96 [31][33] - 研究团队包括腾讯AI Lab首席科学家俞栋、普林斯顿大学博士生Yulai Zhao等业界与学术专家 [38][39][41] 行业影响与研究方向 - 生成式奖励模型的核心机制漏洞暴露，依赖验证器反馈的RLVR流程面临挑战 [27][28] - 未来需加强模型稳健性研究，严格对抗评估RLHF工作流程 [35][36] - 相关论文与模型已开源，数据集和模型链接发布于Hugging Face平台 [48]

Large Language Model

Reinforcement Learning with Verifiable Rewards

Software and Internet

Large Language Model

Reinforcement Learning with Verifiable Rewards

Software and Internet

最强人才接连被挖，创业大佬离开 OpenAI 后说了实话：7 周硬扛出 Codex，无统一路线、全靠小团队猛冲

AI前线· 2025-07-16 05:08

核心人才流动 - OpenAI研究员Jason Wei和Hyung Won Chung将加盟Meta超级智能实验室两人在OpenAI的Slack账户已停用 [1] - Jason Wei曾参与OpenAI的o3模型开发是强化学习领域的专家此前在谷歌专注于思维链研究 [1] - 人才流动引发外界对OpenAI团队文化的好奇前员工Calvin French-Owen分享内部观察 [2][3] 公司文化特征 - OpenAI采用自下而上的研究模式没有统一路线图研究方向由研究员兴趣驱动 [10][11] - 沟通高度依赖Slack 任职期间仅收到10封邮件信息管理依赖个人组织能力 [10] - 决策迅速能根据新信息快速转向体量庞大仍保持敏捷性 [12] - 推崇任人唯贤领导晋升取决于提出好问题和实践能力而非会议说服力或政治手腕 [11] 研发与项目运作 - Codex项目仅用7周完成由8名工程师 4名研究员等组成的小团队推动 [26][28] - 采用"迷你主管"模式研究人员自主探索问题结果导向决定资源投入 [12] - 存在多个并行原型项目如Codex发布前内部有3-4个不同原型在推进 [11] - 使用单体monorepo代码库主要语言为Python 服务运行在Azure Kubernetes上 [20][22] 业务与竞争格局 - 最大成本为GPU算力 Codex某项功能的GPU成本相当于Segment整个基础设施 [17] - 同时竞争数十个领域包括API产品深度研究硬件图像生成等 [18] - 面临Meta 谷歌 Anthropic三足鼎立的AGI竞争格局 [33] - 高度关注Twitter舆论有专人跟进热门帖文被戏称"靠网络舆论运转" [18] 产品与技术特点 - ChatGPT Connectors采用异步方案用户可像对待同事一样与编程智能体交互 [28] - Codex擅长处理大型代码库能同时启动多任务比较输出发布53天生成63万条PR [30] - 模型训练经历从小规模实验验证到大规模运行的工程化过程 [24] - 安全团队规模庞大优先处理实际风险如仇恨言论生物武器制造等 [16] 组织扩张与挑战 - 员工数量从1000人快速扩张至3000人任职一年的员工资历排名前30% [10] - 不同团队文化差异显著有的全力冲刺有的稳定推进有的专注临门一脚 [10] - 工程工具跟不上团队扩张速度主服务器CI频繁中断测试运行需半小时 [22] - 保留技术理想主义以实现AGI为目标允许试错并快速修正 [4][15]

Meta Platforms(US:META)

Artificial Intelligence

General Artificial Intelligence (AGI)

Large Language Model

Reinforcement Learning

Artificial Intelligence

Artificial Intelligence

General Artificial Intelligence (AGI)

Large Language Model

Reinforcement Learning

Artificial Intelligence

新股消息丨MiniMax将完成近3亿美元新融资传筹备赴港上市

智通财经网· 2025-07-16 02:34

融资动态 - MiniMax近期基本完成近3亿美元新一轮融资本轮融资后公司估值超40亿美元 [1] - 本轮融资出资方包括上市公司交叉基金和大型国资平台上海国资 [1] - 融资在半年前开启目前已基本确定公司正在筹备赴港上市最快或于年内落地 [1] - 公司已聘请投行顾问具体上市方案仍在内部讨论中 [1] - 此前完成由阿里巴巴出资6亿美元的B轮融资以及腾讯资本出资超2.5亿美元的A轮融资 [1] - 早期出资方包括云启资本高瓴创投 IDG 明势资本米哈游等此前未有国资背景资方参投 [1] - 本轮融资结束后国内估值达到300亿元的大模型公司仅有MiniMax和智谱 [1] 技术进展 - 近期推出开源推理模型MiniMax-M1 采用Apache 2.0许可协议实现代码开放 [2] - 官方称MiniMax-M1性能优于DeepSeek最新版且算力消耗更低 [2] - 多模态领域视频生成模型Hailuo 02支持原生1080P高清视频输出 [2] - Hailuo 02在复杂场景中展现强大时空一致性和物理逻辑性如体操运动员翻转马戏演员喷火等 [2] - 在国际权威测评榜单Artificial Analysis视频竞技场中拿下第二名领先Google的Veo 3和快手的可灵（Kling）等对手 [2]

Large Language Model

Artificial Intelligence

Large Language Model

Artificial Intelligence

只因一个“:”，大模型全军覆没

量子位· 2025-07-15 08:31

大模型漏洞研究 - 研究发现大模型（如GPT-4o、Claude-4、LLaMA3-70B）容易被特定符号（如冒号、空格）和推理开头语（如"Thought process:"、"解"）欺骗，产生假阳性响应 [1][4][7] - 实验显示GPT-4o对符号":"的假阳性率达35%，LLaMA3-70B对"Thought process:"的假阳性率高达60%-90% [21] - 模型大小与抗欺骗能力无直接关系，7B-14B模型表现最佳，72B模型反而更容易被欺骗 [23][26] 欺骗机制分析 - 欺骗性输入分为两类：非文字符号（如空格、标点）和推理开头语（多语言） [14][15] - 漏洞可被无限繁殖，通过嵌入相似度搜索可自动生成新的欺骗性输入 [25] - 该漏洞揭示了生成式奖励模型核心机制缺陷，影响依赖验证器的强化学习流程 [27][28] 解决方案 - 研究人员构建增强数据集，包含2万条对抗样本（无实质内容的推理开头语） [29][30] - 基于Qwen2.5-7B-Instruct训练的Master-RM模型将假阳性率降至接近0%，同时保持与GPT-4o 0.96的一致性 [31][32] 研究团队 - 团队来自腾讯AI Lab、普林斯顿大学和弗吉尼亚大学，包含腾讯AI Lab首席科学家俞栋（发表400+论文） [37][38][39] - 一作Yulai Zhao（普林斯顿博士生）研究方向为强化学习与扩散模型，近期有论文被ICML 2025录用 [40][42] - 共同一作Haolin Liu（弗吉尼亚大学博士生）专注强化学习在LLM后训练中的应用 [43]

Reward Model Deception

Large Language Model

Artificial Intelligence

Reward Model Deception

Large Language Model

Artificial Intelligence

清华最新ADRD：自动驾驶决策树模型实现可解释性与性能双突破！

自动驾驶之心· 2025-07-04 10:27

自动驾驶决策系统发展现状 - 自动驾驶决策模块对可解释性要求日益提高，深度学习虽为主流方法但存在非分布场景性能下降、决策逻辑难解释等问题[1] - 基于规则的系统具备透明性优势，但依赖专家知识且对复杂环境适应性有限[1] ADRD框架核心创新 - 结合大语言模型(LLM)与规则决策系统，通过自然语言处理实现驾驶策略生成[2] - 框架包含信息模块(场景/规则转换)、代理模块(决策树构建)、测试模块(闭环验证)三部分[5][7] - 采用规划器-编码器-汇总器协作机制，支持策略生成、代码转换及迭代优化[7][13] 技术实现细节 - 规划器通过系统提示、驾驶目标、历史记录生成策略，示例显示变道决策优先考虑左车道安全性[8][9][10] - 编码器将文本策略转为可执行代码，决策树可视化便于专家调试[16] - 汇总器分析碰撞报告定位策略或代码问题，实现闭环改进[19] 实验验证结果 - 在Highway-v0场景测试中，ADRD平均安全驾驶时间达25.15秒(普通密度)，显著优于PPO(10.9秒)和DiLu(23秒)[21][22] - 极端密度(3.0)下仍保持13.55秒安全驾驶时间，控制效率达<1.0×10^-6秒/指令[22] - 激进风格决策树深度比保守风格增加37%，反映不同驾驶偏好对策略复杂度的影响[23] 行业应用价值 - 框架同时解决传统方法在性能、响应速度(推理效率提升1000倍)和可解释性上的缺陷[26] - 决策树结构支持人工干预，为自动驾驶系统调试提供新范式[12][16]

Autonomous Driving

Large Language Model

Autonomous Driving

Autonomous Driving

Large Language Model

Autonomous Driving

自研大模型遥遥无期，苹果 Siri 正考虑转向 OpenAI 技术合作

环球网· 2025-07-01 06:08

人工智能策略调整 - 苹果正考虑放弃自研内部AI模型，转而与Anthropic及OpenAI合作，评估将这两家公司的大语言模型应用于Siri语音助手的可能性 [1] - 苹果要求合作方训练适配苹果云基础设施的专用模型版本，以强化用户隐私保护 [1] - 若合作达成，苹果将放弃原定2026年基于自研"Apple Foundation Models"升级Siri的计划 [1] 外部模型测试与谈判进展 - Siri负责人麦克・洛克威尔主导外部模型测试，结果显示Anthropic的Claude模型表现优于ChatGPT [4] - 苹果企业发展副总裁阿德里安・佩里卡已启动与Anthropic的谈判，但Anthropic提出每年数十亿美元且逐年激增的授权费要求 [4] - 若谈判未达成一致，苹果可能转向OpenAI或其他合作商 [4] 内部研发与团队动态 - 苹果AI负责人约翰・詹南德雷亚主导的"LLM Siri"项目仍在推进，但进度缓慢，基础模型团队约有100人 [4] - 苹果软件工程主管克雷格・费德里吉与洛克威尔支持外部合作，认为在自有模型劣势下不应排斥第三方技术 [4] - 策略调整已导致苹果顶级工程师汤姆・冈特离职，开源AI框架MLX背后的团队也有辞职想法 [4] - 苹果内部编码模型已终止，Xcode转向使用ChatGPT或Claude [4] 人才竞争与未来展望 - Meta和OpenAI为AI开发人员提供的薪水可能是苹果的两倍多，加剧人才竞争压力 [5] - 若Siri合作顺利落地，未来苹果更多功能可能转向第三方合作，AI团队处境或将更加艰难 [5]

苹果(US:AAPL)

Artificial Intelligence

Large Language Model

Software and Internet

Artificial Intelligence

Large Language Model

Software and Internet

生物学专属ChatGPT来了：对话式AI智能体——ChatNT，能够理解DNA、RNA和蛋白质语言

生物世界· 2025-06-27 07:36

核心观点 - ChatGPT 掀起大语言模型浪潮后，InstaDeep 公司开发了 ChatNT，一款能理解 DNA、RNA 和蛋白质序列信息并用自然语言对话的多模态对话智能体 [2] - ChatNT 解决了生物学研究中的两大痛点：模型过多和编程门槛高 [6] - ChatNT 在多项生物信息学基准测试中表现优异，创造了新的 State-of-the-Art [17][19] - 这项研究标志着生物学 AI 研究进入新阶段，提供了革命性的交互范式 [22][24] 生物学研究痛点 - 模型海：每个任务需单独训练和维护模型，效率低下且阻碍知识共享 [6] - 编程墙：专业模型需要编程技能，限制了没有计算机背景的生物学家的使用 [6] ChatNT 技术架构 - 由 DNA 编码器和英语解码器两部分组成 [8] - DNA 编码器：Nucleotide Transformer v2 模型，5 亿参数，在 850 个物种基因组上预训练 [8] - 英语解码器：Vicuna-7B 模型，70 亿参数，基于 LLaMA [8] - 通过英语感知投影层实现关键连接，能动态筛选和提炼最相关信息 [9][10] 工作原理 1. 用户用英语提问并标记序列文件 [11] 2. DNA 编码器分析序列生成深度特征 [12] 3. 英语感知投影提取相关信息并转换格式 [12] 4. 英语解码器生成自然语言答案 [13] 5. 返回答案给用户 [14] 性能表现 - 在 Nucleotide Transformer Benchmark 上平均 MCC 达 0.77，比之前最佳专用模型提高 8 个百分点 [17] - 一个模型同时处理 18 项不同任务，解决"一任务一模型"困境 [19] - 在基因组指令数据集 27 项任务中多数表现优异： - 预测 RNA 多聚腺苷酸化位点比例 PCC 达 0.91，优于 APARENT2（0.90） [19] - 预测蛋白质熔点 PCC 达 0.89，优于 ESM2（0.85） [19] - 能识别关键生物学特征，如剪接供体位点的"GT"二核苷酸和启动子的"TATA-box"基序 [20] 行业意义 - 实现"对话式"生物信息学，大幅降低 AI 工具使用门槛 [22] - 证明统一模型处理多种生物序列任务的可行性，迈向通用型生物学 AI 模型 [22] - 模块化架构允许未来集成更强大的编码器和对话模型 [22] - 为解读基因突变提供新途径，可能直接分析突变对疾病的影响 [22] - 将加速生命科学探索进程，使生物信息学分析更直观高效 [24]

Artificial Intelligence

Large Language Model

Artificial Intelligence

Artificial Intelligence

Large Language Model

Artificial Intelligence

RoboSense 2025机器感知挑战赛正式启动！自动驾驶&具身方向~

自动驾驶之心· 2025-06-25 09:54

赛事背景与目标 - 赛事旨在系统性评估机器人在真实场景下的感知与理解能力，推动多模态感知模型的稳健性研究[2] - 面对动态人群、恶劣天气、传感器故障等复杂环境，传统感知算法性能大幅下降[2] - 由新加坡国立大学、南洋理工大学等全球顶尖研究机构联合主办，并获IROS 2025官方认证[5] 赛事时间安排 - 注册开放时间为2025年6月[4] - 第一阶段截止日期为2025年8月15日，第二阶段截止日期为9月15日[4] - 颁奖典礼将于2025年10月19日在IROS 2025杭州主会场举行[4] 五大核心赛道技术要点语言驱动的自动驾驶 - 任务要求构建端到端多模态驾驶模型，输入视觉序列与自然语言指令，输出规划轨迹[11] - Baseline模型Qwen2-5-VL需4块NVIDIA A100 GPU，迭代周期约12小时，感知准确率75-5%[16] - 挑战包括多模态融合建模、语言泛化能力及弱感知条件下的鲁棒性评估[17] 社交导航 - 目标实现基于RGB-D输入的移动机器人导航，需符合人类社交规范如避让老人、保持安全距离[18] - Baseline模型Falcon需4块RTX 3090 GPU，成功率55-84%，社交合规指标PSC达89-47[21] - 关键难点包括动态行为建模、非显式社交规则编码及多主体不确定性处理[19] 传感器布局优化 - 首次系统评估LiDAR不同安装位置对3D感知模型性能的影响[23] - Baseline模型BEVFusion-L单卡RTX 4090需16小时训练，mAP达48-8%[28] - 研究方向包括结构对齐模块、Point-to-Ray Alignment Loss等抗视角漂移方法[27] 跨模态无人机导航 - 任务需建立语言描述与俯视图间的语义映射，Baseline模型GeoText-1652检索R@1仅13-6[34] - 核心挑战为空-地视角转换带来的纹理缩放、建筑遮挡等语义对齐问题[33] 跨平台三维目标检测 - 要求3D检测模型在车辆、无人机等不同平台保持性能，Baseline模型ST3D车辆AP@0-5为33-7%[42] - 需解决Domain Gap显著、平台感知对抗机制缺失等跨平台适配问题[41] 赛事资源与奖项 - 提供多源多模态真实场景数据及统一评测平台[13] - 总奖金池超10,000美元，设置一等奖5,000美元及创新奖等专项奖励[42] - 所有完成有效提交队伍均可获得官方参赛证明[42]

Autonomous Driving

Multi-modal Perception

Large Language Model

NVIDIA A100 GPU

NVIDIA RTX 3090 GPU

Autonomous Driving

Multi-modal Perception

Large Language Model

NVIDIA A100 GPU

NVIDIA RTX 3090 GPU

AI巨头，国际化大动作！

中国基金报· 2025-06-25 01:33

科大讯飞国际化战略升级 - 公司以香港为"桥头堡"启动国际化战略升级，发布基于讯飞星火大模型的医疗、教育、会议、办公等多领域AI产品香港版及国际版[4] - 公司在香港设立国际总部和国际研究院，与香港大学签署合作协议，计划开拓东南亚、"一带一路"及海外市场[4][5] - 公司自2024年11月成为香港特区政府引进重点企业办公室重点企业，积极筹备在香港发展[4] 香港创新科技发展 - 香港数码港作为数字科技枢纽和人工智能加速器，汇聚超过2200家企业，其中400家专注于人工智能和数据科学[6] - 数码港拥有全港规模最大的人工智能超算中心，推动产业生态圈发展和数字化转型[6] - 香港特区政府引进办表示将支持重点企业在港拓展，共同打造具有全球竞争力的创科枢纽[6] 公司在港发展成果 - 讯飞医疗在落户数码港半年后成功在香港交易所主板上市，成为香港市场医疗大模型第一股，并被纳入恒生综合指数成份股[6] - 公司智能语音技术在香港立法会落地应用，提升政务营运效率，推动智慧政府发展[6] - 公司技术应用与香港创新科技发展方向高度契合，特别是在智慧医疗领域提高医疗服务效率[6]

Artificial Intelligence

Large Language Model

Artificial Intelligence

讯飞星火大模型

Artificial Intelligence

Large Language Model

Artificial Intelligence

讯飞星火大模型