Workflow
Large Language Model
icon
搜索文档
阿里开源最强编码模型 Qwen3-Coder:1M上下文,性能媲美 Claude Sonnet 4
Founder Park· 2025-07-23 08:21
模型发布与性能 - 阿里通义团队发布并开源Qwen3-Coder系列代码模型,其中Qwen3-Coder-480B-A35B-Instruct是最强版本,拥有480B参数激活35B参数的MoE结构,原生支持256K token上下文并可通过YaRN扩展到1M token [3][4] - 该模型在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use等任务上达到开源模型SOTA水平,性能媲美Claude Sonnet4 [5] - 在Terminal-Bench测试中得分为37.5分,优于Claude Sonnet4的35.5分和OpenAI GPT-4.1的25.3分 [6] - SWE-bench Verified测试中达到69.6分(500轮交互)和67.0分(100轮交互),接近Claude Sonnet4的70.4分和68.0分 [6] 技术架构与训练 - 预训练数据总量达7.5T,其中代码数据占比70%,在保持通用与数学能力的同时强化编程能力 [12] - 采用Code RL训练方法,通过自动扩展测试样例构建高质量训练实例,显著提升代码执行成功率 [15] - 实现Long-Horizon RL训练系统,可同时运行20k独立环境,在SWE-bench Verified上取得开源模型SOTA效果 [16] - 利用Qwen2.5-Coder对低质数据进行清洗与重写,提升整体数据质量 [12] 产品应用与集成 - 模型已在Qwen Chat网页版上线供免费体验 [6] - 推出开源命令行工具Qwen Code,基于Gemini Code二次开发,优化了Agentic Coding任务表现 [17] - 支持通过OpenAI SDK调用,只需配置环境变量即可接入 [20][21] - 可与Claude Code集成使用,通过阿里云百炼平台申请API Key实现 [22][23] - 支持与社区工具如Cline结合,通过OpenAI兼容模式接入 [27] 性能对比数据 - WebArena测试得分49.9分,优于DeepSeek-V3的40.0分,接近Claude Sonnet4的51.1分 [6] - Mind2Web测试得分55.8分,优于Claude Sonnet4的47.4分和OpenAI的49.6分 [6] - BFCL-v3测试得分68.7分,优于OpenAI的62.9分,接近Claude Sonnet4的73.3分 [6] - TAU-Bench Retail测试得分77.5分,优于DeepSeek-V3的59.1分,接近Claude Sonnet4的80.5分 [6]
只因一个“:”,大模型全军覆没
自动驾驶之心· 2025-07-17 12:08
大模型漏洞研究 - 研究发现大模型(如GPT-4o、Claude-4、LLaMA3-70B)普遍存在被简单符号(如冒号、空格)或推理开头语(如"Thought process:"、"解")欺骗的问题,导致假阳性奖励信号 [4][5][7] - 实验显示GPT-4o对符号":"的假阳性率达35%,LLaMA3-70B对"Thought process:"的假阳性率高达60%-90% [22] - 漏洞具有跨语言普遍性,中文、日语等语言的开头语同样能诱发高假阳性率 [23] 对抗性攻击与模型表现 - 专用生成式奖励模型(如Multi-sub RM、Omni-Judge)和通用LLM在5个推理基准测试中均未能抵御对抗性响应 [17][19] - 模型大小与假阳性率无单调关系,7B-14B参数模型表现最佳,32B-72B模型因倾向自主解题导致假阳性率回升 [32] - 通过嵌入相似度搜索可自动生成新对抗性响应,使漏洞无限繁殖 [26] 解决方案与模型改进 - 腾讯AI Lab等机构构建增强训练数据集,结合2万条对抗样本与原始数据训练Master-RM模型 [29][30] - Master-RM基于Qwen2-5-7B-Instruct微调,跨数据集测试中对"万能钥匙"的假阳性率接近0%,与GPT-4o评估一致性达0.96 [31][33] - 研究团队包括腾讯AI Lab首席科学家俞栋、普林斯顿大学博士生Yulai Zhao等业界与学术专家 [38][39][41] 行业影响与研究方向 - 生成式奖励模型的核心机制漏洞暴露,依赖验证器反馈的RLVR流程面临挑战 [27][28] - 未来需加强模型稳健性研究,严格对抗评估RLHF工作流程 [35][36] - 相关论文与模型已开源,数据集和模型链接发布于Hugging Face平台 [48]
最强人才接连被挖,创业大佬离开 OpenAI 后说了实话:7 周硬扛出 Codex,无统一路线、全靠小团队猛冲
AI前线· 2025-07-16 05:08
核心人才流动 - OpenAI研究员Jason Wei和Hyung Won Chung将加盟Meta超级智能实验室 两人在OpenAI的Slack账户已停用 [1] - Jason Wei曾参与OpenAI的o3模型开发 是强化学习领域的专家 此前在谷歌专注于思维链研究 [1] - 人才流动引发外界对OpenAI团队文化的好奇 前员工Calvin French-Owen分享内部观察 [2][3] 公司文化特征 - OpenAI采用自下而上的研究模式 没有统一路线图 研究方向由研究员兴趣驱动 [10][11] - 沟通高度依赖Slack 任职期间仅收到10封邮件 信息管理依赖个人组织能力 [10] - 决策迅速 能根据新信息快速转向 体量庞大仍保持敏捷性 [12] - 推崇任人唯贤 领导晋升取决于提出好问题和实践能力 而非会议说服力或政治手腕 [11] 研发与项目运作 - Codex项目仅用7周完成 由8名工程师 4名研究员等组成的小团队推动 [26][28] - 采用"迷你主管"模式 研究人员自主探索问题 结果导向决定资源投入 [12] - 存在多个并行原型项目 如Codex发布前内部有3-4个不同原型在推进 [11] - 使用单体monorepo代码库 主要语言为Python 服务运行在Azure Kubernetes上 [20][22] 业务与竞争格局 - 最大成本为GPU算力 Codex某项功能的GPU成本相当于Segment整个基础设施 [17] - 同时竞争数十个领域 包括API产品 深度研究 硬件 图像生成等 [18] - 面临Meta 谷歌 Anthropic三足鼎立的AGI竞争格局 [33] - 高度关注Twitter舆论 有专人跟进热门帖文 被戏称"靠网络舆论运转" [18] 产品与技术特点 - ChatGPT Connectors采用异步方案 用户可像对待同事一样与编程智能体交互 [28] - Codex擅长处理大型代码库 能同时启动多任务比较输出 发布53天生成63万条PR [30] - 模型训练经历从小规模实验验证到大规模运行的工程化过程 [24] - 安全团队规模庞大 优先处理实际风险如仇恨言论 生物武器制造等 [16] 组织扩张与挑战 - 员工数量从1000人快速扩张至3000人 任职一年的员工资历排名前30% [10] - 不同团队文化差异显著 有的全力冲刺 有的稳定推进 有的专注临门一脚 [10] - 工程工具跟不上团队扩张速度 主服务器CI频繁中断 测试运行需半小时 [22] - 保留技术理想主义 以实现AGI为目标 允许试错并快速修正 [4][15]
新股消息丨MiniMax将完成近3亿美元新融资 传筹备赴港上市
智通财经网· 2025-07-16 02:34
融资动态 - MiniMax近期基本完成近3亿美元新一轮融资 本轮融资后公司估值超40亿美元 [1] - 本轮融资出资方包括上市公司 交叉基金和大型国资平台上海国资 [1] - 融资在半年前开启 目前已基本确定 公司正在筹备赴港上市 最快或于年内落地 [1] - 公司已聘请投行顾问 具体上市方案仍在内部讨论中 [1] - 此前完成由阿里巴巴出资6亿美元的B轮融资 以及腾讯资本出资超2.5亿美元的A轮融资 [1] - 早期出资方包括云启资本 高瓴创投 IDG 明势资本 米哈游等 此前未有国资背景资方参投 [1] - 本轮融资结束后 国内估值达到300亿元的大模型公司仅有MiniMax和智谱 [1] 技术进展 - 近期推出开源推理模型MiniMax-M1 采用Apache 2.0许可协议 实现代码开放 [2] - 官方称MiniMax-M1性能优于DeepSeek最新版且算力消耗更低 [2] - 多模态领域视频生成模型Hailuo 02支持原生1080P高清视频输出 [2] - Hailuo 02在复杂场景中展现强大时空一致性和物理逻辑性 如体操运动员翻转 马戏演员喷火等 [2] - 在国际权威测评榜单Artificial Analysis视频竞技场中拿下第二名 领先Google的Veo 3和快手的可灵(Kling)等对手 [2]
只因一个“:”,大模型全军覆没
量子位· 2025-07-15 08:31
大模型漏洞研究 - 研究发现大模型(如GPT-4o、Claude-4、LLaMA3-70B)容易被特定符号(如冒号、空格)和推理开头语(如"Thought process:"、"解")欺骗,产生假阳性响应 [1][4][7] - 实验显示GPT-4o对符号":"的假阳性率达35%,LLaMA3-70B对"Thought process:"的假阳性率高达60%-90% [21] - 模型大小与抗欺骗能力无直接关系,7B-14B模型表现最佳,72B模型反而更容易被欺骗 [23][26] 欺骗机制分析 - 欺骗性输入分为两类:非文字符号(如空格、标点)和推理开头语(多语言) [14][15] - 漏洞可被无限繁殖,通过嵌入相似度搜索可自动生成新的欺骗性输入 [25] - 该漏洞揭示了生成式奖励模型核心机制缺陷,影响依赖验证器的强化学习流程 [27][28] 解决方案 - 研究人员构建增强数据集,包含2万条对抗样本(无实质内容的推理开头语) [29][30] - 基于Qwen2.5-7B-Instruct训练的Master-RM模型将假阳性率降至接近0%,同时保持与GPT-4o 0.96的一致性 [31][32] 研究团队 - 团队来自腾讯AI Lab、普林斯顿大学和弗吉尼亚大学,包含腾讯AI Lab首席科学家俞栋(发表400+论文) [37][38][39] - 一作Yulai Zhao(普林斯顿博士生)研究方向为强化学习与扩散模型,近期有论文被ICML 2025录用 [40][42] - 共同一作Haolin Liu(弗吉尼亚大学博士生)专注强化学习在LLM后训练中的应用 [43]
清华最新ADRD:自动驾驶决策树模型实现可解释性与性能双突破!
自动驾驶之心· 2025-07-04 10:27
自动驾驶决策系统发展现状 - 自动驾驶决策模块对可解释性要求日益提高,深度学习虽为主流方法但存在非分布场景性能下降、决策逻辑难解释等问题[1] - 基于规则的系统具备透明性优势,但依赖专家知识且对复杂环境适应性有限[1] ADRD框架核心创新 - 结合大语言模型(LLM)与规则决策系统,通过自然语言处理实现驾驶策略生成[2] - 框架包含信息模块(场景/规则转换)、代理模块(决策树构建)、测试模块(闭环验证)三部分[5][7] - 采用规划器-编码器-汇总器协作机制,支持策略生成、代码转换及迭代优化[7][13] 技术实现细节 - 规划器通过系统提示、驾驶目标、历史记录生成策略,示例显示变道决策优先考虑左车道安全性[8][9][10] - 编码器将文本策略转为可执行代码,决策树可视化便于专家调试[16] - 汇总器分析碰撞报告定位策略或代码问题,实现闭环改进[19] 实验验证结果 - 在Highway-v0场景测试中,ADRD平均安全驾驶时间达25.15秒(普通密度),显著优于PPO(10.9秒)和DiLu(23秒)[21][22] - 极端密度(3.0)下仍保持13.55秒安全驾驶时间,控制效率达<1.0×10^-6秒/指令[22] - 激进风格决策树深度比保守风格增加37%,反映不同驾驶偏好对策略复杂度的影响[23] 行业应用价值 - 框架同时解决传统方法在性能、响应速度(推理效率提升1000倍)和可解释性上的缺陷[26] - 决策树结构支持人工干预,为自动驾驶系统调试提供新范式[12][16]
自研大模型遥遥无期,苹果 Siri 正考虑转向 OpenAI 技术合作
环球网· 2025-07-01 06:08
人工智能策略调整 - 苹果正考虑放弃自研内部AI模型,转而与Anthropic及OpenAI合作,评估将这两家公司的大语言模型应用于Siri语音助手的可能性 [1] - 苹果要求合作方训练适配苹果云基础设施的专用模型版本,以强化用户隐私保护 [1] - 若合作达成,苹果将放弃原定2026年基于自研"Apple Foundation Models"升级Siri的计划 [1] 外部模型测试与谈判进展 - Siri负责人麦克・洛克威尔主导外部模型测试,结果显示Anthropic的Claude模型表现优于ChatGPT [4] - 苹果企业发展副总裁阿德里安・佩里卡已启动与Anthropic的谈判,但Anthropic提出每年数十亿美元且逐年激增的授权费要求 [4] - 若谈判未达成一致,苹果可能转向OpenAI或其他合作商 [4] 内部研发与团队动态 - 苹果AI负责人约翰・詹南德雷亚主导的"LLM Siri"项目仍在推进,但进度缓慢,基础模型团队约有100人 [4] - 苹果软件工程主管克雷格・费德里吉与洛克威尔支持外部合作,认为在自有模型劣势下不应排斥第三方技术 [4] - 策略调整已导致苹果顶级工程师汤姆・冈特离职,开源AI框架MLX背后的团队也有辞职想法 [4] - 苹果内部编码模型已终止,Xcode转向使用ChatGPT或Claude [4] 人才竞争与未来展望 - Meta和OpenAI为AI开发人员提供的薪水可能是苹果的两倍多,加剧人才竞争压力 [5] - 若Siri合作顺利落地,未来苹果更多功能可能转向第三方合作,AI团队处境或将更加艰难 [5]
生物学专属ChatGPT来了:对话式AI智能体——ChatNT,能够理解DNA、RNA和蛋白质语言
生物世界· 2025-06-27 07:36
核心观点 - ChatGPT 掀起大语言模型浪潮后,InstaDeep 公司开发了 ChatNT,一款能理解 DNA、RNA 和蛋白质序列信息并用自然语言对话的多模态对话智能体 [2] - ChatNT 解决了生物学研究中的两大痛点:模型过多和编程门槛高 [6] - ChatNT 在多项生物信息学基准测试中表现优异,创造了新的 State-of-the-Art [17][19] - 这项研究标志着生物学 AI 研究进入新阶段,提供了革命性的交互范式 [22][24] 生物学研究痛点 - 模型海:每个任务需单独训练和维护模型,效率低下且阻碍知识共享 [6] - 编程墙:专业模型需要编程技能,限制了没有计算机背景的生物学家的使用 [6] ChatNT 技术架构 - 由 DNA 编码器和英语解码器两部分组成 [8] - DNA 编码器:Nucleotide Transformer v2 模型,5 亿参数,在 850 个物种基因组上预训练 [8] - 英语解码器:Vicuna-7B 模型,70 亿参数,基于 LLaMA [8] - 通过英语感知投影层实现关键连接,能动态筛选和提炼最相关信息 [9][10] 工作原理 1. 用户用英语提问并标记序列文件 [11] 2. DNA 编码器分析序列生成深度特征 [12] 3. 英语感知投影提取相关信息并转换格式 [12] 4. 英语解码器生成自然语言答案 [13] 5. 返回答案给用户 [14] 性能表现 - 在 Nucleotide Transformer Benchmark 上平均 MCC 达 0.77,比之前最佳专用模型提高 8 个百分点 [17] - 一个模型同时处理 18 项不同任务,解决"一任务一模型"困境 [19] - 在基因组指令数据集 27 项任务中多数表现优异: - 预测 RNA 多聚腺苷酸化位点比例 PCC 达 0.91,优于 APARENT2(0.90) [19] - 预测蛋白质熔点 PCC 达 0.89,优于 ESM2(0.85) [19] - 能识别关键生物学特征,如剪接供体位点的"GT"二核苷酸和启动子的"TATA-box"基序 [20] 行业意义 - 实现"对话式"生物信息学,大幅降低 AI 工具使用门槛 [22] - 证明统一模型处理多种生物序列任务的可行性,迈向通用型生物学 AI 模型 [22] - 模块化架构允许未来集成更强大的编码器和对话模型 [22] - 为解读基因突变提供新途径,可能直接分析突变对疾病的影响 [22] - 将加速生命科学探索进程,使生物信息学分析更直观高效 [24]
RoboSense 2025机器感知挑战赛正式启动!自动驾驶&具身方向~
自动驾驶之心· 2025-06-25 09:54
赛事背景与目标 - 赛事旨在系统性评估机器人在真实场景下的感知与理解能力,推动多模态感知模型的稳健性研究[2] - 面对动态人群、恶劣天气、传感器故障等复杂环境,传统感知算法性能大幅下降[2] - 由新加坡国立大学、南洋理工大学等全球顶尖研究机构联合主办,并获IROS 2025官方认证[5] 赛事时间安排 - 注册开放时间为2025年6月[4] - 第一阶段截止日期为2025年8月15日,第二阶段截止日期为9月15日[4] - 颁奖典礼将于2025年10月19日在IROS 2025杭州主会场举行[4] 五大核心赛道技术要点 语言驱动的自动驾驶 - 任务要求构建端到端多模态驾驶模型,输入视觉序列与自然语言指令,输出规划轨迹[11] - Baseline模型Qwen2-5-VL需4块NVIDIA A100 GPU,迭代周期约12小时,感知准确率75-5%[16] - 挑战包括多模态融合建模、语言泛化能力及弱感知条件下的鲁棒性评估[17] 社交导航 - 目标实现基于RGB-D输入的移动机器人导航,需符合人类社交规范如避让老人、保持安全距离[18] - Baseline模型Falcon需4块RTX 3090 GPU,成功率55-84%,社交合规指标PSC达89-47[21] - 关键难点包括动态行为建模、非显式社交规则编码及多主体不确定性处理[19] 传感器布局优化 - 首次系统评估LiDAR不同安装位置对3D感知模型性能的影响[23] - Baseline模型BEVFusion-L单卡RTX 4090需16小时训练,mAP达48-8%[28] - 研究方向包括结构对齐模块、Point-to-Ray Alignment Loss等抗视角漂移方法[27] 跨模态无人机导航 - 任务需建立语言描述与俯视图间的语义映射,Baseline模型GeoText-1652检索R@1仅13-6[34] - 核心挑战为空-地视角转换带来的纹理缩放、建筑遮挡等语义对齐问题[33] 跨平台三维目标检测 - 要求3D检测模型在车辆、无人机等不同平台保持性能,Baseline模型ST3D车辆AP@0-5为33-7%[42] - 需解决Domain Gap显著、平台感知对抗机制缺失等跨平台适配问题[41] 赛事资源与奖项 - 提供多源多模态真实场景数据及统一评测平台[13] - 总奖金池超10,000美元,设置一等奖5,000美元及创新奖等专项奖励[42] - 所有完成有效提交队伍均可获得官方参赛证明[42]
AI巨头,国际化大动作!
中国基金报· 2025-06-25 01:33
科大讯飞国际化战略升级 - 公司以香港为"桥头堡"启动国际化战略升级,发布基于讯飞星火大模型的医疗、教育、会议、办公等多领域AI产品香港版及国际版[4] - 公司在香港设立国际总部和国际研究院,与香港大学签署合作协议,计划开拓东南亚、"一带一路"及海外市场[4][5] - 公司自2024年11月成为香港特区政府引进重点企业办公室重点企业,积极筹备在香港发展[4] 香港创新科技发展 - 香港数码港作为数字科技枢纽和人工智能加速器,汇聚超过2200家企业,其中400家专注于人工智能和数据科学[6] - 数码港拥有全港规模最大的人工智能超算中心,推动产业生态圈发展和数字化转型[6] - 香港特区政府引进办表示将支持重点企业在港拓展,共同打造具有全球竞争力的创科枢纽[6] 公司在港发展成果 - 讯飞医疗在落户数码港半年后成功在香港交易所主板上市,成为香港市场医疗大模型第一股,并被纳入恒生综合指数成份股[6] - 公司智能语音技术在香港立法会落地应用,提升政务营运效率,推动智慧政府发展[6] - 公司技术应用与香港创新科技发展方向高度契合,特别是在智慧医疗领域提高医疗服务效率[6]