Workflow
开源模型
icon
搜索文档
为 OpenAI 秘密提供模型测试, OpenRouter 给 LLMs 做了套“网关系统”
海外独角兽· 2025-09-23 07:52
编译: Xeriano 编辑:Haozhen 在 2025 Q2 的大模型季报 中,我们判断硅谷的各个模型公司已经开始分化到各个领域:Google Gemini 和 OpenAI 在做通用的模型;Anthropic 分化到了 Coding、Agentic;Mira 的 Thinking Machines Lab 分化到了多模态和下一代交互。 随着应用场景的不断细分,用户请求也需要被路由到最合适的基础模型上,模型路由逐渐演变为大模型市场重要的 infra。OpenRouter 就是这一领域的佼佼 者。 OpenRouter 成立于 2023 年初,为用户提供一个统一的 API Key,来调用各类模型,OpenAI 甚至在模型正式发布前,会先用其他名字在 OpenRouter 上秘密 上线,用来收集开发者使用反馈。 今年,OpenRouter 的周请求量从年初的 4050 亿 tokens,增长到 9 月的 4.9 万亿,增长超过 12 倍。 值得一提的是,OpenRouter 关于模型用量的报告在业内和社交媒体上都引发了广泛讨论,一度"出圈",成为开发者和投资人群体的必读内容。 为了更好了解 OpenRoute ...
朱啸虎:搬离中国,假装不是中国AI创业公司,是没有用的
虎嗅· 2025-09-20 14:15
开源AI模型趋势 - DeepSeek等中国开源模型显著影响行业 保证AI技术不被少数私有化公司控制 开源成为AI领域主流趋势[3] - Hugging Face平台中国开源模型下载量已超过美国 开源模型与闭源模型能力差距正迅速缩小 预计半年到一年内可齐头并进[4] - 形成"中国开源vs美国闭源"竞争格局 美国开发者也在采用开源模型 开源生态一旦建立将形成长期壁垒[5][6][7][9] AI应用核心壁垒 - Manus案例显示Go-to-Market能力是关键壁垒 中国创业者技术能力不逊色但市场进入策略存在短板[10] - AI应用公司首要壁垒是发展速度 需要让竞争对手感到绝望的快速增长 其次才是用户留存能力[11] - 中美市场存在Token消耗差异 中国更关注Token消耗量作为"含AI量"指标 日均消耗达百亿级别 大厂提供补贴使性价比显著提升[12][13][14] AI编程赛道分析 - AI编程是大厂主导领域 中美都在进行补贴 美国补贴AI Coding 中国补贴外卖 几乎都是负毛利运营[15] - Cursor从月费改为按流量收费 显示ARR难以维持 负毛利达300%-500% 收入增长越快VC补贴压力越大[16] - 程序员群体忠诚度低 对价格和性能高度敏感 切换成本极低 OpenAI的API调用量曾因Gemini新版本发布而急剧下降[18] 机器人投资策略 - 重点关注能实际干活的"牛马型机器人" 如洗船机器人和按摩机器人 虽然外观不讨巧但能创造真实商业价值[21] - 按摩机器人不仅能按摩理疗 还能实现卖卡功能 转化率甚至高于人工 真正取代整个岗位而非"半个人"[22][23] - 机器人ROI计算必须完整取代岗位 很多创业公司陷入只能取代"半个人"的陷阱 导致ROI测算不真实[22] AI硬件发展逻辑 - AI硬件成功关键是做减法而非加法 优先保证大批量发货能力 许多公司因添加花哨功能无法交货而失败[28] - Plaud案例显示应选择小切入点 使用成熟技术实现商业化 FuzozoAI玩具本质是游戏玩法创新 AI只是噱头[28] - AI时代独有新硬件物种尚未出现 取代手机非常困难 电池 存储 联网等技术瓶颈可能需要10-20年突破[29][30] 全球化战略 - 中国C端App在全球市场具有绝对优势 过去十年超过百亿美金的C端App几乎全是中国创业者开发 美国VC已基本不投Consumer领域[37] - To B应用面临Go-to-Market挑战 PLG模式可做到2000-3000万美金ARR 但要突破5000万美金必须转型SLG模式[38][39] - 出海市场选择取决于团队背景 F-35级别打美国市场 F-20级别打日本市场 F-16级别打东南亚市场[39] 估值与资本环境 - 高估值会压缩犯错空间 移动互联网时代很多大厂高管创业即获5000万美金估值 但产品上线后第二轮融资就失败[43] - 中国美元基金资金量减少 因大量LP资金被锁在字节 小红书 蚂蚁等未上市公司 总市值约1.5-2万亿美金[45] - 香港成为主要IPO目的地 中国企业应选择在香港上市 全球投资人都认可香港市场的资产购买价值[47] AI创业投资策略 - 投资回报期指现金回收时间 希望市场投放资金在3-6个月内回笼 最佳情况是首月投1元收回0.8元 六个月后能收回2元[50] - 早期投资更关注用户参与度指标 如日活率 周活率 留存率 使用时长等 而非仅看收入数据[51] - AI时代演化速度是移动互联网的三倍速 创业者需在离大厂三条马路之外寻找机会 并以三倍速发展[53]
超强开源模型Qwen3、DeepSeek-V3.1,都被云计算一哥「收」了
机器之心· 2025-09-19 10:43
亚马逊云科技AI平台模型扩展 - Amazon Bedrock和Amazon SageMaker两大AI平台新增支持OpenAI新开源模型[2] - 两大国产大模型Qwen3和DeepSeek-V3.1被纳入Amazon Bedrock平台[3] - 目前Qwen3和DeepSeek-V3.1已在Amazon Bedrock全球上线 覆盖美国西部(俄勒冈)、亚太地区(孟买、东京)、欧洲(伦敦、斯德哥尔摩)等区域[4] 平台模型生态与战略 - Amazon Bedrock已提供249款大模型 覆盖通用对话、生成、多语言理解与代码助手等多个应用类型[16] - 平台汇聚十四家主流厂商 包括Anthropic、DeepSeek、亚马逊云科技自研Nova模型等[16] - 公司坚持"Choice Matters"战略 强调多模型互补协同 没有一个大模型可以解决所有问题[5] - 客户数据完全由客户控制 亚马逊云科技不会将模型输入输出数据与模型提供商共享或用于改进基础模型[5] Qwen3模型技术特性 - Qwen3是阿里巴巴开源的新一代通义千问模型 在推理、指令遵循、多语言支持和工具调用等方面大幅提升[9] - 部署成本大幅下降 仅需4张H20实现满血版部署 显存占用仅为性能相近模型的三分之一[9] - 采用MoE和密集型架构 MoE模型如Qwen3-Coder-480B-A35B-Instruct和Qwen3-Coder-30B-A3B-Instruct通过动态激活部分参数实现高效推理[10] - 支持256K个token的上下文窗口 使用外推方法可扩展到100万个token[10] - 具备强大的智能体能力 能够执行多步推理和结构化规划 支持与外部环境标准化通信[10] DeepSeek-V3.1模型性能表现 - DeepSeek-V3.1是混合推理模型 同时支持思考模式与非思考模式[14] - 在Browsecomp测试中得分30.0 较DeepSeek-R1-0528的8.9有显著提升[15] - 在Browsecomp_zh测试中得分49.2 较DeepSeek-R1-0528的35.7提升明显[15] - 在SWE-bench Verified测试中得分66.0 较DeepSeek-R1-0528的44.6有大幅提升[15] 模型应用场景优化 - Qwen3-Coder-480B-A35B-Instruct专为复杂软件工程任务设计 擅长高级代码生成和代码库分析[13] - Qwen3-Coder-30B-A3B-Instruct优化代码补全、重构及编程问题解答 支持多种编程语言[13] - Qwen3-235B-A22B-Instruct-2507提供强大的通用推理和指令跟随能力[13] - Qwen3-32B-Dense适用于要求稳定性能、低延迟和成本优化的场景 如移动设备和边缘计算[13] 平台实测性能表现 - DeepSeek-V3.1和Qwen3-235B-A22B-Instruct-2507在简单数学问题上均能在半秒左右给出正确答案[23] - 在多步计算任务中 两个模型都能正确完成并给出完整推理过程[26] - Qwen3-Coder-480B-A35B-Instruct仅用半分钟就完成了"俄罗斯方块+贪吃蛇"游戏的代码编写[28] - Amazon Bedrock提供的服务非常稳定高速 全量模型的性能得到充分保证[31] 开源模型战略价值 - 开源模型在定制化开发和透明性方面具有独特优势 给用户带来更大灵活性和控制权[36] - 用户可通过开源模型直接调用经过优化的托管推理服务 实现快速应用部署[36] - 开放权重特性允许用户根据自身行业数据和需求进行二次开发和定制训练[36] - 高透明性使企业能够清晰了解模型结构、训练数据和算法流程 增强合规性和道德可控性[36] 公司AI发展战略 - 亚马逊云科技CEO将AI描述为"几十年来见过的可能发展最快的技术"[38] - 公司在Amazon Bedrock和SageMaker上构建了拥有超过400款模型的模型库[39] - 开放共赢策略避免与模型提供商正面竞争 专注于成为中立、丰富且可靠的AI基础设施层[40] - 该策略吸引了包括初创公司、大型企业在内的多样化客户生态[40]
通义DeepResearch震撼发布!性能比肩OpenAI,模型、框架、方案完全开源
机器之心· 2025-09-18 01:01
模型性能与开源优势 - 通义DeepResearch在Humanity's Last Exam、BrowseComp、GAIA等多项权威基准测试中取得SOTA效果,综合能力对标并超越海外旗舰模型[1] - 30B-A3B轻量级模型在WebWalkerQA、FRAMES等基准测试中表现优于基于基础模型的ReAct Agent和闭源Deep Research Agent[1] - 实现模型、框架、方案全面开源,相比海外旗舰模型昂贵且受限的调用方式具有显著成本优势[1] 技术架构与训练方法 - 提出端到端Agent训练范式,覆盖Agentic CPT(增量预训练)→Agentic SFT(有监督微调)→Agentic RL(强化学习)全流程[3][17][18] - 采用基于GRPO的定制化强化学习算法,通过token级策略梯度损失函数和留一法降低优势估计方差[21] - 使用128K上下文长度支持多轮交互,在ReAct模式(思考-行动-观察)基础上创新开发Heavy深度模式[11][12] 数据策略创新 - 开发全合成数据生成方案,不依赖人工标注即可大规模生成高质量训练数据[5] - 通过知识图谱随机游走和表格数据融合构建开放世界知识记忆,基于实体锚定生成多风格(问题,答案)对[6] - 采用自动化数据引擎生成"博士级"研究问题,通过策略性信息隐藏和集合论建模系统提升问题复杂度[9] 推理模式突破 - Heavy模式采用IterResearch范式,将任务解构为多轮研究,每轮重构精简工作空间保持认知焦点[13][14] - Research-Synthesis框架支持多IterResearch Agent并行探索同一问题,整合报告提升答案准确性[15] - 基础ReAct模式无需提示工程即可释放模型能力,深度模式进一步探索复杂推理与规划上限[3][12] 基础设施与应用落地 - 构建仿真训练环境替代实时Web API,基于离线维基百科数据库和自定义工具套件提升研发效率[27] - 开发统一工具沙盒通过缓存、重试和饱和响应机制确保工具调用稳定性,防止错误响应干扰学习轨迹[27] - 在高德App地图导航+本地生活场景落地应用,基于纯agentic+ReAct技术提供复杂查询体验[28] 行业应用案例 - 通义法睿法律智能体在答案要点质量(88.28分)、法条引用质量(81.01分)、案例引用质量(64.26分)三大维度均超越OpenAI(88.25/75.83/57.56)和Claude(85.30/76.11/40.43)[30][31] - 司法DeepResearch能力支持多步查询与复杂推理,实现类案检索、法条匹配与专业观点融合[30] - 过去六个月每月持续发布技术报告,累计发布五篇,本次同步发布六篇新报告及开源模型[33]
从苹果收购传闻到ASML豪掷13亿成大股东,起底Mistral AI的技术与商业密码
36氪· 2025-09-12 07:35
公司融资与估值 - 2023年6月完成1.05亿欧元(1.17亿美元)种子轮融资 创欧洲史上最大种子轮纪录[2] - 2023年12月完成3.85亿欧元(4.15亿美元)A轮融资[2] - 2024年6月完成6亿欧元(6.45亿美元)B轮融资 估值达58亿欧元(62亿美元)[2] - 2025年9月C轮融资获17亿欧元(20亿美元) ASML以13亿欧元(15亿美元)领投 估值飙升至120亿欧元(140亿美元) 较2024年6月翻倍[2] 技术优势 - 拥有8类模型系列 覆盖复杂推理、批量执行及中级推理三类任务[5][11] - Mistral 7B模型仅70亿参数 性能超越同级别模型 硬件需求降低且推理速度提升[8] - Mixtral 8×7B模型在Hugging Face基准测试中超越Llama 2 70B 推理速度较传统模型提高6倍[8] - 多模态模型Pixtral Large实现图像理解与文本生成融合 应用于医疗影像分析、自动驾驶决策及内容创作[9] 开源生态与产品矩阵 - Mistral 7B及Mixtral等核心模型采用Apache 2.0开源许可 开放权重供开发者二次开发[10][13] - 产品矩阵包含La Plateforme开发平台、Codestral代码工具及企业智能助理[14] - 企业对话助手Le Chat在100天内推动业务规模翻两番[14] 战略合作背景 - 苹果考虑收购Mistral AI以弥补Siri技术短板 提升自然语言处理能力[3][15] - ASML通过战略合作将AI技术整合至光刻设备研发与生产流程 提升设备精度并降低成本[16][17] - 地缘战略价值显著 作为欧洲本土AI标杆 可能成为美国模型受欧盟限制时的替代选项[24][25] 争议事件 - 2025年8月被前员工指控抄袭DeepSeek模型 涉嫌蒸馏技术未公开披露[18][20] - 模型Mistral-small-3.2与DeepSeek-v3输出高度相似 引发技术诚信质疑[18] - 行业意见存在分歧 HuggingFace CEO认为蒸馏开源模型属常见技术手段[23]
王兴兴,最新发声!“还处在爆发性增长前夜”
中国证券报· 2025-09-11 15:05
人工智能行业发展现状 - 具身智能领域在高质量数据和模型算法层面仍面临挑战 数据采集和质量问题突出且利用率需提升 多模态数据融合不理想 模型与机器人控制模态对齐存在难点 [2] - 当前处于AI大规模爆发性增长前夜 真正让AI干活的领域尚属荒漠 创新创业门槛已大幅降低 年轻创新者可利用AI工具实现新创意 [1][2] 人工智能技术突破方向 - 2025年开源成为AI竞争关键变量 从代码开源转向资源开放是革命性变化 开放数据和计算资源是推动AI发展的必需环节 [3] - 太空领域将出现第四种"计算卫星" 之江实验室已将12颗卫星送入太空并搭载8B参数模型 实现太空端完整数据处理能力 为深空探索奠定技术基础 [3] 医疗健康AI应用路径 - AI医疗健康领域具备刚需和中高频双重特性 医疗属低频行为而健康管理属高频需求 两者结合为AI深度服务提供土壤 [4] - 通用大模型长期难以替代垂类专业模型 专业能力构成护城河 使用越多越了解用户 深度认知是基础通用模型难以实现的 [4] - AI医疗终极目标是提供个性化精准可信建议 现阶段应坚持人机结合路径 让名医专注科研与疑难杂症 基层医生获得AI助手支持 [4] AI创业与商业化机遇 - 2025年AI应用将出现大爆发 下一个字节跳动或小红书级企业应在2024年已成立 创业者面临大量机会 [5] - 中美AI企业存在差异化发展路径 美国以B端创业为主 中国擅长C端市场 差异化竞争关键在于AI之外构建独特用户体验 [5]
图灵奖得主、王坚、韩歆毅、王兴兴等最新发声
中国基金报· 2025-09-11 11:10
人工智能发展趋势 - 人工智能进入以持续学习为核心的"经验时代" 潜力远超以往 [2] - 人类数据红利正逼近极限 超级人工智能将远超人类智力水平 [2] - 开源模型与闭源模型的选择成为AI竞争关键变量 [3][4] - 开放数据和计算资源是推动AI发展的必需环节 [4] 产业化与基础设施 - 大模型"规模定律"仍然有效 智能体与经济结构转型将重塑社会 [6] - AI驱动基础设施大规模扩张 OpenAI的Stargate和Musk的Colossus等项目耗电量巨大 [6] - 100万个GPU耗电量相当于北京市用电量的八分之一 [6] - 2025年美国主要科技公司AI相关资本开支预计超3000亿美元 [6] - IDC产业大规模建设带动电力生态和经济发展 [6] - 模型和GPU算力将成为未来组织的核心资产 [6] 技术突破方向 - 当前AI仅具静态知识存储能力 缺乏自我验证与自我纠错能力 [8] - 需将AI从"黑箱"系统转变为基于数学原理的"白箱"模型 [8] - 具身智能发展面临高质量数据和模型算法对齐的挑战 [14] - 视频生成与机器人控制模态对齐存在技术难题 [14] 行业应用落地 - AI医疗领域坚持人机结合发展路径 致力于解决数据/幻觉/伦理三大核心问题 [10][11] - AI无法替代医生 但可帮助专科医生拓展能力边界 支持MDT多学科会诊 [10] - 让名医专注科研和疑难杂症 基层医生获得AI助手支持 [11] - 创新创业门槛大幅降低 小组织在AI时代爆发力增强 [14] 市场表现数据 - 云计算50ETF(516630)近五日上涨10.13% 市盈率115.35倍 主力资金净流入469.6万元 [20] - 游戏ETF(159869)近五日上涨6.76% 市盈率44.91倍 主力资金净流出8712.1万元 [19] - 科创半导体ETF(588170)近五日上涨5.83% 主力资金净流入1050.9万元 [19] - 食品饮料ETF(515170)近五日上涨2.50% 市盈率21.51倍 主力资金净流出1069.6万元 [19]
把大模型送上天!王坚外滩大会分享:人工智能不能缺席太空
观察者网· 2025-09-11 08:11
AI开源模式变革 - 从代码开源演进为资源开放是AI时代的革命性变化 开放数据和计算资源成为推动AI发展的必需环节[1][3] - 开源模型与闭源模型的选择成为AI竞争关键变量 2025年开源成为行业分水岭[1][3] - 模型权重开放本质是数据与计算资源开放 可避免重复消耗计算资源[3] 太空计算新纪元 - 之江实验室成功发射12颗卫星组成"三体计算星座" 首次将完整8B参数大模型部署至太空[4] - 卫星星座实现太空任意位置数据实时处理 为深空探索奠定技术基础[4] - 人工智能将催生第四类"计算卫星" 太空资源开放共享成为未来方向[3][4] 行业技术突破 - 规模效应带来人工智能原理级进步 数据模型算力千倍万倍增长引发质变[3] - 通义千问与DeepSeek开源推动行业格局变化 改变原由美国公司主导的基础模型竞争态势[1] - 太空计算能力突破使火星探索成为可能 AI陪伴成为深空探索必备要素[4]
阿里云创始人王坚:开源与闭源模型的选择,已成为AI竞争关键变量
新浪科技· 2025-09-11 02:06
AI行业发展趋势 - 开源模型与闭源模型的选择成为AI竞争关键变量 [1] - 当前处于开源开放时代 模型权重的开放等同于数据资源和计算资源的开放 [1] - 仅开放软件的开源模式作用已非常有限 [1]
腾讯混元最新开源成“最强翻译”:国际机器翻译比赛获30个语种第一
量子位· 2025-09-03 05:49
国际翻译比赛表现 - 腾讯混元Hunyuan-MT-7B模型在ACL WMT2025比赛中获得31个语种中的30个第一名 处于绝对领先地位[4] - 该模型以7B总参数量击败了众多参数更大的模型 包括Gemini-2.5-Pro、GPT-4.1、Qwen3-235B等大型模型[4][5] - 比赛要求参数规模≤20B 且只能使用公开数据训练 在严格约束下取得优异成绩[5][29] 技术框架创新 - 采用协同增强策略优化(Shy)框架 包含基础模型开发和集成策略两大组成部分[15][19] - 基础模型开发通过持续预训练、监督微调和GRPO强化学习三阶段构建[16][17] - 集成策略采用学习型集成方法 通过生成多个候选翻译并训练专门模型进行智能选择或组合[18][26][27] 算法突破 - 首次在机器翻译领域应用GRPO(组相对策略优化)算法 采用组内相对优势替代全局基线[21][22] - GRPO算法显著降低梯度方差 提升训练稳定性 并提高样本效率加速模型收敛[23][24] - 采用复合奖励函数r=0.2×BLEU+0.4×XCOMET+0.4×DeepSeek 综合评估准确性、语义质量和流畅性[24] 模型性能优势 - 支持33个语种和5种民汉语言/方言互译 包括中文、英语、日语及捷克语、马拉地语等小语种[1][4] - 在Flores200测评数据集上表现卓越 明显领先同尺寸模型 与超大尺寸模型效果相当[6][8][9] - 在英语-简体中文翻译任务中AutoRank达到满分1.0 得分87.2 领先第二名Gemini-2.5-Pro的85.2分[5] 应用与部署优势 - 计算效率高 7B模型推理速度快 经FP8量化压缩后推理性能提升30%[30] - 部署友好 可在从高端服务器到边缘设备的多样化硬件环境中运行[30] - 已接入腾讯会议、企业微信、QQ浏览器、翻译君等多个业务产品[30] 开源生态建设 - 模型完全开源 基于Hunyuan-7B基础模型构建[2][31] - 使用OPUS Collection、ParaCrawl、UN Parallel Corpus等公开数据集训练[16][31] - 提供GitHub和HuggingFace等多个平台访问渠道 降低技术门槛[35] 行业方法论价值 - 为垂直领域专业化优化提供可借鉴模板 涵盖数据、算法、架构等多维度系统性设计[33][34] - 学习型集成方法实现从启发式到学习型的跃升 为模型融合提供新思路[26][34] - GRPO算法证明强化学习在序列生成任务中的潜力 具有行业推广价值[21][34]