Workflow
NoCode
icon
搜索文档
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
猿大侠· 2025-09-02 04:20
模型性能表现 - 在Agent工具调用和指令遵循等基准测试中超过DeepSeek-V3.1、Qwen3 MoE-2507及Claude4 Sonnet [3] - 编程能力与Claude4 Sonnet相当 在TerminalBench测试中表现突出 [5] - 总参数量560B 激活参数动态范围为18.6B–31.3B 低于DeepSeek-V3.1(671B/A37B)和Kimi-K2(1T/A32B) [12][13] - 在数学题测试中解答完全正确 包括全国一卷圆锥曲线问题及复杂坐标计算 [22][23][24][26][32][33][35][36][39][42][46][47][50][51] - 成功绘制生物学卡尔文循环SVG示意图 展现多模态代码生成能力 [53][54] - 准确解答迷惑性量子力学问题 识别"薛定谔的死猫"陷阱并指出与原版实验区别 [58][59][61][62][63][64][65] 技术创新架构 - 采用Zero-computation Experts与Shortcut-connected MoE双重架构 通过恒等专家映射实现动态计算分配 [13][16] - 使用新路由架构优化专家模型调用 通过MoE与密集层通信重叠执行提升效率 [14] - 引入设备级负载均衡损失和PID控制器调节路由概率 避免序列级失衡 [16] - 规模化训练采用超参数迁移+模型生长初始化策略 用14层模型堆叠成28层加速收敛 [17] - 预训练使用20T token语料 中期扩展上下文窗口至128k 后期通过多Agent合成框架进行高难度工具使用训练 [17] - 推理阶段实现多步重叠调度器 使CPU调度与GPU计算交错 单张H800 GPU生成速度超过100 tokens/s [17][20] 训练效率与成本 - 在30天内完成20T token预训练 使用上万个加速卡且训练可用率达98.48% [20] - 输出成本约为0.7美元/百万token 在560B参数规模下实现高效推理 [20] - 相比同级模型在不同上下文长度下均实现更高单GPU吞吐和单用户速度 [20] 公司AI战略布局 - 2023年通过收购光年之外团队强化大模型研发能力 王慧文以顾问身份回归后领导GN06独立AI团队 [74][76][77] - 2024年明确"主动进攻"AI战略 推出AI编程应用NoCode和代码助手CatPaw 内部AI工具调用量从10%提升至68% [81][82][85] - 2024年研发投入211亿元 规模居国内第四 过去5年累计投入超1000亿元 [83] - 三层战略架构包括AI提升员工效率(AI at Work)、产品AI化(AI in Products)和自研大模型(Building LLM) [89] - 早期布局具身智能领域 投资宇树、星海图、银河通用等头部公司 [88] - AI应用覆盖情感陪伴(Wow)、图像生成(妙刷)、餐饮推荐(问小袋)、交互问答(米鲁)等多场景 [75][78][84]
冲上热搜!美团大模型,靠「快」火了
机器之心· 2025-09-02 03:44
文章核心观点 - AI行业正从单纯追求模型性能转向注重实用性和效率 重点关注如何在保证准确性的前提下降低算力消耗和提升响应速度[1] - 美团开源的LongCat-Flash模型通过架构创新和系统优化 实现了高速推理和低成本部署 成为实用化AI的代表作[5][42][64] 模型性能表现 - 在H800显卡上推理速度超过每秒100个token 实测达到95 tokens/s[6] - 在多项测试中达到与Claude 4 Sonnet(7.40分)和DeepSeek v3.1(6.30分)相媲美的7.70分性能[8] - 每百万输出token成本仅为0.7美元 相比同类模型具有显著成本优势[15][42] 技术架构创新 - 采用混合专家模型架构 总参数量5600亿 仅激活186亿至313亿参数(平均270亿)[12] - 引入零计算专家机制 根据token重要性动态分配计算资源 减少简单token的计算浪费[19][21] - 创新快捷连接MoE(ScMoE)架构 实现通信与计算并行 降低50%的理论输出token时间[28][34] - 采用64头注意力机制(MLA) 显著减少KV缓存需求并实现压缩[47] 训练效率与稳定性 - 使用超过20万亿token训练数据 训练时间不足30天 系统可用率达98.48%[12] - 开发高效的模型扩展策略 包括超参数迁移和模型增长初始化方法[33][35] - 实施多层次稳定性套件 确保训练过程无不可恢复的损失骤增[37][39] 系统优化技术 - 设计单批次重叠(SBO)调度策略 实现四阶段流水线执行[44][45] - 采用推测解码加速技术 达到约90%的接受率[47] - 实施TV融合策略和重叠调度器 最小化内核启动开销[48] - 应用细粒度块级量化方案 优化性能-准确率权衡[50] 实际应用表现 - 首token输出延迟极低 用户体验显著改善[58] - 在智能体应用中实现单轮工具调用延迟控制在1秒以内[53] - 联网搜索功能响应迅速 并能附带引用来源确保信息可信度[61] 行业意义 - 代表AI行业从性能竞赛向实用导向转变的趋势[64] - 为预算有限的开发者和企业提供了可参考的技术路径[65] - 美团的技術投入一贯聚焦真实业务痛点 此次开源延续了其实用化技术路线[65]
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
量子位· 2025-09-01 04:39
模型性能表现 - 在Agent工具调用和指令遵循方面超越DeepSeek-V3.1、Qwen3 MoE-2507及Claude4 Sonnet [3] - 编程能力与Claude4 Sonnet相当 在TerminalBench基准测试中表现突出 [5] - 数学推理能力全面正确 成功解答全国一卷数学题并完整展示推导过程 [21][22][23][25][32][34][35][36][38][42][44][45][48][50] - 综合能力测试表现优异 可生成生物学卡尔文循环的SVG矢量图形代码 [51][52] - 具备强抗干扰能力 在Misguided Attention基准测试中准确识别"薛定谔死猫"问题的逻辑陷阱 [56][58][60][61][62][63] 技术创新架构 - 采用560B参数的MoE架构 结合"零计算专家"与Shortcut-connected MoE双重设计 [12] - 动态激活18.6B–31.3B参数 总参数量和激活参数量均低于DeepSeek-V3.1(671B/A37B)和Kimi-K2(1T/A32B) [11][12] - 通过零计算专家实现恒等映射 完全避免GEMM运算 配合PID控制器调节路由概率 [13][15] - 采用超参数迁移+模型生长初始化策略 用14层模型堆叠成28层checkpoint加速收敛 [16] - 实现多步重叠调度器 使CPU调度与GPU计算交错 单张H800GPU生成速度超过100 tokens/s [16][19] 训练效率与成本 - 在30天内完成20T token预训练 训练可用率达98.48% [19] - 成本控制显著 每百万输出token成本约0.7美元 [19] - 使用两阶段融合20T token语料预训练 中期扩展上下文窗口至128k [16] 公司AI战略布局 - 2023年通过收购光年之外团队切入大模型领域 2024年王慧文回归领导GN06独立AI团队 [73][75][76] - 2024年研发投入达211亿元 规模居国内第四 过去5年累计投入超1000亿元 [81] - 形成三层AI战略架构:AI工具提升10万员工效率、AI改造现有产品、自研大模型 [87] - 推出多款AI应用包括Wow情感陪伴、妙刷图像生成、NoCode编程及CatPaw开发者工具 [74][77][83] - 早期投资宇树、星海图等具身智能公司 2019年启动无人车配送项目 [71][86]
美团发布并开源LongCat-Flash-Chat
北京商报· 2025-09-01 03:59
公司AI技术发布 - 美团于9月1日正式发布并开源LongCat-Flash-Chat模型 在Github和Hugging Face平台提供访问 [1] - LongCat-Flash采用混合专家模型架构 总参数量达560B 激活参数范围18.6B-31.3B 平均27B [1] 公司AI产品布局 - 2025年以来公司推出多款AI应用 包括AI编程工具NoCode AI经营决策助手袋鼠参谋 酒店经营垂类AI Agent美团既白 [1] - 公司AI战略建立在三个层面:AI at work AI in products 以及Building LLM [1] 公司技术战略进展 - 此次模型开源是Building LLM战略进展的首次公开披露 [1]
Perplexity疯砸345亿抢谷歌;AI Agent接管中小企业生意链条?;AGI的4层突破与3大难关 |混沌AI一周焦点
混沌学园· 2025-08-15 12:07
本周核心趋势 - Perplexity提出345亿美元收购谷歌Chrome浏览器 目标挑战谷歌入口霸权 借舆论杠杆抢占用户心智 [3][12] - 阿里Accio Agent实现中小企业商业流程全链条自动化 覆盖市场调研至销售环节 突破人力瓶颈 [4][13] - 英伟达Cosmos世界模型升级机器人推理与决策能力 Jetson Thor芯片推动零售/医疗等行业智能化重塑 [5][16][17] - 美团NoCode与百度秒哒推动零代码开发革命 软件业转向全民参与 百度秒哒4个月创建20万应用 [6][25][29] AI盛典与行业活动 - 中央广播电视总台《2025中国·AI盛典》展示人机共舞/格斗/合奏等表演 涵盖智元A2/傅利叶GR-2等机器人 [7] - WAIC大会评选10位"年度AI人物" 无问芯穹夏立雪与DeepSeek分获人物与创新应用奖项 [8] - 世界机器人大会汇聚200+企业 宇树G1/京东物流机器人等展示商业化落地成果 [22][24] 企业动态与技术突破 - Perplexity以180亿估值发起345亿Chrome收购 获风投支持承诺保持开源 但交易可行性低 [12] - 英伟达向银河通用交付首批Jetson Thor芯片 加速中国具身智能商业化 已落地100+无人药房 [17] - 百川开源Baichuan-M2-32B医疗模型在HealthBench超越多数开源模型 支持RTX 4090单卡部署 [18][22] - xAI宣布Grok 4永久免费 提供Auto/Expert双模式 直接挑战OpenAI付费模式 [21] 技术演进与商业化 - 商汤林达华提出AGI四层突破框架:感知/认知/推理/行动 需克服数据/算力/泛化挑战 [15][19] - 美团NoCode实现1秒生成200行代码 内部50%新代码由AI生成 推理速度达2000 tokens/s [20][23] - 百度秒哒整合LUI+GUI与多智能体架构 调用100+生态工具 月均增速300%碾压行业 [25][29]
半年研发、1周上线,1秒200行代码爆发?美团研发负责人:靠小团队奇袭,模型和工程能力突破是核心
AI前线· 2025-08-09 05:32
美团NoCode AI编程工具核心观点 - AI编程工具正重塑软件开发 目标直指"开发民主化" 从代码补全助手升级为理解需求 生成框架 参与设计的"协作者" [2] - 美团推出首款AI Coding Agent产品NoCode 定位非技术用户 支持自然语言生成交互式App 与App构建器存在本质差异 [2][5][6] - 底层采用自研7B Apply专用模型 实现2000 tokens/s推理速度 通过小尺寸模型针对性优化平衡性能与效果 [4] - 当前50%新代码由AI生成 衡量指标聚焦AI增量代码占比与采纳率 开发者角色转向"调度员"指导AI完成编码 [10] - 产品矩阵包含NoCode与CatPaw 前者服务非技术用户 后者定位专业开发者 技术架构将逐步协同但暂不合并 [9][11] 技术实现与优化 - 模型工程层面优化算法 解决大模型吞吐速度瓶颈 7B模型实现1秒生成200行代码的高效输出 [4] - 上下文工程技术成为关键 优化Index效果与速度 集成云infra与自动化流程 提升输出稳定性 [8] - 支持多轮交互开发 用户对话轮数达几十至几百轮 通过精准diff与局部代码生成持续迭代 [7] - 解决"最后一公里"问题 已适配数据库存储与数据分析场景 未来扩展多技术栈与后台能力 [8] 产品定位与用户策略 - 目标用户为持续学习的非技术群体 但专业开发者占比达30% 产品设计强调创造力与想象力 [6][7] - 应对"氛围编程"质疑 通过rules/prompt规范组件版本 结合RL/SFT提升软件工程理解能力 [7] - 与Copilot对标产品CatPaw形成互补 后者具备更强ReAct能力 专有模型与复杂IDE开发链路 [9] - 商业化暂非重点 当前聚焦技术突破与用户体验 未来可能采用成本下降后的平衡模式 [12] 行业竞争格局 - 判断Cursor等工具将向NoCode方向延伸 但差异化仍存 竞争焦点转向remote agent架构 [11] - 行业面临生成代码冗余与维护挑战 但认为随着Agent演进会自然解决 管理AI比要求人类更容易 [6][10]
AI Coding产品井喷,但属于创业者的机会正在关闭
36氪· 2025-07-23 10:22
AI Coding行业现状 - AI Coding是大模型技术浪潮中最先验证PMF的应用,也是继基础模型之后第一个既有收入模式又足够大的市场[1] - 编程语言结构严谨、语义可预测,是大语言模型最适配的场景之一,被视为降本增效的重要方向[2] - 行业进入加速期,国内外大厂和创业公司密集发布产品,如字节TRAE 2.0、腾讯CodeBuddy IDE、阿里Qwen3-Coder等[1][3][6] - 海外市场活跃,Cursor完成9亿美元融资(估值100亿美元),谷歌24亿美元收购Windsurf,AWS推出kiro工具[2] 技术发展与产品形态 - 底层大模型(GPT/Gemini/Claude/Qwen等)能力进步催生垂直场景AI Agent[2] - 产品形态分为三类:专业开发者工具(Cursor)、新手友好型(Windsurf)、全自动工程师(Devin)[9] - 字节TRAE 2.0的SOLO模式实现需求输入到交付全流程自动化,覆盖规划/编码/测试/部署[3][4][5] - 腾讯CodeBuddy IDE集成计划/设计/编码三模式,深度结合小程序生态和腾讯云托管[6][8] 市场竞争格局 - 国内大厂路径清晰:百度文心快码对标Cursor,字节TRAE对标Windsurf,美团NoCode主攻公民开发者[10] - 海外产品差异化:Cursor专注代码库解析,Windsurf强调可视化,Devin定位为全功能AI工程师[9] - 初创公司面临巨头挤压,需依靠技术壁垒(如Windsurf被谷歌收购)或垂直能力突围[14] 行业挑战与趋势 - AI Coding工具本质是SaaS,面临定价天花板、用户留存难、转化率低等典型问题[11] - 技术演进导致先发优势脆弱,巨头可通过资源投入快速赶超初创公司[13] - 开发者角色转变:从编码执行转向需求拆解/架构设计,90%腾讯开发岗已使用CodeBuddy[15] - 团队结构优化倾向全栈工程师,重点考察技术视野和架构能力[15] 产品功能创新 - TRAE 2.0实现自然语言需求自动拆解与执行,例如密码重置邮件功能全流程自动化[4] - CodeBuddy IDE突破传统IDE限制,集成Figma设计转代码能力解决前端开发痛点[8] - 行业进入AI结对编程阶段(介于辅助编程与自驱编程之间),如Cursor Composer等产品[11]
AI编程“真相”:硬核测试全部0分,AI写代码到底行不行?| 深度
钛媒体APP· 2025-06-27 08:47
AI编程能力现状 - 国际算法奥赛金牌团队测试显示,GPT-4o、DeepSeek R1、Claude 3等20个顶级大模型在高难度编程赛题通过率为0%,脱离网络训练数据后表现远低于预期 [2] - 程序员群体对AI编程工具逐渐祛魅,实际应用中面临数据合规、工具实用性、业务知识翻译等痛点,性价比受质疑 [3] - 行业共识认为AI无法取代人类程序员,但正在重塑开发者角色定位,工具普及仍受信任度和产品成熟度制约 [4] 商业化与市场动态 - 高盛为1.2万名开发人员购买GitHub Copilot年度订阅花费数百万美元,微软被迫调整定价策略应对竞争 [5] - 海外市场进入激烈竞争阶段,Cursor年收入突破5亿美元,Anthropic与Windsurf展开模型访问权争夺 [17] - 国内市场竞争相对缓和,头部云厂商和大模型公司布局产品,初创企业YouWare获2000万美元融资估值8000万美元 [18] 安全与合规挑战 - GitHub Copilot因训练数据合法性陷入诉讼,生成代码被指存在开源协议违规和安全漏洞 [7] - Lovable软件漏洞导致用户信息泄露,暴露AI编程产品普遍存在的安全隐患 [7] - 企业采取严格审核措施,Amplitude要求所有AI生成代码必须人工审核,并倾向使用自托管模型 [8][9] 企业应用实践 - 字节跳动80%工程师使用自研TRAE工具,6月起禁用Cursor等第三方AI编程软件防范数据泄露 [10] - 美团推出自研工具NoCode集成千亿参数模型LongCat,非技术人员已能通过对话构建完整系统 [10][13] - 蔚来汽车从GitHub Copilot切换至阿里云通义灵码,核心考量是代码安全与数据跨境风险 [11] 技术发展与行业趋势 - 基础模型能力提升被视为AI编程进步关键因素,预计2027年前实现端到端自动化开发 [16] - 腾讯云指出当前瓶颈在于指令感知精度、复杂工程理解能力和协作工具割裂 [15] - 国产工具在数据安全、性价比和IDE生态方面显现优势,但需提升模型能力和产品迭代速度 [19] 开发者适应与转型 - 微软推动工程师转型为"AI提示工程师",通过监测工具追踪Copilot生成代码量 [11][12] - 银行业面临设计文档数据不足、开发人员接受度和业务场景差异等AI落地障碍 [12] - 优秀程序员仍需对AI生成代码进行架构把关,确保满足企业迭代和维护需求 [14]
AI替代程序员?一项最新测试的结果恰恰相反 | 企服国际观察
钛媒体APP· 2025-06-25 05:54
AI编程技术现状 - 当前顶级大模型(包括GPT-4o、DeepSeek R1、Claude 3等20个)在编程竞赛类问题中表现有限,中等难度问题通过率仅53%,高难度问题通过率为0% [3][4] - 模型优势集中在知识密集型任务(如组合数学、线段树、动态规划),但在需要观察力、创造力或复杂算法推理的观察密集型任务中表现显著落后于人类专家 [4][7] - 失败主因是概念错误和高级推理能力不足,即使增加尝试次数仍难以解决高难度问题 [5][7] 行业竞争格局 - 国际科技巨头(微软、OpenAI、谷歌)聚焦智能体和复杂任务处理,如GitHub Copilot、Codex智能体、Gemini 2.5 Pro等 [6] - 国内厂商(字节跳动、美团)侧重本土化适配和快速开发工具,推出MarsCode一站式平台、NoCode等产品 [6] - AI编程工具已覆盖代码补全、生成、错误修复及自主任务执行等核心功能,支持主流开发环境 [6] 技术应用边界 - AI当前主要替代知识密集型编程场景(如标准化代码生成),但无法替代需创造性解决复杂问题的人类程序员 [7] - 模型性能提升依赖实现精度和工具增强,而非本质推理能力突破,距离通用人工智能仍有显著差距 [4][7] - 行业共识认为大模型优势场景仍局限在知识密集型领域,非结构化问题仍需人类专家介入 [7]
火山引擎发布豆包1.6大模型;仓储物流机器人公司极智嘉获IPO备案 | 一周未来商业
每日经济新闻· 2025-06-15 23:17
电商新零售 - 罗永浩数字人在百度电商开启直播首秀,成为首位用数字人直播带货的头部主播,合作基于百度高说服力数字人技术突破 [1] - "AI+头部IP"模式被视为直播电商行业向智能化、高效率、低成本方向进化的新范式 [1] - 转转集团旗下首家二手多品类循环仓店"超级转转"开业,占地面积超3000平方米,涵盖箱包、鞋服、首饰腕表等多品类,是国内首家此类门店 [4] 科技与AI - 美团发布首款AI编程工具NoCode,支持通过自然语言交互自动完成编码任务,定位中小商户与运营人员需求 [8] - 硅基流动完成数亿元A轮融资,由阿里云领投,其大模型云服务平台SiliconCloud总用户数突破600万,企业客户达数千家,日均Tokens生成量上千亿 [9] - 火山引擎发布豆包1.6大模型,支持256k长上下文,日均Tokens使用量达16.4万亿 [12] 物流与供应链 - 仓储机器人公司极智嘉获IPO备案,拟港交所上市,2023年营收21.43亿元,但三年累计亏损超37亿元 [5][6] - 京东物流为抖音即时零售推出冷链共享仓,提供更晚截单时间、更广仓网布局等五大核心价值,解决生鲜行业物流痛点 [7] 企业动态 - 阿里离职员工发万字长文分析公司问题,马云回应称阿里在变化中成长 [2] - 李国庆宣布与俞渝财产分割达成最终和解,并透露将布局AI应用领域 [3] - 亚马逊计划2025-2029年在澳大利亚投资200亿澳元扩建数据中心基础设施,以支持云计算和AI需求增长 [10][11]