Workflow
开源模型
icon
搜索文档
大模型首次直接理解代码图:不用Agent自动修bug,登顶SWE-Bench开源模型榜单
量子位· 2025-06-27 06:08
核心观点 - 蚂蚁开源的新模型CodeFuse-CGM在SWE-bench Lite上以44%的bug解决率超越所有开源方案,性能媲美闭源模型[1][2] - 该模型首创将仓库代码图模态(CGM)融入大语言模型,直接理解代码结构,显著提升跨文件修复和补全能力[12][14][16] - 完全基于开源模型实现,摆脱对GPT-4等闭源模型的依赖,提供更可控透明的解决方案[6][33] - 通过Graph-RAG框架将传统Agent方案的10个模块精简至4个,效率大幅提升[21][23][28] 技术突破 模型架构 - 采用图-语言多模态设计:图模态包含7种节点类型(函数/类/文件等)和依赖关系边,语言模态处理自然语言提示[14][16] - 创新性技术:节点token压缩(CodeT5+编码器)、512倍上下文扩展适配器、图感知注意力掩码实现GNN式消息传递[17] - 两阶段训练:子图重构预训练(Graph-to-Code任务)和噪声增强微调(10%噪声输入提升鲁棒性)[18][19][20] 性能表现 - SWE-bench Lite:44%解决率,超越最佳开源基线KGCompass 7.33个百分点[5][25] - SWE-bench Verified:50.4%解决率,较开源基线提升10.2%;Java项目提升4.4%至14.29%[26][29] - 代码补全任务:在ComplexCodeEval和CrossCodeEval跨文件场景显著领先同尺寸开源模型[30] 行业意义 - 首次证明开源模型可通过结构融合实现仓库级任务,打破闭源模型垄断[6][12][33] - 验证Graph-RAG框架替代复杂Agent的可行性,核心模块减少60%[21][23] - 技术全栈开源(论文/代码/权重/数据),适配CodeLlama/DeepSeek等多类基座模型[31][34] - 解决传统AI编程仅限函数级任务的局限,实现跨模块的"真正项目理解"[9][32]
苹果Meta狂抓AI,抢人并购
虎嗅· 2025-06-23 23:27
行业竞争格局 - AI领域三巨头微软、亚马逊和谷歌以及OpenAI、Anthropic、xAI等公司已形成领先优势,苹果与Meta面临边缘化风险 [2] - 谷歌基于Gemini模型巩固AI搜索业务地位,并进军AI短视频领域挑战TikTok,可能蚕食Meta的Reels广告市场 [7] - OpenAI正在开发AI硬件,可能成为继MacBook与iPhone后的"第三核心设备",直接威胁苹果生态 [11] 公司战略与困境 - 苹果在WWDC未展示实质性AI创新,端侧设备AI体验进展缓慢,30亿参数模型落后于华为、小米的70亿参数模型 [6][8] - Meta的Llama4开源模型未达预期,旗舰模型发布推迟且未成为行业基准测试首选 [7] - 两家公司均面临缺人、缺方向的困局,战略执行混乱导致人才流失 [12] 并购与人才争夺 - Meta以143亿美元收购Scale AI近半数股份,并试图整合SSI、Perplexity等估值超百亿美元的AI公司 [2][16] - 扎克伯格亲自参与顶尖人才招募,挖角DeepMind、OpenAI等团队核心成员 [15][18] - 苹果考虑收购Perplexity(140亿美元估值)或Mistral(60亿美元估值),但面临欧盟和微软的竞争阻碍 [19][21] 技术发展瓶颈 - 苹果纠结于AI技术是否符合其"完美"用户体验标准,担忧隐私与幻觉问题 [13] - Meta首席科学家Lecun质疑大型语言模型的发展方向,导致内部技术路线分歧 [14] - 两家公司在智能眼镜领域布局均受限于大模型能力不足,Meta暂聚焦拍照/语音交互 [10] 市场动态与财务动作 - 华为推出鸿蒙6操作系统及50+智能体框架,小米开源70亿参数多模态模型MiMo-VL [8] - 苹果去年股票回购达1100亿美元,今年计划回购1000亿美元,可能调整资金用于并购 [22] - 硅谷进入大模型时代第二波并购潮,继谷歌/亚马逊收编AI公司后,苹果与Meta加速布局 [23]
网易有道开源首个专注数学教育的模型
快讯· 2025-06-23 09:15
公司动态 - 网易有道正式开源"子曰3"系列大模型的数学模型 英文名称为Confucius3-Math [1] - 该模型是国内首个专注于数学教育的开源推理模型 [1] - 模型可在单块消费级GPU上高效运行 [1] 行业影响 - 开源数学教育大模型填补了国内该领域的技术空白 [1] - 消费级GPU适配特性降低了技术应用门槛 [1]
刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
机器之心· 2025-06-17 00:10
DeepSeek-R1(0528)模型升级与性能表现 - 核心观点:DeepSeek-R1(0528)在开源模型中表现突出,多项基准测试排名靠前,尤其在编程领域与闭源模型性能相当 [1][2][3][4] 模型升级与功能改进 - DeepSeek-R1(0528)为最新升级版本,改进基准测试性能,减少幻觉,支持JSON输出和函数调用 [3] - 模型及权重已公开,采用MIT开源协议 [2][8] LMArena基准测试排名 - 在文本基准测试(Text)中整体排名第6,开放模型中排名第一 [5] - 细分领域表现: - 硬提示词(Hard Prompt)排名第4 - 编程(Coding)排名第2 - 数学(Math)排名第5 - 创意性写作(Creative Writing)排名第6 - 指令遵循(Instruction Following)排名第9 - 更长查询(Longer Query)排名第8 - 多轮对话(Multi-Turn)排名第7 [6] WebDev Arena编程竞赛表现 - 与Gemini-2.5-Pro-Preview-06-05、Claude Opus 4(20250514)并列第一,分数超过Claude Opus 4 [7] - WebDev Arena评分: - Gemini-2.5-Pro-Preview-06-05:1433.16(±13.78/-16.08) - DeepSeek-R1(0528):1408.84(±16.75/-15.04) - Claude Opus 4(20250514):1405.51(±12.56/-12.44) [8] 行业影响与用户反馈 - DeepSeek-R1(0528)在AI编程领域与Claude Opus性能相当,被视为开源AI的关键里程碑 [10] - 模型在完全开放的MIT协议下提供领先性能,可能影响更广泛的编程领域 [10] - 实际用户体验仍需更多验证,以确认是否媲美闭源模型 [10]
互联网女王报告揭秘硅谷现状:AI指数级增长,中国厂商在开源竞争中领先 | 企服国际观察
钛媒体APP· 2025-06-11 02:33
人工智能发展速度 - ChatGPT仅用17个月突破8亿用户,远超互联网时代任何产品的增长速度 [3] - ChatGPT不到三个月达到1亿用户,截至今年4月每周用户量达8亿,每年处理超过3650亿次搜索 [8] - 人工智能相关职位空缺自2018年起增长448%,显示行业对人才的强劲需求 [19] 技术成本与效率 - 模型训练成本高达10亿美元,但推理成本在两年内下降99%(按每百万token计算) [4] - 2022年至2024年期间,运行大语言模型的每个token成本下降99.7% [17] - 英伟达2024年Blackwell GPU的单位功耗较2014年Kepler GPU降低10.5万倍 [4][14] 开源与闭源模型竞争 - 闭源模型(如GPT-4、Claude)性能卓越但缺乏透明度,受企业和政府机构青睐 [6] - 开源模型(如Llama、Mixtral)低成本且功能增强,推动主权AI和本地语言模型发展 [10][13] - 中国在开源竞赛中领先,2025年将发布DeepSeek-R1、阿里巴巴Qwen-32B和百度Ernie 4.5 [12] 市场与应用 - 印度成为AI平台重要市场,贡献ChatGPT移动应用用户的13.5%,超过美国的8.9% [10] - AI应用拓展至汽车驾驶、工厂机器人、医疗保健等领域,成为职业"副驾驶" [18] - 行业从垂直SaaS转向横向整合,如微软集成Copilot、Zoom和Canva融入生成式AI [21] 基础设施与投资 - 云端芯片(谷歌TPU、亚马逊Trainium)规模化开发推动AI基础设施快速迭代 [7] - 风险投资加速流入AI领域,但企业与云服务商仍需高额基础设施投入 [7] - 全球范围内针对芯片、数据中心的争夺战激烈,堪比冷战时期太空竞赛 [21]
DeepSeekR2发布预期升温,英伟达有望研发全新中国特供芯片
华西证券· 2025-06-08 13:05
报告行业投资评级 - 行业评级为推荐 [4] 报告的核心观点 - DeepSeek发布R1更新,R2模型发布预期升温,R1更新展现其在开源模型领域的持续创新能力,为R2模型发布奠定基础,推测R2可能具备更大上下文窗口和原生多模态功能 [2][24] - 英伟达正在研发全新中国特供芯片B30,这是其在美国出口管制下的折中方案,反映出对中国人工智能市场的高度重视 [3][25] - 外部贸易争端不确定性上升,扩大内需重要性凸显,科技创新与自主可控是中长期发展关键方向,维持对中国科技龙头的谨慎看好态度,关注中概股回流港股进度,建议关注港股互联网龙头、游戏行业、电影及文旅产业的投资机会 [3][26] 根据相关目录分别进行总结 本周市场行情 - 2025年第22周(2025.6.3 - 2025.6.6),上证指数上涨1.13%,沪深300指数上涨0.88%,创业板指数上涨2.32%,恒生指数上涨2.16%,恒生互联网指数上涨3.46%,行业领先恒生指数1.3pct,SW传媒指数上涨2.59%,领先创业板指数0.27pct,在申万一级31个行业涨跌幅排名中位列第6位 [1][12] - 子行业中影视、互联网服务和广电位列涨幅前三,分别上涨12.91%、3.94%和3.29% [1][12] - 本周传媒行业个股涨幅前5为歌华有线、湖北广电、新迅达、*ST大晟和巨人网络;跌幅前5为蓝色光标、时代出版、元隆雅图、广博股份和广西广电 [17][18] - 恒生资讯科技业在十二个恒生综合行业涨跌幅排名中位列第12位 [18] 行业新闻 宏观动态 - 6月2日,数字货币概念港股活跃,连连数字等领涨,中国香港特别行政区政府5月30日《稳定币条例》正式生效,完善数字资产监管框架,将为稳定币相关产业链公司带来机遇 [28] 游戏行业新闻 - 莉莉丝研发的《远光84》今年4月开启CBT2测试,投入10亿打造,成绩走高,项目组升级底层动画方案,实现“左右手分离的动作系统” [29][30] - 6月5日,快手旗下可灵AI与网易《逆水寒》达成深度合作,将AI视频生成技术内置于游戏提升社交玩法 [32] - 6月5日,腾讯游戏打造“VISVISE”游戏创作AI全链路解决方案业务,此前发布混元游戏视觉生成平台 [32] - 6月6日,腾讯手游《无畏契约:源能行动》上架苹果App Store,预计11月25日推出,全网预约人数冲破2000万 [33] - 任天堂Switch 2上市售罄,由英伟达定制芯片驱动,图形处理性能是一代的10倍,任天堂预计到2026年3月售出1500万台,分析师预计可达1700万台 [34] 人工智能行业新闻 - 6月4日,OpenAI对ChatGPT进行重大更新,推出会议记录模式,支持MCP协议,旨在打造智能协作平台 [35][36] - 6月5日,高通CEO表示公司已做好与苹果“分手”准备,双方授权协议2027年到期,高通预计逐步退出苹果供应链 [36] - 6月6日,亚马逊采用DeepSeek、阿里通义千问等开源大语言模型进行机器人操控,组建团队推进“物理AI”研发 [37] 影视及视频行业新闻 - 截至6月2日12时47分,2025年端午档档期票房破4亿元,大幅超去年同期 [38] - 6月2日消息,爱奇艺自6月1日起限时大幅下调虚拟制作系统使用价格,最低降至3.5万元/天,旨在降低使用门槛 [38] - 红果短剧发布“掘金计划”,投入数亿元扶持“拉新好剧”,已有20余家合作方获百万额外激励,还对剧本创作者设立扶持活动 [39] 互联网行业新闻 - 本周一,300多名微软员工被裁员,此次是继上月6000人裁员计划后的又一次裁员 [40] - 6月3日,雷军表示小米汽车业务2025年三四季度将盈利,小米YU7售价不是网传的23.59万元,小米反内卷“不打价格战”,将做汽车芯片,机器人领域投资研发已有成果 [40] - 近期小红书估值飙升至260亿美元,通过金沙江创投旗下股份交易文件曝光 [40] - 6月5日,美团副总裁透露2025年旅游业迈入AI时代,美团计划发布国内首个B端AI工具,6月推出AI旅行助手 [41] - 6月5日,京东618上线京东五金城主推日,单日成交金额同比增长161%,成交用户数同比增长87% [43] 文旅行业新闻 - 端午假期,上海线上线下消费近200亿元,同比增长4.1%,离境退税销售额和退税额同比增长约1.1倍,家电家居和3C产品以旧换新带动销售额增长 [44] - 携程报告显示,2025年端午假期出入境游双向火热,入境游订单涨幅近九成,入境游门票GMV同比暴涨1.5倍 [45] 子行业数据 电影行业 - 本周票房排名前三的电影为《碟中谍:最终清算》(9516.5万元,票房占比44.7%)、《时间之子》(3268万元,票房占比15.3%)、《哆啦A梦:大雄的绘画奇遇记》(1958.7万元,票房占比9.2%) [47] 游戏行业 - iOS游戏畅销榜排名前五为《王者荣耀》《和平精英》《绝区零》《金铲铲之战》《向僵尸开炮》;安卓游戏热玩榜排名前五为《心动小镇》《杖剑传说》《我的休闲时光》《崩坏:星穹轨道》《王者荣耀》 [48][50] 影视剧集行业 - 综合播映指数,《藏海传》《折腰》《陷入我们的热恋》位列播映指数榜前三,艺恩播映指数分别为84.4、81.8和78.1 [53][54] 综艺及动漫 - 综合艺恩播映指数,综艺排名前三为《哈哈哈哈哈第五季》《奔跑吧第九季》《无限超越班第三季》 [55] - 本周动漫播放量指数排名前三为《沧元图之斩妖除魔》及同系列七部(播放量指数348)、《仙逆》(播放量指数246.8)、《遮天》(播放量指数202) [56]
最新必读,互联网女皇340页AI报告解读:AI岗位暴涨,这些职业面临最大危机
36氪· 2025-06-03 13:32
AI行业趋势 - ChatGPT仅用2个月达到1亿用户,17个月后月活增至8亿,订阅用户超2000万,年营收近40亿美元,成为商业化速度最快的AI产品[5][6] - 2024年AI相关资本支出达2120亿美元,同比增长63%,为十年内最高[6][11] - AI模型训练成本8年内暴涨2400倍,单个模型训练成本可能在2025年达10亿美元,未来或突破100亿美元[6][20] - 开源模型如DeepSeek、Qwen等在推理和编程能力上已逼近顶级闭源模型[36][37] 基础设施投资 - 苹果、英伟达、微软、Google、亚马逊、Meta等科技巨头2024年AI相关资本支出达2120亿美元[11] - 英伟达占据数据中心投资预算的25%,成为AI浪潮最大受益者[12] - 英伟达GPU推理单个Token能耗10年间下降约105000倍,有利于规模化部署[27] 技术发展 - AI在图灵测试中表现超越人类,GPT-4.5被73%测试者误认为人类[43][46] - Midjourney图像生成质量从v1到v7显著提升,达到商品级水平[50] - ElevenLabs语音克隆技术月访问量从0飙升至2000万,音色克隆+实时翻译趋近商用级别[57] 应用场景 - Waymo自动驾驶出租车在旧金山市场份额已达1/3[59] - AI相关岗位2018-2025年增长448%,传统IT岗位需求下降9%[67][69] - AI Agent成为新型数字劳动力,能执行多步骤任务如在线购物、界面导航等[72][74] 区域发展 - 美国发布超100个训练计算量超10²³ FLOPs的大语言模型,中国紧随其后不断缩小差距[40] - ChatGPT北美之外用户普及率超90%,呈现全球同步爆发特征[9]
黄仁勋谈中美AI竞争:中国的Deepseek和千问是开源模型中最好的
快讯· 2025-05-30 11:47
开源AI模型竞争 - 英伟达CEO黄仁勋评价中国开源AI模型DeepSeek和阿里通义千问(Qwen)是目前最好的开源AI模型 [1] - 这两款开源AI模型在免费发布后获得了美国、欧洲及其他地区的巨大关注 [1] - 黄仁勋认为赢得AI开发者的平台将最终赢得AI领域的竞争 [1] AI人才与政策影响 - 黄仁勋指出出口限制政策应该加强美国平台而非将全球一半AI人才推向竞争对手 [1]
美国法院叫停特朗普大部分进口关税;特斯拉股东们的愿望实现了:马斯克离开DOGE丨百亿美元公司动向
晚点LatePost· 2025-05-30 11:08
美国法院叫停特朗普大部分进口关税 - 美国法院判定特朗普政府绕过国会加征10%基准关税和更高对等关税的行为越权,要求行政部门在10日内撤回相关关税 [1] - 法官认为《国际紧急经济权力法》不赋予总统无限关税权力,相关解读违宪 [1] - 汽车关税等基于其他法案加征的关税不受影响,特朗普政府已上诉 [1] 高盛对关税裁定的分析 - 高盛分析师认为裁定增加了特朗普政府关税计划的不确定性,但可能不会改变主要贸易伙伴的最终结果 [2] 马斯克离任及特斯拉动态 - 马斯克宣布离开特朗普政府,不再担任特别政府雇员 [3] - 特斯拉计划6月交付自动驾驶版Model Y,比原计划提前一个月 [4] - 特斯拉在奥斯汀公共街道测试自动驾驶版Model Y期间未发生事故 [4] LVMH中国市场表现 - LVMH高管表示中国顾客更青睐本土珠宝品牌,未指明具体品牌 [5] - 除日本外的亚洲市场一季度可比收入同比收缩11%,二季度预计难改善 [5] - LVMH葡萄酒和烈酒部门产品售价不会继续提高 [5] 国内航线燃油附加费调整 - 6月5日起800公里以下航线免征燃油附加费,800公里以上收取10元,较4月下调10元 [6] - 4月航空煤油价格较3月下跌约4% [6] - 一季度民航客座率恢复至疫情前水平,但航司利润同比下滑 [6] DeepSeek开源新版R1 - DeepSeek开源R1最新0528版本,性能媲美OpenAI o3模型高版本 [7] - 新版R1风格与OpenAI o3模型相似 [7] 英伟达一季度业绩 - 一季度营收441亿美元,净利润188亿美元,环比下降15% [8] - 数据中心业务营收391亿美元,环比增长10% [8] - 因出口管制导致H20芯片需求减少,产生45亿美元费用 [8] 理想汽车一季度业绩 - 一季度营收259亿元,同比增长1.1%,净利润6.47亿元,同比增长9.4% [9] - 一季度交付量9.28万辆,上年同期为8万辆 [9] - 预计二季度营收325~338亿元,不及市场预期 [9] 锂电池原材料价格 - 碳酸锂期货主力合约跌破6万元/吨,最低至5.95万元/吨 [10] - 2022年初碳酸锂价格曾从20万元/吨涨至60万元/吨,三年内跌去90% [10] 中美集装箱运输需求激增 - 中美互降关税导致商家加足马力发货,上海港美线出口装箱量环比增长49.4% [12] - 上海港此前停航的美线班轮已全部恢复,6月上旬亚洲到美国运力预计恢复至100% [12]
模型下载量12亿,核心团队却几近瓦解:算力分配不均、利润压垮创新?
猿大侠· 2025-05-30 03:59
Meta AI团队重组 - Meta将AI团队重组为两个部门:由Connor Hayes领导的AI产品团队(专注消费者产品如Facebook/Instagram/WhatsApp的AI功能)和由Ahmad Al-Dahle与Amir Frenkel共同领导的AGI基础部门(专注Llama模型等宏观技术)[2] - FAIR研究部门保持独立但多媒体团队并入AGI基础团队 重组不涉及高管离职或裁员 目的是通过拆分大组织加速产品开发并提升技术领导力灵活性[3] - 首席产品官Chris Cox强调新架构赋予团队更多自主权 同时减少跨团队依赖[3] 人才流失危机 - Llama原始论文14位作者中11人离职 包括核心架构师Guillaume Lample和Timothée Lacroix(创立竞争对手Mistral AI 估值60亿美元)[7][16] - FAIR前负责人Joelle Pineau离职 继任者Robert Fergus曾离开Meta加入DeepMind五年[8][10] - 离职研究人员平均任职超五年 非短期聘用 部分加入苹果等公司或创立竞品[23] Llama模型发展困境 - Llama 4发布后遭批评 被指性能指标虚高且落后于DeepSeek/Qwen等开源竞争对手[8][13] - 原FAIR团队开发的Llama 1/2推动开源LLM浪潮 但Llama 4改由GenAI产品部门主导 FAIR被边缘化[15][16] - Meta推迟史上最大AI模型Behemoth发布 内部对其性能和领导力存在担忧[8] FAIR实验室地位变化 - FAIR曾为Meta AI研发核心 2022年并入Reality Labs元宇宙部门引发人才流失 2024年又与GenAI合并进一步削弱独立性[14][16] - 前员工指出FAIR计算资源少于GenAI团队 探索性研究被产品导向项目取代[17][21] - 扎克伯格战略转向生成式AI商业化 FAIR从"皇冠明珠"沦为"缓慢死亡"状态[20][21] 行业竞争与投入 - Meta推出"Llama for Startups"计划 并在LlamaCon活动展示与OpenAI竞争实力[3] - 2025年计划投入650亿美元于AI项目 部署1.3万块NVIDIA H100 GPU 新建2GW数据中心[22] - 但缺乏专用推理模型 落后于谷歌/OpenAI在多步复杂任务处理能力[22] 开源生态影响 - Llama 1/2使用公开数据训练 优化效率使单GPU可运行 曾推动开源LLM合法化对抗GPT-3/PaLM等专有系统[11] - 人才流失导致Meta在开源创新领域领先优势下滑 Mistral等竞品加速发展[7][10]