Workflow
AI前线
icon
搜索文档
代码生成要变天了?被质疑架空后,Yann LeCun携320亿参数开源世界模型“杀回来了”
AI前线· 2025-09-25 08:04
代码世界模型技术突破 - Meta FAIR CodeGen研究团队发布全球首个代码世界模型,该模型拥有320亿参数,是密集解码器自回归开放权重大语言模型[4] - 与传统模型依赖静态代码训练不同,CWM在中期训练阶段引入Python解释器和代理Docker环境的大量"观察—动作"轨迹数据,通过动态交互提升代码理解和推理能力[7] - 模型采用多任务强化学习技术,在可验证编码、数学和多轮软件工程等场景中强化推理和规划水平,使其能模拟代码逐步执行过程[7] - CWM支持最高131k token的上下文输入,为复杂编程和推理任务提供更强语境理解能力[10] - 训练数据涵盖预训练、中期训练和后期训练阶段,特别通过Python执行轨迹和ForagerAgent两项大规模数据收集工作增强世界建模能力[10] 模型性能表现 - 在SWE-bench Verified任务中取得65.8%的分数,领先所有开源同规模模型,接近GPT-4水平[8] - 在LiveCodeBench上达到68.6%的得分,在Math-500上高达96.6%,在AIME 2024上取得76.0%的优异成绩[8] 行业技术演进 - 传统代码生成模型主要通过海量代码语料库学习统计模式预测标记,但存在合理但错误的代码、缺乏状态意识和多步骤任务困难三大陷阱[12][14][15] - CWM创新性地学习"代码是如何运行的"而不仅是"代码是如何编写的",通过代码执行轨迹和交互历史作为核心训练数据实现突破[14] - 模型训练采用标准三阶段流程:在8192上下文长度上预训练包含8T token,在131072上下文长度上中期训练包含5T token,最后通过监督微调和强化学习进行后训练[15][16] 公司战略调整 - 此次发布是Meta AI业务重组后首款模型,团队由博士生和经验丰富的资深员工组成[5][18] - Meta在6个月内进行第四次AI业务组织架构改革,将新成立的AI部门超级智能实验室分成四个小组:TBD实验室、FAIR实验室、PAR团队和MSL Infra基础设施团队[23][24] - 架构调整中首席AI科学家Yann LeCun的头衔未提及,被外界解读为边缘化或降级,象征基础研究在公司AI战略中地位相对弱化[24][25] - TBD实验室内部讨论下一代AI模型可能不再开源,意味着公司从"全面开源"转向"选择性闭源"战略重心出现重大转折[25] - CWM作为重组后首款开源模型表明Meta并未彻底放弃开源,仍在代码生成等关键领域通过开源维持学术界与开发者社区联系[26]
来云栖大会现场看AI界的“非诚勿扰”!需求方现场发起征召,7款顶尖应用谁能握手成功?
AI前线· 2025-09-24 05:38
2025年云栖大会概况 - 大会设置110多场聚合话题和近900个精彩议题 吸引2000多位全球演讲人 围绕构建AI驱动的技术基座 开拓AI应用场景以及重塑AI时代的生产力与协作三大主题方向 [2] - 全方位呈现云和AI如何驱动业务增长和产业升级 [2] AI超级交易所板块 - AI超级交易所作为最具前瞻性的重磅板块首次亮相 定位为产业级供需革新 是一个如股票交易所般高效运转的AI产品交易中枢 [2] - 旨在深入探讨AI应用需求与实际应用之间的距离 助力AI应用方与需求方实现高效配对 每个人都可以是需求的发起者 想法以动态弹幕形式实时滚动呈现 [3] - 模力工场作为AI应用领域的原生力量 携多款上榜热门应用强势登陆该交易所 [2] 模力工场参与细节 - 模力工场在AI超级交易所的活动时间为9月25日上午10:00至12:00 地点为杭州云栖小镇3号馆 [3] - 活动内容包括最前沿的AI应用现场创作演示 最新奇的创意思路与技术分享以及最生动有趣的AI开发者面对面交流 [2] - 展台位于云栖大会3号馆AI超级交易所右手边效率工具区域的3-15-7展台 现场参与互动可领取神秘限定好礼 [13] 活动议程与参与者 - 活动议程包括主持人采访需求方 AI应用需求分享 AI应用开发者分享以及最终达成合作与合影等环节 [8] - 参与分享的嘉宾及公司包括极客邦科技CEO 模力工场创始人 智能投标助手开发者 Castrel AI 云智慧智能体产品部总监 Aipy 知道创宇AI业务部王利伟 DeepPath时踪开发者 Seede AI联合创始人及COO 粤才猫AI人力联合创始人及CTO等 [5][6][7][9][10][11] - 活动最终以扫二维码入群和达成合作合影结束 [12]
Anthropic 联创曝内部工程师已不写代码了,但工作量翻倍!开发者嘲讽:所以 Claude bug才那么多?
AI前线· 2025-09-24 05:38
整理 | 褚杏娟 近日,Dario 和 Anthropic 另一位联合创始人 Jack Clark 在参加活动时透露了公司目前的情况:在 Anthropic 内部,工程师们已经不写代码了,而是通过管理大量的 AI Agent 系统来写代码,并且在这 种模式下,每个人完成的工作量是以前的 2-3 倍。 他们否认了员工为此而失业,原因是公司还在飞速发展。Dario 还提议政府向 AI 公司多征税,表示 这并不会影响 Anthropic 的发展。 就在 Anthropic 高管们为公司全 AI 代码而开心的时候,开发者们却对这种情况充满质疑。 有人犀利发问:AI 写代码这么厉害,为什么 Claude 桌面客户端经常 UI 卡?还有人嘲讽道:所以这 就是 Claude 所谓"bug"被社区反映了一个多月才被发现的原因? "怀疑他们有没有写过代码、用没用 AI 干过一件生产类的工作。一个人用几个 Agent 写代码很扯, 严重破坏心流,而且 AI 无法窥探产品全局和核心价值点,一般设计的架构和代码可能会完全偏离产 品方向。不是说 AI 不好,而是还没有到能革命的地步,最起码没有想的那么美。"还有开发者说道。 有过 AI ...
网络基础设施如何支撑大模型应用?北京大学刘古月课题组5大方向研究,相关论文入选ACM SIGCOMM 2025
AI前线· 2025-09-23 06:37
研究团队与行业背景 - 北京大学刘古月课题组在智能计算时代聚焦于网络体系结构、运维智能化和安全防护研究 [2] - 业界迫切需要更高带宽、更低成本、更智能化和更安全的网络基础设施以支撑大语言模型训练等多样化场景 [2] - 课题组在ACM SIGCOMM 2025共有5篇论文入选(4篇长文+1篇短文),成为全球发文数量最多的高校课题组,会议投稿461篇录用74篇,录取率16.1% [2] InfiniteHBD:大语言模型数据中心高带宽域架构 - 提出收发器中心高带宽域架构,首次将光路交换嵌入收发器内部,突破大模型训练中可扩展性与动态通信瓶颈 [4][6][7] - 支持可重构的点到多点通信与可变规模环形拓扑,兼顾灵活扩展性、节点级故障隔离与高效带宽利用 [7] - 实验结果显示成本仅为NVL-72的31%,GPU浪费率几乎为零(比NVL-72和TPUv4低10倍以上),在7%节点故障率下仍保持接近零的跨ToR流量,模型FLOPs利用率较NVIDIA DGX提升3.37倍 [8] DNSLogzip:DNS日志高效压缩方法 - 针对海量DNS日志实现高效无损压缩,大幅降低存储与运营成本 [2][11] - 通过模块化压缩架构充分利用DNS日志的行间与行内特性去除冗余 [11] - 在生产环境中部署可将存储成本降低约三分之二,每个DNS服务节点每月节省高达16.3万美元 [12] BiAn:基于大模型的网络故障定位 - 借助大模型实现生产网络的智能化故障定位,能够处理监控数据并生成带有详细解释的故障设备排序 [13] - 部署10个月后将根因定位时间缩短20.5%(高风险故障事件缩短55.2%),定位准确率相比基线方法提升9.2% [14] MixNet:可重构光电混合网络 - 提出运行时可重构光电混合网络,支持分布式MoE训练的动态通信,是首个支持拓扑重配置的系统 [6][15][17] - 通过光交换增强现有电互连,在32块A100 GPU上实现支持训练期间拓扑重配置的MoE模型训练 [18] - 在100Gbps和400Gbps链路带宽下,四个代表性MoE模型的网络成本效率(性能/美元)分别提升1.2倍到1.5倍和1.9倍到2.3倍 [18] Mazu:加密流量异常检测系统 - 基于可编程交换机实现高速加密流量异常检测,采用双平面特征提取模型在接近线速下获取流量特征 [19][22] - 已在两家ISP投入生产两年,保护超过千万台服务器,成功阻止10余起重大攻击,检测准确率约90% [22] 技术应用与产业合作 - 五项成果从架构、数据、运维、安全四个维度形成完整技术闭环,共同推动新一代网络系统高效、可靠与智能化发展 [3] - 团队与华为、腾讯、阿里巴巴、京东等知名企业和研究机构携手开展项目合作,推动科研成果在产业中的转化与落地 [23]
Meta CTO打脸扎克伯格:首秀翻车全因致命bug,AI智商捉急、语音交互全面崩盘
AI前线· 2025-09-23 06:37
Meta Connect大会演示故障事件 - 在Meta Connect开发者大会上,两款Ray-Ban Meta智能眼镜的现场演示均出现严重故障[6] - 第一场演示中,美食博主Jack Mancuso无法通过眼镜的AI助手获得正确的牛排酱食谱指导,AI回答内容错误且重复,演示被迫中止[7][8] - 第二场演示中,扎克伯格无法通过眼镜接听CTO Andrew Bosworth的WhatsApp视频来电,多次尝试均告失败[12] 官方对故障原因的解释 - Meta CTO Andrew Bosworth否认故障源于Wi-Fi问题,指出是公司自身的设置和失误所致[2][14] - 美食演示失败被归因于资源管理规划失误,当演示者激活“Live AI”时,触发了现场所有同款眼镜的响应,导致开发服务器遭受类似DDoS的攻击而无法处理[15] - 视频通话失败源于一个新发现的“竞争条件”软件bug,眼镜显示屏在来电时进入休眠状态,唤醒后未显示接听通知[16][17] - Bosworth强调该bug是首次出现且已被修复,并称产品本身质量可靠,故障仅限于演示环节[18][19] 产品发布信息 - 发布的新产品为Meta Ray-Ban Display智能眼镜,售价799美元,右镜片带数字显示屏,可通过配套腕带操控[11] - 产品被定位为体验AI工具的新入口,提供实时字幕和翻译等功能,并计划于几周后正式发售[11] 外界评论与质疑 - 网友批评该演示表明技术尚未成熟,AI连基本指令都无法理解,控制机制不稳定[19] - 针对官方解释,网友质疑其系统设计存在缺陷,如一句语音指令能触发周围所有设备,以及开发服务器用户管理不完善可能带来安全风险[19][22] - 有评论指出Meta的运维团队应单独搭建演示网络,而非将流量引向开发服务器,并质疑其基础设施能力[22] - 此次事件引发对Meta高管团队执行力与可靠性的重新审视,CTO Andrew Bosworth的管理能力受到质疑[24]
创始人自曝让儿子辍学用AI上课、水平超同龄人!俞敏洪最先押注的“AI学校”,负债9亿不垮、现在要开到美国了
AI前线· 2025-09-22 06:18
公司核心技术与产品 - 公司创始人提出由人工智能驱动的智适应软件是教育的未来,其模式被比作自动驾驶,由计算机主导核心任务[2] - 公司开发的“智能智适应学习系统”可提供动态课程、练习任务与实时反馈,并于2022年升级为大型智适应模型,提升个性化能力与互动学习效率[4] - 公司理念核心是运用“纳米级知识点”,将学科内容拆解为最微小单元,例如将初中数学拆解为超过10000个知识点,远超传统教材的2000至3000个,从而为每位学生定制专属学习路径[5] - 公司将智适应学习生态系统搭载于笔记本电脑和平板电脑上,通过专属实体学习中心供学生使用[6] - 2022年公司转型推出内置智适应学习系统的学习机,包括国内首款5G AI学习机等4款智能硬件产品[8] - 2024年6月公司推出全新升级的多模态智适应教育大模型及三款智适应教育硬件产品[8] 公司运营与市场表现 - 过去十年间,公司通过3000家学习中心构建了覆盖超2400万名学生的网络,并曾因举办有超11.2万名学生同时参与的“全球最大规模在线数学课”创下吉尼斯世界纪录[6] - 2023年公司售出近20万台学习机,完成2000家线下智能学习机门店业务布局,整体业务增长率达300%,其中20%的学习机业务经销商来自原经销商转化[8] - 截至2024年,公司营收已达3.24亿美元,转型为自学式学习中心与智能学习平板模式,显示出市场对其人工智能驱动产品的强劲需求[9] - 公司成立以来获得多轮融资,包括2015年450万美元的种子轮融资,投资方包括俞敏洪等,2017年新东方集团追加投资,2021年获得中信证券等投资方的融资[6] 公司战略与全球扩张 - 公司正致力于在全球范围内重塑教育格局,并将美国作为首站进行扩张,计划在加利福尼亚州推出智能学习平板并建立连锁学习中心网络,最终目标在全美开设超过3000家学习中心[10][11] - 公司创始人认为美国教育科技市场规模到2031年将达到3480亿美元,且美国亚裔社区家长对公司兴趣日益浓厚[11] - 为适配美国市场,公司专门设计了MCM体系以培养批判性思维与创造力等执行功能技能,并邀请美国“年度教师”参与内容研发,制作2至3分钟的视频课程[11][12] - 针对数据安全问题,公司强调北美分公司收集的个人数据不会传输至中国,所有数据仅用于学习分析以优化系统,且美国学习中心将由本土加盟商独立运营[12] - 为支持全球扩张,公司在北美组建了27人的科学家团队,成员来自哈佛大学、MIT、斯坦福大学等知名学府及微软、亚马逊等公司,每年为此支出几千万美元[13] 公司历史与创始人背景 - 公司创始人栗浩洋于2014年创立上海乂学教育科技有限公司,旗下品牌松鼠Ai以突破性个性化学习方案闻名,目标是彻底重新构想全球的学习方式[3][4] - 创始人曾获中国数学奥林匹克竞赛一等奖,高中入选上海交通大学计算机科学实验班,其创业动机源于对传统教育体系低效问题的困扰,愿景是让所有学生获得量身定制的教育[3] - 创始人将其两个儿子从学校接出,改用人工智能系统授课,据称其儿子在三年级时就学完了八年级的物理,远超初中毕业水平[2]
Claude 急了!模型降智,官方长文用 bug 搪塞?开发者怒怼“太晚了”:承认不达标为何不退钱?
AI前线· 2025-09-22 06:18
事件概述 - Anthropic公司承认其AI模型Claude在8月至9月初出现服务质量下降,并将其归咎于三项互不关联的基础设施漏洞[4] - 公司强调模型质量下降并非由于需求、时间或服务器负载变化,纯属基础设施bug导致[4] - 事件暴露出公司在基础设施变更的审慎验证和极高执行标准方面未能落实[4] 技术故障详情 - 第一个bug是上下文窗口路由错误,8月5日出现,最初影响全部Sonnet 4请求的0.8%,8月29日负载均衡变化后影响比例升至16%[7][9] - 第二个bug是输出异常,8月25日部署的错误配置导致token生成出错,在英语提示下生成泰语或中文字符[11] - 第三个bug是近似top-k XLA:TPU编译错误,8月25日部署的代码改进触发了编译器潜在bug[13] - 路由机制具有"粘性",导致部分用户受到更严重影响[10] 问题诊断与修复挑战 - 多项bug相互交织且症状在不同平台有区别,导致诊断异常困难[8][21] - 公司内部隐私保护措施限制工程师访问用户交互细节,增加了重现bug的难度[21] - 原有验证流程包括基准测试、安全评估和性能指标,但无法捕捉用户上报的性能下降根源[21] - 修复工作分阶段部署,第一方平台和Google Cloud Vertex AI于9月16日完成,AWS Bedrock于9月18日完成[10] 用户反馈与信任危机 - 开发者反映模型质量严重退化,体验从"可以分派任务的初级工程师"变为"和一只猴子打交道"[3] - 长期用户指出问题持续存在且情况更糟,Claude Code CLI完全无视指令[24] - 用户要求公司提供退款或免费服务作为诚意体现[25] - 尽管工程师承诺下一个版本会更好,但用户普遍持怀疑和不信任态度[25] 市场竞争与商业策略影响 - 在ChatGPT、Gemini等竞品编码能力增强的背景下,用户开始转向其他工具[24][31] - 用户批评公司压榨付费用户,认为在竞争激烈的市场中需要更多忠诚开发者拥护[29] - 公司推出Max计划并提供不同层级额度,但用户抱怨使用限制过于严格[31][32] - 团队用户反映即便小文件也会导致会话崩溃,基本功能几乎无法使用[32] 公司改进措施 - 计划建立更灵敏的评估方法,准确区分正常运行及故障实现[26] - 扩大质量评估范围,在实际生产系统上持续运行评估[26] - 提升调试工具速度,在不牺牲用户隐私前提下结合社区反馈[26]
字节跳动深夜回应TikTok进展;清华学霸小红书晒1.67亿元年薪引调查;特朗普对H-1B签证加征10万美元引恐慌 | AI周报
AI前线· 2025-09-21 05:32
清华学霸薪资欺诈事件 - 吴舰被美国司法部指控电汇欺诈、证券欺诈和洗钱罪,目前处于在逃状态 [2][3] - 吴舰2022年薪资达2350万美元(约合人民币1.67亿元),曾在Two Sigma任高级副总裁 [2][3] - 其LinkedIn显示为清华工学学士及康奈尔哲学博士,曾就职于Citadel和Two Sigma量化研究部 [3] 特朗普签证政策调整 - 新设H-1B签证申请费10万美元,仅适用于新申请签证,不涉及续签或现有持有者 [5][6] - 企业需为员工支付费用,引发亚马逊、谷歌等公司恐慌,要求员工避免离境 [5] - 印度裔占H-1B签证获批者71%,中国占比11.7%,政策可能冲击美国创新生态系统 [5][6] - 个人可通过支付100万美元获得"特朗普金卡"居留权,企业支付200万美元可为员工办理 [8] 科技公司动态与合作 - 甲骨文与Meta磋商价值200亿美元云计算合作,涉及AI模型训练计算能力 [21] - 甲骨文MySQL数据库团队裁员约70人,引发行业对软件未来的担忧 [21] - 英伟达投资英特尔50亿美元,以每股23.28美元收购普通股,可能持有4%以上股份 [22] - 英伟达与CoreWeave签署63亿美元新订单,承诺购买其算力容量至2032年 [22] 人工智能与产品发布 - OpenAI周活跃用户超7亿,相当于全球成年人口10%,女性用户占比过半 [24] - 73%的ChatGPT对话与工作无关,较一年前53%大幅增长,写作占工作相关用途40% [25] - 马斯克发布xAI新模型Grok 4 Fast,推理tokens减少40%,否认2000亿美元估值融资传闻 [7] - 小米宣布跳过16直接发布17系列,全面对标iPhone,产品力跨代升级 [27][28] 企业战略与市场变动 - 字节跳动按中国法律推进TikTok美国业务,特朗普政府第四次延长剥离截止日期 [9][11] - 马云现身阿里园区,传闻其深度参与AI战略及500亿元补贴决策,为5年来最直接参与阶段 [13][14] - TP-Link芯片事业部全员解散,自研芯片项目终止,赔偿方案为N+3 [19][20] - 脉脉报告显示AI岗位同比增长10倍,字节、小红书、阿里为热招企业TOP3,微软平均月薪90345元 [29] AI应用与技术创新 - 豆包月活1.57亿超越DeepSeek,环比增6.6%,腾讯元宝环比增22.4% [26] - 快手可灵AI数字人支持1080p视频生成,成本最低0.12元/秒,公测中 [32][33] - Meta发布首款带显示AI眼镜,支持实时翻译和3K视频录制 [34] - 全球首款AI Database Agent由Teable开发,获真格基金等投资 [36]
浙江大学联合华为发布国内首个基于昇腾千卡算力平台的 DeepSeek-R1-Safe 基础大模型
AI前线· 2025-09-21 05:32
全球主流大模型频现包括虚假 / 有害内容生成、数据偏见、信息泄露等安全问题。例如,谷歌公司发布报告揭示,伊朗支持的攻击 者利用 Gemini 大模型发动网络攻击,开展钓鱼攻击活动,对防务专家及机构的网络与云环境进行渗透,监视与窃取机密信息,严 重威胁了国家信息安全;三星公司在引入 ChatGPT 后,短时间内便曝出多起机密资料外泄事件,导致三星公司半导体设备测量资 料、源代码、产品良率等机密内容瞬间外泄,且无法收回,严重影响了企业运营。我国同类人工智能模型的安全问题同样不容忽 视。当前,政府部门、华为等科技企业正积极推动国产大模型生态建设,并取得了显著成效。 然而,国产平台在框架健全性、开发者社区成熟度以及开源生态发展等方面仍然面临诸多挑战,整体尚处于起步阶段。据研究显 示,部分国产大模型早期版本在面对越狱攻击时的失守率高达 100%。这不仅暴露了当前大模型在安全技术层面的普遍脆弱性,也 对产业发展乃至国家安全构成潜在威胁。 针对这一全球性挑战,浙江大学联合华为计算产品线 重磅推出 DeepSeek-R1-Safe 基础大模型 。模型基于昇腾千卡集群,依托全 流程自主可控后训练框架完成训练,整体安全防御能力提 ...
“别再碰我代码!”明星AI工具成瘟神,用户怒斥:一周七千块,修不好bug还删我关键文件!
AI前线· 2025-09-20 05:33
公司融资与产品发布 - Replit完成2.5亿美元融资,估值达到30亿美元[2] - 公司于9月10日正式推出新一代AI编程助手Agent 3[2] - Agent 3被描述为迄今最先进、最自主的编程代理,性能据称比Computer Use模型快3倍、成本效益高10倍[2] Agent 3产品特性与愿景 - Agent 3能够在浏览器中自动测试和修复应用,检查按钮、表单、链接和API,并可连续运行超过200分钟[3] - 该代理可与Slack、Telegram、Notion、Dropbox等常用工具集成[3] - CEO将Agent 3定义为软件的“自动驾驶时刻”,宣称其自主性提升了10倍[4] - 公司提出了“自主性等级”体系,将Agent 3定位为四级(基本全自动),并展望第五级(同时运行数千个代理,以超过95%的可靠率解决问题)[5] - Agent 3的三大技术支柱包括端到端测试、采样与模拟(提升2-3倍可靠性)以及自动生成测试[9] - 公司愿景是成为企业市场标准,让数百万甚至数十亿人通过简单操作将想法变为现实[7] 用户反馈与产品问题 - 有用户报告Agent 3在尝试修复bug时,工作一个多小时未找到解决方案,反而引入回归问题并删除了关键文件如storage[8][10] - 回滚功能被用户报告失效,导致应用崩溃,最终需手动恢复至稳定版本[10] - 另一用户遭遇代理删除其与测试用户所有数据的情况,回滚功能同样未起作用[12] - 用户普遍反映Agent 3处理效率低下,例如两行代码的修改耗时三小时[12] 成本与定价问题 - 用户报告使用Agent 3一周左右产生高额费用,其中一周花费至少1200美元[14] - 在编辑已有应用时成本最高,有用户一周内因此花费1000美元,而此前同样工作月费用不超过180-200美元[14][15] - 新定价模式下,复杂任务被捆绑为更昂贵的检查点,导致用户账单迅速攀升,有用户月花费可能上涨20倍[14] - 有用户平时月消费100-250美元,但在Agent 3发布当天一晚上就消耗70美元[14] 公司技术战略与回应 - CEO强调技术突破在于构建了支持AI代理持续运行的“模型栖息地”基础设施,特别是“事务性”机制允许回滚至任意历史检查点[17] - 公司认为基础设施带来的环境反馈和快速试错能力是实现高可靠性的关键[18] - 在自主性设计上,公司同时推进短时间跨度的可靠性和长时间跨度的自主性,后者旨在将人类从环路中移除[18] - 通过多代理并行试错和设置测试护栏来应对长时运行可能出现的“目标漂移”问题[18]