AI前线

搜索文档
长文本推理 5 倍提速!面壁MiniCPM4 端侧模型发布,0.5B模型效果秒杀同级
AI前线· 2025-06-12 06:07
模型发布与性能 - 新一代"面壁小钢炮" MiniCPM4 0端侧模型发布 包含8B和0 5B两种参数规模 其中8B稀疏闪电版带来端侧性能大跃升 0 5B版本适配广泛终端场景 [1] - MiniCPM4 0-8B是首个原生稀疏模型 5%极高稀疏度加持系统级创新技术 在MMLU CEval MATH500 HumanEval等基准测试中以仅22%训练开销 性能比肩Qwen-3-8B 超越Gemma-3-12B [2] - MiniCPM4 0-0 5B在MMLU CEval BBH HumanEval等基准测试中性能超越同级Qwen-3-0 6B Llama 3 2 Gemma3 并通过原生QAT技术实现几乎不掉点的int4量化 推理速度达600 Token/s [4] 技术架构创新 - 采用新一代InfLLMv2稀疏注意力架构 稀疏度从行业普遍的40%-50%降至5% 注意力层仅需1/10计算量完成长文本计算 算子底层重写进一步提升速度与精准性 [14] - 引入高效双频换挡机制 根据任务特征自动切换注意力模式 长文本启用稀疏注意力降低计算复杂度 短文本切换至稠密注意力确保精度与速度 [17] - 开发并开源InfLLMv2高效训练与推理算子 提出高效LogSumExp估计算法 相比DeepSeek NSA算法节省60%计算开销 [16] 性能表现对比 - 在MMLU测试中 MiniCPM4-8B得分为75 83 高于Qwen3-8B的75 90和Gemma3-12B的73 36 [5] - 在CEval测试中 MiniCPM4-8B得分81 36 显著高于Qwen3-8B的80 35和Gemma3-12B的62 23 [5] - 在HumanEval测试中 MiniCPM4-8B得分85 37 接近Qwen3-8B的85 98 高于Gemma3-12B的83 54 [5] 端侧优化与部署 - 实现长文本缓存大幅锐减 128K长文本场景下仅需Qwen3-8B 1/4缓存存储空间 量化版模型瘦身达90% [8] - 自研CPM cu推理框架实现5倍速度提升 集成高效稀疏注意力算子 投机采样和量化技术 [19][21] - 已适配Intel 高通 MTK 华为昇腾等主流芯片 可在vLLM SGLang llama cpp等开源框架部署 [10] 训练与数据策略 - 采用Ultra-FineWeb高知识密度数据筛选机制 实现90%验证成本降低 处理15万亿token数据仅需1000小时CPU时间 [28] - 应用风洞2 0方案 将超参数配置搜索实验次数降低50% 采用Chunk-wise Rollout技术提升GPU资源利用率 [29] - 仅用22%训练开销即达到同尺寸开源模型能力水平 训练策略包括FP8训练和MTP监督信号等前沿技术 [28][30]
被“网暴”两个月后,Yann LeCun 携最新世界模型杀回!小扎千万美元激励抢人,Meta AI 内部权利之争开始
AI前线· 2025-06-12 06:07
Meta推出V-JEPA 2世界模型 - Meta推出新一代世界模型V-JEPA 2,旨在提升AI在物理世界中的视觉理解与预测能力,实现高级机器智能(AMI)[1] - V-JEPA 2被描述为"现实的抽象数字孪生",使AI能够预测行为后果并规划行动方案[1] - 该模型比英伟达Cosmos模型快30倍,并已开源[1][5] - V-JEPA 2基于100多万小时视频数据训练,无需标记视频片段即可执行推理[3][4] - 模型赋予AI三大核心能力:理解、预测与规划,帮助机器构建现实内部模拟[3] 技术特点与应用场景 - V-JEPA 2可帮助AI模拟人类物理直觉,如理解重力影响、预测物体运动轨迹[2][4] - 在实验室测试中,机器人借助V-JEPA 2成功执行抓取、拾取和放置物体等任务[5] - 适用于自动驾驶汽车、仓库机器人和无人机配送系统等需要实时空间理解的技术[3] - Meta发布三项新基准测试(IntPhys 2、MVPBench和CausalVQA)评估模型物理推理能力[5] - 潜在应用领域包括医疗、农业和救灾等需要AI在陌生环境自主运行的场景[18] 行业竞争与战略布局 - Meta将V-JEPA 2视为实现通用人工智能(AGI)的关键里程碑,与OpenAI、谷歌等展开竞争[11] - 行业趋势显示AI研究正向世界建模发展,李飞飞初创公司World Labs获2.3亿美元融资,谷歌DeepMind测试Genie项目[19] - 英伟达在CES上发布Cosmos World Foundation模型系列,提供物理感知视频预测与生成能力[5] - Meta称V-JEPA 2依赖简化空间推理而非大量数据输入,可能比现有AI模型更高效和可扩展[17] Meta内部AI战略调整 - Meta首席执行官扎克伯格亲自领导新成立的"超级智能"团队,计划招募约50名顶尖AI专家[14] - 公司向Scale AI投资140亿美元以获取高质量训练数据,应对Llama 4表现不佳的挑战[13] - 时隔两年Meta再次重组AI团队,提供数千万美元薪酬方案吸引人才[14] - 公司试图挖角谷歌和OpenAI顶级研究员未果,显示行业人才竞争加剧[15] Yann LeCun的AI理念 - Meta首席AI科学家LeCun认为AI需要世界模型而非仅大语言模型,此理念已研究20年[7][8] - LeCun批评大语言模型(LLM)不足以实现人类水平智能,称其为"token生成器"[8] - V-JEPA 2的发布被视为LeCun长期坚持的世界模型理念的重要突破[11]
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天
AI前线· 2025-06-11 08:39
智源研究院"悟界"系列大模型发布 - 推出原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS2.0与具身大脑RoboBrain2.0以及全原子微观生命模型OpenComplex2 [1] - Emu3基于下一个token预测范式统一多模态学习 构建模态无关的统一表征空间 实现文本、图像、视频的任意组合理解与生成 [3] - Brainμ基于Emu3架构 引入脑信号模态数据 实现单一模型完成多种神经科学任务 在自动化睡眠分型等任务中性能显著超越现有专有模型 [4] 原生多模态世界模型技术突破 - Emu3支持多模态输入输出的端到端映射 验证自回归框架在多模态领域的普适性 为跨模态交互提供技术基座 [4] - Brainμ整合超过100万单位神经信号预训练 支持从基础研究到临床研究和脑机接口应用 有望成为神经科学领域的"AlphaFold"模型 [5] - 与强脑科技BrainCO合作 首次在便携式消费级脑电系统上重建感觉信号 展现脑机接口应用潜力 [5] 具身智能技术进展 - RoboOS2.0是全球首个基于具身智能SaaS平台的开源框架 支持无服务器一站式轻量化机器人本体部署 整体性能提升30% 全链路平均响应时延低至3ms以下 [6][7] - RoboBrain2.0在多项空间推理与任务规划指标上超越主流大模型 任务规划准确率相较1.0版本提升74% 空间智能性能提升17% [8][9] - 新增多本体时空记忆场景图共享机制和深度思考能力 支持动态环境下的实时感知与建模 提升任务执行稳定性与成功率 [7][9] 微观生命模型突破 - OpenComplex2实现从静态结构预测到动态构象分布建模的突破 能表征生物分子系统的连续演化能量景观 [11] - 在CASP16竞赛中成功预测蛋白质T1200/T1300的空间构象分布 成为23支参赛队伍中唯一取得该突破的团队 [12] - 突破静态结构预测瓶颈 为原子级结构生物学提供全新建模工具 有望显著缩短生物医药研发周期并降低成本 [12] 技术发展趋势 - 人工智能正加速从数字世界走向物理世界 原生多模态世界模型是实现物理AGI的重要发展路径 [2][3] - 公司预判大模型技术将从大语言模型向多模态尤其是原生多模态世界模型方向发展 当前工作布局围绕该趋势展开 [2] - 未来5-10年可能出现大小脑融合模型 但当前数据受限不具备融合条件 现阶段采用大小脑协作框架 [7]
OpenAI o3-pro模型发布,但不能聊天
AI前线· 2025-06-11 08:39
OpenAI o3-pro发布 - OpenAI正式发布o3-pro模型,ChatGPT Pro用户可通过API使用该模型[1] - o3-pro是OpenAI当前最强智能模型o3的子版本,旨在延长思考时间以提供更可靠的响应结果[1] - 与o3类似,o3-pro可以使用ChatGPT擅长的各类工具,包括搜索网页、分析文件、推理视觉输入、使用Python、运用记忆个性化响应等[1] - 由于o3-pro使用工具,响应生成时间比o1-pro更长,建议用于可靠性优先于速度的棘手难题[1] o3-pro性能表现 - 在专家评估中,o3-pro在科学、教育、编程、商业及写作协助等关键领域的所有测试类别中表现优于o3[2] - 评估者一致认为o3-pro在清晰度、全面性、指令执行及准确性等方面有更好表现[2] - 学术评估结果表明o3-pro表现始终优于o1-pro及o3[3] - OpenAI采用严格的"4/4信度"评估方法,模型需在四次尝试中始终正确回答问题才被视为成功[3] 用户访问与功能限制 - o3-pro已在Pro和Team用户的模型选择器中开放,取代原有o1-pro[3] - Enterprise与Edu用户将在下周获得访问权限[3] - o3-pro临时聊天功能已停用,因技术问题未最终解决[3] - o3-pro不支持图像生成,用户需选择GPT-4o、OpenAI o3或OpenAI o4-mini模型生成图像[3] - o3-pro目前暂不支持Canvas[3]
字节 AI 卷出新高度:豆包试水“上下文定价”,Trae 覆盖内部80%工程师,战略瞄定三主线
AI前线· 2025-06-11 08:39
字节AI技术发展主线 - 公司认为AI技术发展主线包括多模态推理与思考、视频生成技术突破、多步骤复杂任务处理能力提升[5] - 预计2025年视频生成技术将进入实际生产环节 如消费领域和电商广告短片制作[5] - 多步骤复杂任务处理能力预计在2024年Q4达到可用水平 简单任务准确率可达80%-90%[5] 豆包大模型1.6升级 - 发布三个版本模型 均支持256K超长上下文和多模态输入[3] - 在高考数学测试中取得144分 海淀模拟考试理科706分 文科712分[3] - 支持自动操作浏览器完成酒店预定 识别购物小票并整理Excel等真实世界任务[3] - 综合成本仅为豆包1.5深度思考模型或DeepSeek R1的三分之一[8] 模型定价策略 - 1-32K上下文长度定价:输入0.8元/百万tokens 输出8元/百万tokens[9] - 32-128K上下文长度定价:输入1.2元/百万tokens 输出16元/百万tokens[9] - 128-256K上下文长度定价:输入2.4元/百万tokens 输出24元/百万tokens[9] 视频生成模型Seedance 1.0 Pro - 具备无缝多镜头叙事 多动作运镜 稳定运动与真实美感三大特点[18] - 生成5秒1080P视频仅需3.67元 价格具有竞争力[18] - 1万元预算可生成2700条1080P视频 或9700多条780P视频[20] Trae开发工具进展 - 内部超过80%工程师使用 月活用户超100万[14] - 采用自然语言编程方式 AI生成85%代码 开发者仅需优化不到5%[16] - 支持100+MCP Servers 支持代码重构 批量修改和交互式问答等复杂任务[16] 行业技术趋势 - 强化学习算力消耗快速攀升 预计2027年投入可能接近预训练规模[25] - 企业加速改造基础设施和云计算体系以适应AI发展需求[23] - 提示词工程正向价值随模型能力提升而增大 最终将由自动化系统解决[25] 商业化应用实践 - 与网易《逆水寒》合作测试玩家创作角色故事视频生成[22] - 豆包实时语音模型全量上线方舟平台 推出支持自然对话的播客模型[22] - 自建算力占比达30% 结合公有云资源平衡成本[11]
TypeScript“杀疯了”!60% 到 70%YC 创企用它构建 AI Agent,超越 Python 有戏了?
AI前线· 2025-06-10 10:05
TypeScript在AI Agent开发中的崛起 - 约60~70%的YC X25 Agent公司正在使用TypeScript构建AI Agent [1] - 早期AI框架如LangChain最初以Python为主 但TypeScript生态吸引了大量前端/全栈开发者 [2] - TypeScript的采用率从2017年的12%飙升至2024年的35% [6] TypeScript的技术优势 - 静态类型和IDE集成显著提升复杂逻辑迭代和LLM调用的开发效率 [3] - 支持全栈开发 允许开发者用同一种语言交付前后端代码 [3] - 异步编程模型和严格类型系统使AI应用能保持高性能和响应能力 [14] - 编译时错误捕获机制降低AI算法复杂场景下的生产环境风险 [14] 开发者生态与行业趋势 - JavaScript开发者群体规模至少与Python相当 推动AI工具向TypeScript适配 [12] - Vercel的AI SDK和Cloudflare等边缘计算平台强化了TypeScript的全栈能力 [15] - OpenAI近期在Agents SDK中新增TypeScript支持 扩展Nodejs开发者生态 [16] - LangChain等传统Python工具开始加大TypeScript支持力度 [17] 实际应用效果验证 - Airbnb案例显示TypeScript帮助避免38%的错误 [18] - 小团队开发效率提升显著 统一语言后开发速度可翻倍 [10] - 与TensorFlowjs等AI库的兼容性实现JavaScript生态无缝集成 [18] 与Python的竞争格局 - Python仍是AI训练和PyTorch等框架的核心语言 短期内不可替代 [12][23] - TypeScript在面向用户的AI应用开发中展现出更优的工程化特性 [21] - 开发者社区出现分化 部分同时使用两种语言的开发者更倾向TypeScript [24]
苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理
AI前线· 2025-06-10 10:05
苹果新一代基座模型发布 - 推出两大基座模型:3B参数的紧凑型设备端模型和服务器端混合专家模型,均针对苹果芯片优化,支持15种语言及多模态输入[1] - 设备端模型通过5:3深度比分割和KV缓存共享技术,降低38.5%内存占用并改善首token生成速度[6] - 服务器端采用PT-MoE架构,通过独立轨道处理token减少同步开销,实现高效扩展[7] 模型架构创新 - 引入交错注意力架构结合RoPE和NoPE,提升长上下文处理能力并减少键值缓存大小[8] - 视觉系统采用1B参数ViT-g服务器模型和300M参数ViTDet-L设备模型,新增寄存器窗口机制增强全局/局部特征捕捉[12] - 量化技术实现设备端2-bpw和服务端3.56-bpw压缩,嵌入表统一4-bit量化,通过适配器恢复质量损失[17][18] 性能表现 - 设备端模型在所有语言环境超越Qwen-2.5-3B,英语环境媲美Qwen-3-4B和Gemma-3-4B[8] - 服务器端模型优于Llama-4-Scout,但落后于Qwen-3-235B和GPT-4o[8] - 视觉任务评估显示设备端模型优于InternVL-2.5-4B和Qwen-2.5-VL-3B,与Gemma-3-4B相当[10] 训练优化 - 分阶段预训练:文本模态阶段采用蒸馏损失降低90%训练成本,视觉阶段联合训练编码器[14] - 持续预训练整合合成数据提升代码/数学能力,多模态自适应保持文本能力[16] - RLHF技术带来16:9的人类评估优势比例,显著超越SFT效果[16] 开发者生态 - 推出基座模型框架,支持Swift语言三行代码接入3B设备端模型,内置文本摘要/实体提取等功能[20] - 框架支持工具调用和引导式生成,Automattic等厂商已应用于日记类产品开发[21] - 测试版通过Apple Developer Program提供,公开测试版将于下月上线[22]
AI大模型重塑学习硬件:从工具到伙伴 | 网易有道孟旭
AI前线· 2025-06-09 05:51
智能学习硬件行业变革 - 智能学习硬件正从单一功能工具进化为陪伴学习的"智能伙伴",核心驱动力是用户需求、硬件创新与AI技术的螺旋式推进[1] - 行业变革路径呈现"需求牵引-技术支撑-体验升级"的循环模式,有道词典笔累计销量突破1000万台印证该模式有效性[4] 用户需求演进 - 初始需求聚焦英语学习场景,通过扫描翻译功能解决查词痛点[6] - 需求扩展至中文学习(古诗文/文言文)、多学科答疑(数学/物理/化学)及移动学习场景[6] - 未来需求将向个性化学习(错题分析/知识拓展)和多学科融合方向发展[15] 硬件创新突破 - 通过材料科学和电子工程优化产品形态(尺寸/材质)与性能(芯片算力)[7] - 定制首颗AI芯片实现端侧离线大模型,平衡算力需求与超低功耗[10] - 多模态交互支持扫描/拍照/语音等多种输入方式[13] 大模型技术应用 - 语言学习领域:2023年率先落地端侧离线大模型,翻译准确度超越传统NMT模型,支持中英/文言文/小语种[10] - 学科辅导领域:AI答疑笔实现类真人逻辑的解题链推理,可处理多学科新题难题(如北京海淀高考二模题),支持分步骤讲解与举一反三练习[13] - 系统整合方向:探索将分散的APP功能串联成完整学习流程,构建AI Agent驱动的端到端学习生态[16] 产品迭代路径 - 第一代词典笔:解决扫描翻译单一需求,积累千万级用户基础[4][6] - 新一代AI答疑笔:整合大模型能力实现多学科智能辅导,具备拍照解题/语音交互等创新功能[13] - 未来形态:定位AI原生硬件,通过自研系统实现人-内容-流程的三维整合[16]
Yann LeCun 炮轰 Anthropic CEO!这人“既要又要”:要么太自大、要么不诚实
AI前线· 2025-06-09 05:51
整理 | 褚杏娟 向来直言不讳的 Yann LeCun,这次将"大炮"轰向了 Anthropic CEO Dario Amodei。 Thread 线程最后,Yann 还附加了一个链接,内容是 Dario Amodei 当地时间月 5 日在纽约时报发表 的文章:Anthropic 首席执行官:别让 AI 公司轻易脱责(Anthropic CEO: Don't Let AI Companies off the Hook)。 这篇文章主要还是 Amodei 用来反对被特朗普称为"美丽大法案"(One Big Beautiful Bill Act) 的 《HR1》法案,其中有一项关于 AI 监管的内容是,将禁止美国各州在从法案颁布之日算起的未来十 年内"执行任何监管 AI 模型、AI 系统或自动决策系统的法律或法规"。Amodei 认为这个"十年禁令是 一种过于一刀切的手段。"他还在文中既肯定了 AI 的巨大前景,也描述了其可能带来的社会风险。 随后,有人问他 Anthropic CEO 是 AI 末日论者还是 AI 狂热爱好者,Yann 直接回道: 他是个"AI 末日论者",但他仍在研究 AGI!这只有两种可能: ...
曝豆包多模态负责人准备离职;马云频繁要求汇报 Qwen3 开发进度;北大“韦神”粉丝破2000万,评论区变高考许愿池 |AI周报
AI前线· 2025-06-08 05:16
阿里巴巴AI业务进展 - 阿里巴巴Qwen模型在全球开源AI领域处于领先地位 截至1月已有超过29万客户使用 覆盖汽车/医疗/教育/农业等多个行业[2] - Qwen3模型在多项基准测试中超越Meta的Llama等模型 创始人马云频繁要求阿里云CTO周靖人汇报开发进度 显示该模型对公司的战略重要性[2] 宇树科技资本运作 - 公司完成股份制改造 最新估值达100-150亿元 上市前可能进行Pre-IPO轮融资 内地或港股均为上市考虑地点[5] - 创始人王兴兴担任杭州市具身智能产业联盟首任轮值理事长 公司近期与银河通用/宝通科技达成合作 涉及机器狗导航部署和工业机器人开发[5] - 工商信息显示公司类型变更为股份有限公司 新增董事梁望南来自股东北京机器人产业发展投资基金[6] 字节跳动人才变动 - 豆包大模型视觉多模态生成负责人杨建朝拟离职 曾获中国科大郭沫若奖学金 师从计算机视觉之父Thomas Huang[9] - 此次变动发生在公司大模型团队架构调整后 原谷歌DeepMind副总裁吴永辉接管Seed基础研究 杨建朝团队转由其分管[10] 京东业务扩张 - 以3倍薪资从飞猪/携程/去哪儿等平台挖角人才 加速布局酒旅业务 招聘岗位涵盖产品经理/后端开发/航空运营等关键职能[11] - 为系统架构师岗位开出50-70K月薪 优先考虑携程/美团等企业有0到1搭建经验的专业人士[12] 科技公司战略调整 - 360集团计划裁撤整个市场部 预计年省数千万成本 董事长周鸿祎将独立完成AI搜索智能体发布会 验证AI对工作效率的提升[13] - 小米将多枚"Kimi"商标转让给月之暗面 涉及通讯服务/广告销售等国际分类 强化后者在智能助手领域的品牌资产[18] - 苹果开发团队弃用Java 改用Swift重写密码监控服务 实现内存占用减少90% 硬件使用率降低50% 吞吐量提升40%[17] 人工智能技术突破 - OpenAI计划夏季发布GPT-5模型 性能将远超GPT-4 具体成本未披露但暗示定价较高[25][26] - 微软开源Athena智能体并推出Bing视频创作器 基于Sora模型提供免费视频生成服务 移动端用户可免费创建10段视频[28][29] - Anthropic开源神经网络追踪工具 可生成"归因图"展示模型推理过程 并与Decode Research合作推出Neuronpedia交互平台[30] - 小红书hi lab开源MoE语言模型dots.llm1 总参数量1420亿 激活参数140亿 训练11.2T token后性能媲美Qwen2.5-72B[23] 企业动态与合作 - 亚马逊在Lab126部门组建Agentic AI团队 开发机器人AI框架 重点影响仓储物流等蓝领工作岗位[20] - 美团宣布2025年发布国内首个B端AI旅行工具 6月推出AI旅行助手 高德地图推出智能眼镜解决方案支持语音导航[31] - Meta计划2025年底前实现AI全流程广告创建 现有工具可生成广告变体并精准投放至Facebook/Instagram[31] 行业竞争与创新 - Manus推出文本转视频功能 挑战OpenAI/阿里巴巴/腾讯等对手 免费向用户开放该服务[27] - OpenAI为ChatGPT企业用户新增录音笔记功能 支持Google Drive/Dropbox等云存储平台集成[24] - 亚马逊米高梅影业筹备OpenAI高层动荡题材电影《人工智能》 由《周六夜现场》编剧参与剧本创作[21]