Workflow
Artificial Intelligence
icon
搜索文档
刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA
机器之心· 2025-09-29 10:29
DeepSeek-V3.2-Exp 开源发布 - DeepSeek 在假期前发布实验版本 DeepSeek-V3.2-Exp 并开源 [1][3] - 模型参数量为 685B [3] - 同步公开论文及稀疏注意力机制技术细节 [3][5] 稀疏注意力机制架构创新 - DeepSeek 稀疏注意力机制(DSA)是 3.2 版本唯一架构改进 [6] - DSA 实现细粒度稀疏注意力 显著提升长上下文训练和推理效率 [9] - 在 MLA 架构下实例化 DSA [8] - 该机制代表对更高效 Transformer 架构的持续研究 特别注重扩展文本序列处理的计算效率 [10] 模型性能基准测试 - DeepSeek-V3.2-Exp 训练配置与 V3.1-Terminus 严格对比 [9] - 在公开基准测试中表现相当 例如 MMLU-Pro 均保持 85.0 [9][11] - 部分领域存在微小波动 如 GPQA-Diamond 从 80.7 降至 79.9 而 AIME 2025 从 88.4 升至 89.3 [11] - Codeforces 评分从 2046 提升至 2121 [11] - Agentic Tool Use 方面 BrowseComp-zh 从 45.0 升至 47.9 [11] 行业竞争动态 - 智谱 GLM-4.6 即将发布 GLM-4.5 被标识为上一代旗舰模型 [12]
DeepSeek-V3.2-Exp正式发布 API大幅降价
证券时报网· 2025-09-29 10:29
人民财讯9月29日电,DeepSeek今天宣布,正式发布DeepSeek-V3.2-Exp模型。官方App、网页端、小程 序均已同步更新为DeepSeek-V3.2-Exp,同时API大幅度降价。在新的价格政策下,开发者调用 DeepSeekAPI的成本将降低50%以上。 ...
DeepSeek-V3.2-Exp正式发布,API价格大幅下调
财联社· 2025-09-29 10:27
《科创板日报》记者注意到, DeepSeek-V3.2-Exp模型正式在Hugging Face平台发布并开源。 模型引入稀疏 Attention 架构,这种架构能够降低计算 资源消耗并提升模型推理效率。 目前,华为云已完成对 DeepSeek-V3.2-Exp模型的适配工作,最大可支持160K长序列上下文长度。 DeepSeek-V3.2-Exp API价格官宣大幅下调 DeepSeek宣布官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp。DeepSeek介绍,得益于新模型服务成本的大幅降低, 官方API价格也相应下调,新价格即刻生效。 在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。 下载财联社APP获取更多资讯 准确 快速 权威 专业 7x24h电报 头条新闻 VIP资讯 实时盯盘 ...
DeepSeek-V3.2-Exp 发布,训练推理提效,API成本降50%以上
新浪科技· 2025-09-29 10:27
目前,官方App、网页端、小程序均已同步更新为DeepSeek-V3.2-Exp,同时API大幅度降价。在新的价 格政策下,开发者调用DeepSeek API的成本将降低50%以上。DeepSeek-V3.2-Exp 模型现已在 Huggingface 与魔搭开源。 责任编辑:刘万里 SF014 在各领域的公开评测集上,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 基本持平。(文猛) 新浪科技讯 9月29日晚间消息,DeepSeek发布DeepSeek-V3.2-Exp模型。据悉,这是一个实验性 (Experimental)的版本,作为迈向新一代架构的中间步骤,V3.2-Exp在V3.1-Terminus的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化 和验证。 ...
告别抽卡!全能&高度可控|藏师傅教你用即梦数字人 1.5
歸藏的AI工具箱· 2025-09-29 10:10
前几天即 梦在 Web 端上线 他们的数字人 Omnihuman 1.5 版本。 今天来做个测试,同时有个教程教大家怎么用图像模型配合生成名人数字人视频。 相较于之前的 Omnihuman 1.0, 这次 不只是上传音频和图片他帮你生成带有唇形同步的动态视 频,1.5 的控制能力大幅提升,你可以定义视频中的人物表演和运动方式。 昨天用这个做了一个比较搞的片子,最近不是模仿名人营销很火吗,我做了一个让乔布斯卖破拖鞋 的演讲,这种具有热门视觉标定和反差感的视频非常容易火。 我们先用 几个基础测试 来看一下 Omnihuman 1.5 的能力。 然后我会教一下大家如何用即梦图片 4.0 和数字人 1.5 配合生成这种连贯的数字人视频。 这次更新最明显的一个改动就是数字人不再死板,我们可以通过动作控制让镜头和人物动起来,包 括不只是主角也包括其他人物。 比如上面这个案例,我们就可以让女子先抬头,到一个合适可以看到嘴唇的角度,然后再开始说 话,同时镜头也在旋转到她的正脸,背后的其他人也在正常行走,这是纯粹的唇形同步模型不能做 到的。 几乎搞定了原来 AI 视频不好做的人物表现部分内容。 可以看到在设置部分多了一个动作描 ...
IBM Commits to Invest 20,000 Hours, an Expected Investment Value of $5,000,000, of Solution Architects and AI Engineers to Advance Datavault AI's Partnership
Businesswire· 2025-09-29 10:01
BEAVERTON, Ore.--(BUSINESS WIRE)--Datavault AI Inc. (Nasdaq: DVLT), leading the way in AI data experience, valuation, and monetization, today announced that IBM (NYSE: IBM) has made a multi-million dollar commitment of resources. IBM's commitment will allocate engineering, technical sales and quantum computing expertise to support the continued growth of Datavault AI's platform build and go-to-market initiatives. We believe the expanded collaboration will harness IBM's deep bench of technical r. ...
Bhashini: Overcoming the language barrier to deliver faster services
BusinessLine· 2025-09-29 09:56
Imagine you are at a railway station and trying to book a ticket. But you only know your local language, while the person at the counter speaks only English and Hindi. Enter Bhashini, a government initiative under Digital India which uses AI-powered technology to break down language barriers. So you speak without hesitation in your language — perhaps Kannada — and the person at the counter understands and issues a ticket for your desired destination. The whole process is instant and seamless, facilitated in ...
曝顶级AI大牛,加入阿里通义,事关下一代大模型
36氪· 2025-09-29 09:56
人才变动 - 全球顶尖AI科学家许主洪加盟阿里通义 转向通义大模型研发工作[2] - 许主洪拥有超20年AI产业和学术经验 发表300多篇顶级学术论文 被引用超过5万次 曾被评为全球顶尖1% AI科学家[2] - 许主洪曾担任Salesforce副总裁 从零构建亚洲AI研究生态系统 2023年创立多模态AI创企HyperAGI[2] 职务安排 - 2025年2月许主洪加入阿里 担任集团副总裁兼智能信息事业群首席科学家 负责AI To C业务多模态基础模型及智能体研究[4] - 原核心任务包括组建顶级AI算法团队 整合通义/夸克/天猫精灵等内部资源 促进多模态交互产品迭代[4] - 加入7个多月后转向通义实验室团队 可能从AI To C商业化研发转向更基础前沿的大模型研发[7] 战略布局 - 阿里通义大模型处于"拼迭代速度"和"多模态发展"关键阶段 需要顶尖产学研多栖AI人才[7] - 阿里云CTO周靖人透露 通义家族持续与全球AI领先者竞争 比拼模型迭代效率 多模态演进是必然趋势[7] - 公司期待在多模态方面进一步创新突破 许主洪被视作最适牵头人选[7] 技术方向 - 许主洪认为用统一框架做理解和生成是多模态大模型演进趋势 但该领域尚处初级阶段需实践验证[7] - 统一多模态模型面临全模态交互挑战 支持音/视/图/文全模态交互的公开单模型非常少见[10] - 图像和语意理解生成统一模型鲜有出现 理解与生成效果难以平衡[10] - 多模态Agent AI时代刚起步 需解决基础能力/智能体功能模块/数据世界连接/物理世界交互等技术难题[10]
DeepSeek和智谱都将于近日发布新模型,或将迎来重大突破
IPO早知道· 2025-09-29 09:45
据IPO早知道消息,DeepSeek于9月29日发送更新新模型的公告,DeepSeek-V3.2新模型已被上 传至社区平台HuggingFace。 另据「IPO早知道」了解,智谱新模型GLM-4.6也将于近日发布,目前部分用户已可通过API接口调 用。 这意味着,DeepSeek和智谱这两家中国最为头部的大模型企业都有望迎来新的重大进展。 往前追溯,DeepSeek于8月正式发布 了DeepSeek-V3.1。本次升级包含以下主要变化:1、混合 推理架构:一个模型同时支持思考模式与非思考模式;2、更高的思考效率:相比 DeepSeek-R1- 0528,DeepSeek-V3.1-Think 能在更短时间内给出答案;3、更强的 Agent 能力:通过 Post- Training 优化,新模型在工具使用与智能体任务中的表现有较大提升。 国内两家最头部的大模型企业。 本文为IPO早知道原创 作者| Stone Jin 微信公众号|ipozaozhidao 而智谱则在7月新一代旗舰模型 GLM-4.5,专为智能体应用打造的基础模型,其首次在单个模型中 实现将推理、编码和智能体能力原生融合,以满足智能体应用的复杂需 ...
速递|Meta已签署1.4亿美元大单,德国AI初创公司Black Forest Labs,新一轮估值冲高40亿美元
Z Potentials· 2025-09-29 09:42
图片来源: Black Forest Labs 英国《金融时报》 报道 ,德国人工智能初创企业 Black Forest Labs 正洽谈 2 亿至 3 亿美元融资。 据《金融时报》援引知情人士消息,这家 AI 图像生成公司的融资谈判仍处早期阶段,具体金额可能变动。 《金融时报》称,新一轮融资将使该公司估值达到约 40 亿美元,凸显投资者对潜力 AI 技术的热忱。 Black Forest Labs 是欧洲少数自主开发 AI 模型的企 业之一。 参考资料 https://www.bloomberg.com/news/articles/2025-09-28/germany-s-black-forest-labs-explores-raising-200m-300m-ft?srnd=phx-technology 编译: ChatGPT 我们正在招募新一期的实习生 -----------END----------- 我们正在寻找有创造力的00后创业 关于 Z Potentials Z Potentials 7P 公众号 社群 我们与Z Potentials同频共振, 交流和分享你们的故事和想法, 我们会是最好的倾听 ...