Workflow
量子位
icon
搜索文档
15.8万全尺寸人形抱回家!逐际动力让具身机器人也有经济适用款:31自由度,二开友好度拉满
量子位· 2025-07-31 02:29
产品介绍 - 逐际动力推出全尺寸全自由度人形机器人LimX Oli,身高165cm,机身自由度31个,单臂最大负载3kg,行走最大速度5km/h [10][11][12][20] - 产品定位为通用人形构型,最大化适配现实生活和生产场景任务需求,价格15.8万起售 [13][17][83] - 机器人具备高灵活性和泛化能力,动作演示包括行走、单足站立、跳跃及复杂手臂交互 [4][6][8][38] 技术优势 - 165cm全尺寸设计匹配90%以上人类生活场景交互需求,无需额外改造环境 [25][28][29] - 31个主动自由度超过特斯拉Optimus二代(30个),支持躯干扭转、颈部旋转等复杂动作链 [33][35][37] - 模块化硬件设计允许灵活扩展传感器和末端执行器,软件层面提供全开放SDK系统支持Python开发 [58][61][65][68] 市场定位 - 瞄准高校科研团队、AI算法开发者和系统集成商三类群体,解决封闭式机器人二次开发难题 [49][50][56] - 价格仅为同类产品单臂模块成本,推动全尺寸人形机器人进入经济适用阶段 [83][84][88] - 通过OTA升级机制和标准化接口降低使用门槛,加速具身智能在医疗、教育等场景落地 [70][72][92] 行业影响 - 填补全尺寸人形机器人在高任务复杂度和广泛落地场景的技术空白 [44] - 价格策略打破行业动辄百万的定价惯例,降低科研和初创团队使用门槛 [89][91] - 开放生态战略(IDS)推动行业从封闭成品向标准化开发平台转型 [55][74][79]
阿里安全揭示:恶意邮件可致macOS/iOS瞬间瘫痪!畸形证书发现密码库新漏洞
量子位· 2025-07-30 23:56
核心观点 - 阿里安全与美国印第安纳大学伯明顿分校联合发现了一种新型攻击向量——畸形X509证书,可导致主流密码算法库和Apple生态系统的安全漏洞,引发远程DoS攻击[1][2][4] - 该研究在七款密码算法库中发现了18个新CVE漏洞和12个已知漏洞,其中Apple Security库的漏洞可导致macOS/iOS系统瘫痪[4][30] - 研究成果已发表于USENIX Security'25会议并获得Pwnie Awards提名,开发了自动化工具X509DoSTool用于漏洞检测[3][13][28] 技术原理 X509证书机制 - X509是国际通用的数字证书标准,用于TLS、S/MIME等协议,作为网络身份认证的基础[6] - 证书解析和验证环节存在缺陷时,攻击者可通过构造畸形证书触发CPU/内存资源耗尽[7][8] 攻击场景分类 - 数学模块:涉及椭圆曲线运算时未限制参数大小导致资源耗尽[24][26] - ASN1模块:DER编码解析时缺乏对字段长度和数量的校验[24][26] - X509模块:证书链验证过程中存在循环引用等逻辑缺陷[25][26] 漏洞影响 实验发现 - 在OpenSSL、Botan等六款开源库和Apple Security库中共计发现30个漏洞[4] - 风险矩阵显示Bouncy Castle存在6个Risk1漏洞,Crypto++存在Risk4和Risk5漏洞[5] 实际攻击案例 - CVE-2024-34703:通过畸形证书瘫痪基于Botan的HTTPS网站[30] - CVE-2024-54538(Banana Mail攻击):通过恶意邮件使macOS/iOS系统崩溃[8][30] 防御方案 开发实践 - 建议增加输入校验机制,限制动态内存分配大小[32] - 采用高效算法实现(如F_{2^m}乘法运算)可降低攻击效果[32] 系统优化 - 限制证书大小(如OpenSSL默认100KiB上限)增加攻击成本[33] - 逐步淘汰不安全特性(如自定义椭圆曲线)采用NIST标准曲线[33] 研究价值 - 首次系统性地揭示了密码算法库中的DoS风险谱系,提出10类典型风险[13][26] - 证明了X509证书作为通用攻击向量的可行性,推动安全社区关注密码学可用性漏洞[12][34]
DeepSeek下一代技术提前曝光,梁文锋署名论文获ACL2025最佳论文奖
量子位· 2025-07-30 23:56
论文获奖与技术突破 - DeepSeek梁文锋与北京大学联合发表的论文荣获ACL 2025最佳论文奖,论文提出原生稀疏注意力(NSA)机制[1] - ACL 2025总投稿量达8360篇,较去年4407篇增长近一倍,竞争激烈[2] - NSA机制通过算法与硬件协同优化,将长文本处理速度提升11倍,性能超越传统全注意力模型[3] NSA技术细节 - NSA采用动态分层稀疏策略,包含三条并行注意力分支:压缩注意力(全局信息)、选择性注意力(关键词块)、滑动注意力(局部上下文)[10][17] - 架构针对现代GPU深度优化,实现端到端原生可训练模式[13] - 处理64k长度序列时,NSA解码速度提升11.6倍,前向传播提升9倍,反向传播提升6倍[15][16] 性能表现 - 27B参数NSA模型在9项基准测试中7项超越全注意力基线,DROP提升0.042,GSM8K提升0.034[19] - 64k上下文"大海捞针"测试中检索准确率100%,LongBench基准平均分0.469,领先全注意力基线0.032[21] - 微调后NSA-R模型在AIME 24数学测试中,8k上下文准确率0.121(全注意力0.046),16k上下文达0.146(全注意力0.092)[22][23] 应用前景 - 技术可扩展至1百万tokens上下文长度,预计应用于下一代DeepSeek-V4及DeepSeek-R2模型[4][6] - 实验使用DeepSeek-R1蒸馏数据微调新模型,显示技术迭代路径[5] 其他获奖研究 - 北大团队揭示语言模型对齐后易因微调"反弹",需开发更稳固的对齐技术[26] - 斯坦福研究提出"差异感知"公平性新视角,发现传统去偏见方法可能削弱模型情境判断力[28] - 亥姆霍兹中心指出LLMs生成回答存在向"理想值"偏移现象,可能导致医疗等领域决策偏差[29]
这是最新AI产品百强 | 量子位智库AI 100
量子位· 2025-07-30 23:56
行业现状与趋势 - 国内AI产品从高速爆发期进入精细打磨阶段,用户红利触顶,产品体验同质化加剧 [2][3] - 行业竞争焦点从"有没有"转向"好不好""用多久""还用不用",留存和持续价值成为关键 [3][4] - AI产品进入"效率时代",比拼持续可用性和精细运营能力,系统化能力成为破局关键 [12][13] 旗舰100榜单分析 - 头部5款AI产品占据过半市场份额,豆包、夸克、DeepSeek成为首批国民级AI产品 [9] - AI智能助手是最热门方向,占Web和APP端约40%活跃用户,其次为AI教育和AI搜索 [9] - 大厂凭借产品化、运营和数据反馈优势建立用户长期信任,呈现"强者恒强"格局 [9][12] 创新100榜单特点 - 聚焦快速增长、未完全商业化但具技术突破和场景独创潜力的产品 [14][15] - 垂类AI可行性上升,医疗健康、心理疗愈等细分领域出现差异化突破 [19] - AI 3D/视频生成(如Meshy、Vidu)和编程AI Agent(如通义灵码)成为新兴方向 [18] 生态结构 - 旗舰产品代表成熟使用方式,从工具向助手升级 [22] - 创新产品代表新需求验证,需跨越冷启动风险但蕴含爆款潜力 [17][21] - 双榜单共同构成AI产业"双螺旋结构",反映当下与未来的协同发展 [22] 数据与评估方法 - 评估体系结合定量(用户规模、增长、活跃、粘性等20+指标)与定性(技术、市场、团队等)维度 [7][10] - Web/APP双端数据显示头部产品垄断趋势,部分赛道用户集中度超50% [9] - 传统赛道如AI创作、AI陪伴面临同质化挑战,中小产品易被大厂压制 [11]
腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界生成系统
量子位· 2025-07-30 09:44
腾讯混元3D世界模型1.0发布 - 腾讯在2025年世界人工智能大会(WAIC)上正式发布混元3D世界模型1.0 这是首个开源且兼容传统CG管线的可漫游世界生成模型 [1] - 模型可通过腾讯混元3D生成引擎体验 海内外均可使用 正式开源后也可在Hugging Face等开源社区下载模型本地部署 [2] 技术突破与核心优势 - 模型融合视频驱动和三维驱动两类方法优势 解决现有技术缺乏3D一致性、数据稀缺等问题 [3][4] - 三大核心优势:360°沉浸体验、工业级兼容性、原子级交互 支持文本或图像输入生成可探索3D场景 [5][6] - 采用生成式架构 结合全景图像合成与分层3D重建技术 实现高质量可漫游3D场景生成 [7] 关键技术实现 - 全景世界代理生成基于扩散变换器(DiT)框架 支持文本和图像输入 [11][12][13] - 引入高程感知增强和环形去噪策略 解决几何畸变和边界不连续问题 [16][17] - 提出语义层次化3D场景表征及生成算法 实现前景与背景智能分离 [21][22] - 采用深度估计模型和跨层深度匹配技术 确保几何连贯性 [23] 应用场景 - 支持VR应用 生成360°无缝覆盖环境 可部署至Apple Vision Pro等主流VR平台 [36] - 游戏开发应用 生成3D网格世界可导出为标准格式 无缝集成Unity和Unreal Engine [37] - 物体编辑应用 支持对单个元素进行精确3D操控 适用于建筑预览等领域 [38] - 物理仿真应用 导出的分层网格兼容主流物理引擎 支持碰撞检测等真实世界行为仿真 [39] 性能表现 - 文生360°全景指标表现优异:BRISQUE(40.8)、NIQE(5.8)、Q-Align(4.4)、CLIP-T(24.3) 优于同类模型 [19] - 支持长距离世界探索 提出基于视频生成的视图补全模型Voyager 实现空间一致的世界拓展 [30][32][33]
亿万打工人在用的WPS,未来可能要重塑你的工作流
量子位· 2025-07-30 09:44
核心观点 - 金山办公在WAIC论坛发布WPS AI 3.0,推出原生Office办公智能体WPS灵犀,整合AI PPT、AI写作、AI搜索等多模态功能,实现办公场景的深度智能化[1][4][9] - WPS知识库作为国内首款基于原生Office文档的知识库产品,支持云端文档一键升级为知识库,解决知识碎片化检索和管理难题[5][13][15] - WPS灵犀通过"左侧Office套件、右侧WPS灵犀"的同屏交互形态,实现人机协同编辑的无缝衔接,显著提升办公效率[10][36][54] WPS知识库 - 支持WPS云文档一键升级为知识库,兼容表格、PPT、PDF等多样格式,无需重新上传积累[15][18] - 具备语义检索能力,可自然语言提问并直接返回答案,例如查询销售数据时能自动整理区域、客户类型等多维度信息[16][17] - 表格处理能力突出,支持最大10万行×10万列的复杂表格识别,合并单元格和跨页表格召回精准度行业领先[19] - 提供多人协作功能,通过文件夹、成员、角色三层权限分级保障私域知识安全,并推出小程序版本实现移动端同步[19] WPS灵犀功能 AI写作 - 预设丰富写作模板,覆盖小红书文案、调研报告等长短内容创作,生成内容可自动匹配文档格式并支持对比式修改[22][23][34] - 支持复杂格式处理,如将高中物理试卷完整翻译英文时能精准保留数学符号和表格结构[35] AI PPT - 采用"大纲交互+分步生成"模式,用户可通过自然语言指令调整内容结构,例如为《岳阳楼记》课件添加课后作业板块[38][39][43] - 支持文本框级实时编辑,图片、版式、动画等元素均可自定义替换,实现"格式无损"的PPT生成[45][47][51] 其他功能 - 集成全网搜索、AI生图功能,可一次性生成多组风格图片并直接插入文档,避免多工具切换[52][53] - 读文档功能支持50文件批量处理,能总结内容、提取关键信息并生成思维导图[53] 技术优势 - 依托金山办公30年文档处理经验,内置成千上万格式处理API,解决AI生成内容与办公软件兼容性问题[57][58] - 采用AI原生功能设计,实现软件与AI的"无损通信",确保操作上下文逻辑不丢失[59][61] - 重构用户、AI与软件交互关系,形成自然语言对话+传统界面操作+API调用的三重协作链路[60][62]
Qwen全面升级非思考模型,3B激活、256K长文、性能直逼GPT-4o
量子位· 2025-07-30 09:44
Qwen3-30B-A3B-Instruct-2507模型发布 - 全新非思考模型Qwen3-30B-A3B-Instruct-2507闪电上线,是Qwen3-30B-A3B的高质量指令微调版本[2][7] - 仅激活3B参数即媲美Gemini 2.5-Flash和GPT-4o等顶尖闭源模型性能[3] - 相较前代非思考模型,推理能力(AIME25)提升183.8%,对齐能力(Arena-Hard v2)提升178.2%,长文本处理能力从128K提升至256K[4][5] 模型性能优势 - 在多语言长尾知识覆盖、主观与开放任务文本质量、代码生成、数学计算、工具使用等通用能力上全面进步[5] - 在长文本处理任务中展现出惊人稳定性,极端情况下仅偶尔遗漏少量文档,而其他模型会出现大面积内容丢失[10] - 支持256K上下文窗口,具备稳健的长程依赖建模能力,能保持语义连贯和细节清晰[11] Qwen3系列产品矩阵 - Qwen3系列包含不同参数量和激活参数的模型,如旗舰模型Qwen3-235B-A22B(235B总参数/22B激活参数)和较小模型Qwen3-30B-A3B(30B总参数/3B激活参数)[14][15] - 针对不同场景推出密集(Dense)模型,参数量从0.6B到32B不等[14][16] - 提供多种量化策略版本,包括FP8、Int4、AWQ、GGUF、GPTQ等[16] - 模型命名系统清晰标注参数规模、精度格式和训练类型等信息[13][15] 行业影响 - 模型更新速度极快,一周内发布多款新模型,包括Qwen3-235B-A22B-Thinking-2507和Qwen3-Coder-480B-A35B-Instruct等[12][15] - 产品矩阵覆盖从研究到应用、从大厂集群到边缘部署的各种需求[18] - 网友评价其更新速度"疯狂",认为其他竞争者难以匹敌[5]
从OpenAI离职创业到估值1700亿美元,Anthropic用4年时间引硅谷巨头疯狂押注
量子位· 2025-07-30 09:44
融资与估值 - Anthropic即将达成新一轮50亿美元融资,总估值达1700亿美元[1] - 成为继OpenAI后第二家千亿估值的AI独角兽公司[2] - 估值从3月的615亿增长至1700亿,涨幅近3倍[3][5] - 融资总额将突破200亿美元大关[16] 竞争对手动态 - OpenAI最新估值达3000亿美元,xAI寻求2000亿美元估值融资[4] - Anthropic估值仅次于OpenAI和SpaceX(约4000亿)[8] 投资方与融资细节 - 本轮融资由Iconiq Capital主导,预计投资10亿美元[8] - 亚马逊可能参与本轮融资,此前已累计投资80亿美元[9][14] - 谷歌累计投资30亿美元[15] - 上一轮领投方Lightspeed继续参与,其他潜在投资方包括Menlo Ventures等[10] 产品与技术优势 - Claude 3.7 Sonnet在SWE-bench测试中超越GPT-4(70.3% vs 62.3%)[19][20] - Claude Opus 4在复杂任务理解上超越GPT-4和Gemini 1.0 Ultra[22] - Claude Code支持自然语言生成代码,主导代码生成领域[22][23] 收入与商业模式 - 70-75%收入来自API调用付费(如Claude Sonnet 4每百万token收费3/6美元)[25] - 消费者服务(如Claude Pro)仅占总收入10-15%[26] - 年化收入从年初10亿增长至40亿,预计年底达90亿[27] - 代码生成业务贡献主要收入增长,消耗token量为普通对话10-50倍[24][27] 战略合作 - 亚马逊为最大投资者,Anthropic优先使用AWS云服务及定制AI芯片[14] - 与亚马逊、谷歌达成深度合作,强化研发与市场竞争力[12][14][15]
1.5B刷新数学代码SOTA!快手&清华精细化Token管理,LLM推理能力飙升
量子位· 2025-07-30 09:44
模型创新 - 快手和清华团队开发的Archer方法采用1.5B参数小模型,在数学和代码推理任务上超越同量级SOTA模型[1][3] - 核心创新在于对模型学习过程进行精细化管理,区分知识型(低熵)和推理型(高熵)Token进行差异化训练[2][10] - 该方法通过"双Token约束"机制,实现知识稳定性和推理探索性的平衡,避免传统方法的知识退化或推理受限问题[9][21] 技术实现 - 采用句子级熵统计替代批次级统计,精准识别Token类型(高熵Token如"循环"、"判断",低熵Token如"123"、"print")[11][12] - 差异化训练规则:对高熵Token采用松约束(高裁剪阈值+弱KL正则),低熵Token采用紧约束(低裁剪阈值+强KL正则)[17] - 训练效率显著提升,仅需单阶段训练和1900 H800 GPU小时,远低于同类模型16000 H100小时的资源消耗[20] 性能表现 - 数学推理:在AIME24/25等基准测试中,Archer-Math-1.5B平均正确率达59.1%,较原始模型提升18.1%(AIME24)和10.3%(AIME25)[15][18] - 代码生成:在LiveCodeBench v5/v6上平均正确率29.8%,较DAPO方法提升3.4%(v5)和2.6%(v6),成为同量级最佳代码模型之一[16][19] - 全面超越FastCuRL、Nemotron等同量级SOTA模型,验证小模型通过优化训练方法可实现性能突破[18][19] 行业意义 - 突破当前大模型依赖参数规模的增长路径,证明精细化训练管理可释放小模型潜力[1][24] - 开源代码(GitHub链接)推动行业技术共享,可能改变AI研发资源投入方向[4][25] - 方法论适用于数学推理、代码生成等高难度任务,为垂直领域模型优化提供新思路[3][14]
腾讯入局具身智能,宇树首批用上“大脑”
量子位· 2025-07-30 09:44
腾讯具身智能战略 - 公司推出具身智能通用外接大脑Tarios平台,以模块化方式提供多模态、规划、感知算法及开发工具,不涉足硬件本体、量产和商业化[1][2][16] - 平台包含模型算法(多模态感知模型、规划大模型、感知-行动联合模型)和云服务(仿真平台、数据平台、开发工具),通过标准化接口和SDK提供服务[7][8][9][10][11] - 首批合作厂商包括宇树、越疆、乐聚等6家机器人企业,平台可灵活补足厂商在感知模块或长线程规划等领域的短板[12][13][15] Tarios平台技术架构 - 多模态感知模型类比人脑右脑,融合图像/语音/触觉数据实现3D建图和空间理解[8][9] - 规划大模型类比左脑,具备任务推理、子任务规划和少样本泛化能力[8][9] - 感知-行动联合模型类比小脑,实现像素到动作映射及零样本泛化[8][9] - 云服务提供仿真环境训练、三维视觉数据集和可视化开发工具链[9][11] 腾讯机器人技术路线 - RoboticsX实验室聚焦移动、操作和智能决策三大方向,研发成果包括机器狗Max和人居环境机器人"5号"[20][21] - 采用轮腿一体化设计而非双足人形,探索更适应现代人居环境的高效形态[24][25][26][27] - 提出SLAP层次化学习框架(感知/学习/行动/规划)和IDEAS发展框架(虚实集成/技术降槛等)[32][33] 行业合作与趋势 - 国内机器人硬件厂商从2018年稀缺发展到当前60家走访企业,推动公司专注软件层合作[30] - 行业需解决3D世界认知、动态环境交互等痛点,突破文本描述局限实现真正具身智能[32] - 平台目标推动行业进入"大哥大时刻",终极形态追求身智融合的适应性[34][35]