量子位

搜索文档
谢赛宁团队新作打破“多语言诅咒”!MetaCLIP 2支持300多种语言,英语性能反倒提升了
量子位· 2025-07-31 06:51
行业突破 - 全球互联网数据中超过50%为非英文内容 但传统CLIP模型主要基于英文数据训练 凸显多语言处理需求[1] - 多语言CLIP面临两大核心挑战:缺乏非英语数据筛选方法 以及英语性能下降的"多语言诅咒"[2] 技术创新 - MetaCLIP 2实现三大突破:建立300多种语言处理流程 优化数据筛选算法 提升模型容量[2][8] - 采用"NoFilter"理念 通过概念平衡替代语言过滤 构建多语言视觉概念词典(含WordNet和维基百科词汇)[3][5][15] - 数据筛选机制创新:语言识别+定制化标准 控制常见与罕见概念比例 确保数据分布合理性[16][17] 性能表现 - 打破"多语言诅咒":英语ImageNet准确率达81.3% 超越纯英语CLIP的80.5%[24][25] - 多语言任务创SOTA:Babel-ImageNet分类准确率50.2% XM3600跨语言检索准确率64.3%[26][27] - 文化多样性优势:在Dollar Street/GLDv2等数据集 Top-5准确率最高达69.0%[28][29] 技术细节 - 训练规模显著扩大:ViT-H/14模型使用290亿样本 较基线扩大2.3倍[19][23] - 模型容量关键作用:ViT-H/14架构成功消除多语言诅咒 实现英语与非英语能力同步提升[19] - 参数调整策略:将平衡阈值t从20k提升至170k 适配十亿级数据规模[12] 行业影响 - 研究团队含MIT博士及OpenAI资深专家 技术路线获行业认可[3][4] - 完整开源生态:发布论文及代码库 推动多模态领域发展[32]
阿里闪电入局Agent Infra!智能体新基建亮相WAIC,“超级大脑”开箱即用
量子位· 2025-07-31 06:51
AI基建与Agent发展 - 大模型时代下AI基建重要性凸显,全球巨头如马斯克19天内组建10万块H100 GPU,扎克伯格计划建设1GW+超算集群 [1] - WAIC 2025显示模型应用成为发展主旋律,基础设施呈现更细化进展 [1] Agent Infra领域动态 - Agent Infra概念被敏锐厂商捕捉,AWS发布Amazon Bedrock AgentCore智能体沙盒并投入1亿美元研发资金 [3] - 阿里云在WAIC推出首款专为AI Agents设计的"无影AgentBay",提供云端沙箱环境支持3行代码快速部署 [3][7] 无影AgentBay核心功能 - 覆盖Linux、Windows、Android等系统层及Browser Use、Code Space等应用层环境,支持移动终端开发 [9] - 支持视觉理解、自然语言控制、任务解析等多模态交互方式,提供原子化工具API和远程串流协议 [11] - 升级跨平台数据漫游系统,实现状态和内存级持久化,减少重复登录操作 [12] - 提供企业级安全沙箱,采用数据加密传输和权限隔离,实现本地环境零侵入 [13] - 基于阿里云算力支持秒级弹性伸缩与千级并发运维能力 [13] Agent落地挑战与解决方案 - 开发环境与算力是Agent落地两大难题,本地设备难以满足高并发、高算力需求 [15] - 无影AgentBay通过云端高性能环境解决硬件限制,自带海量MCP工具并支持可视化操作 [16] - 该方案降低部署门槛,节省运行时间,加速AI Agents规模化进程 [17][18] 行业竞争与市场格局 - 阿里云与AWS在Agent Infra领域同步发力,阿里云产品比AWS早三个月推出 [16][21] - 阿里云2024年下半年稳居中国公有云市场首位,AI收入连续六个季度三位数增长 [22][23] - Agent大规模落地需新基建支持,要求云厂商兼具云技术、AI技术及行业洞察能力 [20][21]
WAIC 2025落幕,AI硬件终于找到突破口
量子位· 2025-07-31 06:51
AI硬件行业趋势 - AI硬件在各类终端实现商业落地,其中耳机成为最受消费者青睐的产品[1][2][3] - 行业存在功能同质化问题,许多产品因缺乏真实价值而昙花一现,例如估值10亿美元的Humane未能持续[7][9] - 垂直细分场景成为突破方向,办公会议因其高频刚需特性成为理想切入点[10][12][14] 未来智能公司战略 - 聚焦办公会议垂直场景,推出AI会议耳机Pro 3和Air 2,内置viaim大脑AI Agent[3][19] - 采用"阶梯式进化"路径,目标是从耳机进化成软硬件一体的Agentic AI办公助理[31][32][35] - 制定5+X产品法则,优先保障音质、降噪等五大硬件基础,再叠加AI功能[41][42][43] 技术护城河构建 - 自研viaim大脑架构,从硬件层面重构AI交互设计,优化数据采集与传输协议[22][23][27] - 提出新增蓝牙"AI交互模式",解决传统协议无法高效传输连续语音数据的问题[28][29] - 通过"感知-理解-推理-行动"四大模块协同,实现从被动响应到主动预判的升级[33][34] 商业发展路径 - 入选上海市重点签约项目,获得政策支持[4] - 纵向深化单点能力如轻量化多模态大模型,横向拓展终端生态构建"一脑多端"矩阵[46] - 预测未来5-10年可穿戴设备将催生新通用计算平台,垂直方案可能融合发展[47][48] 产品设计理念 - 反对"为智能而智能",强调硬件基础价值优先于AI噱头功能[36][37][39] - 耳机具备贴近用户、不占用视觉、低学习成本等天然交互优势[16][17] - 通过持续收集语音数据形成数据护城河,强化场景闭环能力[16][44]
张朝阳对话理论物理学家汤大卫:我们来自量子涨落,也都是恒星的尘埃
量子位· 2025-07-31 06:51
物理学发展历程 - 牛顿力学起源于开普勒三定律与牛顿的平方反比引力定律推导,关键突破在于利用平方反比律证明行星椭圆轨道[2][3] - 分析力学(拉格朗日/哈密顿体系)比牛顿力学更强大,能统一处理对称性问题并为量子力学算符理论奠定基础[5][6][7] - 量子力学诞生于1925年海森堡的矩阵力学,其核心价值在于揭示世界的离散性本质而非哲学讨论[25][26][29][30] - 量子场论经过1925-1950年发展成型,标准模型精度达到电子磁矩13位小数吻合,成为描述宇宙的基础框架[33][34] 前沿物理研究 - 流体力学在夸克-胶子等离子体研究中展现价值,纳维-斯托克斯方程可描述这种新物质形态[8][9] - 引力波观测推动黑洞研究,近期发现300-400太阳质量黑洞碰撞事件挑战现有认知[22] - 宇宙结构源于138亿年前量子涨落,暴胀机制仍待研究,地外生命存在概率存在学科争议[22][24] 科学传播方法论 - 科普应避免过度简化类比(如薛定谔的猫),需保留数学严谨性以传达物理本质[30][38][41] - 互联网时代科学家可通过自媒体直接参与公众教育,但需平衡研究时间与传播投入[35][36][37] - AI辅助科研呈现两重性:能高效处理脚本等基础工作,但尚无法替代理论构建与创造性证明[10][11][37]
机器人终于能帮人洗衣服了
量子位· 2025-07-31 06:51
机器人技术进展 - Figure公司发布Figure 02机器人在家庭环境中完成洗衣任务的演示视频,这是首次在真实家庭环境实现该操作[1][3] - 机器人能够半蹲并双手协作完成洗衣动作,包括拿衣篓、调整衣物位置等[2] - 该任务已在办公室连续测试一个月,标志着从工业场景到家庭场景的跨越[3][5] 工业与家庭场景差异 - 工业场景具有结构化、重复、确定的特点,物体位置固定且标准化[7] - 家庭场景充满不确定性和不透明性,布置多样且任务目标模糊[8] - 家庭环境需要与人类长期交互,要求机器人保持稳定性和安全性[9] 洗衣任务技术挑战 - 洗衣任务需要处理不同种类、数量、重量和材质的衣物[10] - 柔性物体如衣物缺乏稳定外形和清晰可供性,增加感知和操作难度[13] - 任务需要抓握控制、动态视觉、物体识别、力反馈等多种能力协同[13] Helix系统技术特点 - 采用端到端双系统VLA架构,包含System 2和System 1两个子系统[15][17] - System 2是7B视觉语言模型,负责高层语义推理[17] - System 1是8000万参数Transformer模型,实现200Hz高速身体控制[17] - 系统结合语言、图像和机器人状态信息,具备高度泛化与响应能力[17] 全身控制技术突破 - 洗衣demo展示腿部参与的全身控制,需要调整位姿并保持稳定[19] - 超过40秒的长程任务难度大,体现技术突破[20] - 当前展示并非完整洗衣流程,是分步实现家庭场景应用的必经之路[21] 其他技术进展 - 6月发布快递分拣demo,处理时间缩短至4.05秒/件,条形码扫描成功率95%[22] - 7月发布F.03电池,提升能量密度并优化安全性与可靠性[24][25] 行业发展趋势 - 机器人正从受控工业空间逐步进入不可预测的人类生活场景[11] - 现代机器人通过分解任务、增加约束的方式实现从工业到家庭的跃迁[21]
随手拍照片就能VR云旅游!无位姿、稀疏图像条件下实现稳定3D重建和新视角合成|港科广
量子位· 2025-07-31 04:23
3D重建技术突破 - 新算法RegGS可将零散2D图片拼接成厘米级精度的3D数字模型 效果可直接用于VR云旅游场景 [1][2] - 传统NeRF方法计算代价高且难以收敛 NoPose类前馈模型仅能处理极少图片 无法适应大规模场景 [3] - RegGS通过局部3D高斯表示注册与融合 解决了优化方法不鲁棒与前馈方法不灵活的核心矛盾 [4] 技术实现机制 - 采用高斯混合模型结构配准机制 避免依赖SfM初始化 适应图像输入数量少的现实环境 [6][8] - 引入熵正则化Mixture Wasserstein-2距离作为高斯分布对齐度量 在Sim(3)空间联合优化尺度/旋转/平移 [12] - 融合MW2距离/颜色一致性/深度一致性 构建由粗到细的3DGS配准模块 [12] 性能验证与应用场景 - 在RE10K和ACID数据集测试中 PSNR/SSIM/LPIPS指标全面领先主流方法 支持2×至32×不同输入帧数 [9] - 适用于UGC视频3D化 无人机航拍建图 历史图像还原等场景 对非结构化输入更具可行性 [13] - 相比传统SfM或Bundle Adjustment方法 不依赖全局可视性与特征匹配 结构性要求更低 [13] 技术局限性 - 当前性能受限于上游前馈模型生成质量 MW_2距离计算带来额外开销 [13]
小扎改口不开源,Meta股价暴涨12%
量子位· 2025-07-31 04:23
Meta财报表现 - 第二季度营收475.2亿美元,同比增长22%,超出预期的448亿美元 [2][10] - 净收入183亿美元,同比增长36% [2][10] - 广告收入仍是主要来源,应用内广告展示量同比增长11% [11] - Reality Labs部门运营亏损45.3亿美元,2020年以来累计亏损近700亿美元 [12] - 资本支出达170.1亿美元,员工人数同比增7%至75945人 [13][14] - 股价盘后大涨12%,市场对AI投入持乐观态度 [16] AI战略调整 - 资本支出预算从640亿美元上调至660亿美元,2025年总支出预计1140-1180亿美元 [17][18] - 重点投资AI基础设施和技术人才招聘,薪酬支出将显著增加 [18] - 计划以初创公司模式运营超级智能部门,脱离现有体系约束 [35] - 从开源转向闭源策略,强调"谨慎选择开源内容" [26][27] 超级智能愿景 - 提出"个人超级智能"概念,目标是为个体赋能而非集中化自动化 [22][44] - 智能眼镜被视为核心载体,因其能实时感知用户环境并交互 [24][25] - 技术路径尚不清晰,未定义具体实现方式及安全措施 [38][39] - 公开信强调未来十年是技术路线关键决策期 [27][46] 行业动态 - 中国模型已主导开源榜单,与Meta策略转向形成对比 [4][6] - 开源争议持续,Llama系列曾被质疑未完全开源 [31] - 市场对Meta的AI投入保持信心,但对其战略可行性存疑 [9][37]
全网疯传GPT-5泄露!首次统一GPT和o系列,编程实测demo抢先曝光,下周发布?
量子位· 2025-07-31 04:23
GPT-5发布动态 - GPT-5即将发布,全网出现多平台"偶遇"现象,包括ChatGPT、MacOS应用模型列表、Cursor、微软Copilot及OpenAI API平台[1][2][3][5] - 微软Copilot上的GPT-5将向所有人开放且不受订阅限制,OpenAI CEO奥特曼曾表示GPT-5将免费向用户开放[12] - 微软正试行Copilot的"Smart模式",能智能判断何时调用GPT-5的深度推理与多模态能力,Azure也在为集成GPT-5做准备[28] 技术能力升级 - 实现GPT系列与o系列技术整合,完成多模态和推理能力大一统,无需手动切换模型[11][14] - 输入上下文窗口达100万tokens,输出达10万tokens,支持MCP协议与并行工具调用[19] - 动态处理短时/长时推理,集成Code Interpreter等工具,性能更快且减少幻觉[19] - 高级编程能力接近人类程序员水平,可自动编写高质量游戏原型并支持应用程序定制[16][17] 模型版本架构 - 主模型GPT-5(代号o3-alpha)具备最强综合能力[15] - GPT-5 mini(代号lobster)为专用编程模型,精度优于Claude 4,能处理复杂编码任务并优化遗留代码[22] - GPT-5 nano(代号starfish)已出现在模型竞技场测试中,目前仅能制作静态游戏界面[25][27] 行业反应与质疑 - 社区对GPT-5保持谨慎态度,认为可能存在发布后性能下降或安全限制导致能力缩水[33][34] - 马库斯提出7项悲观预测,包括持续存在幻觉问题、难以处理复杂推理任务、无法稳定遵循人类价值观等[35][37] - 部分观点认为泄漏事件可能是OpenAI的炒作行为,网友呼吁尽快发布以验证实际性能[39][40]
15.8万全尺寸人形抱回家!逐际动力让具身机器人也有经济适用款:31自由度,二开友好度拉满
量子位· 2025-07-31 02:29
产品介绍 - 逐际动力推出全尺寸全自由度人形机器人LimX Oli,身高165cm,机身自由度31个,单臂最大负载3kg,行走最大速度5km/h [10][11][12][20] - 产品定位为通用人形构型,最大化适配现实生活和生产场景任务需求,价格15.8万起售 [13][17][83] - 机器人具备高灵活性和泛化能力,动作演示包括行走、单足站立、跳跃及复杂手臂交互 [4][6][8][38] 技术优势 - 165cm全尺寸设计匹配90%以上人类生活场景交互需求,无需额外改造环境 [25][28][29] - 31个主动自由度超过特斯拉Optimus二代(30个),支持躯干扭转、颈部旋转等复杂动作链 [33][35][37] - 模块化硬件设计允许灵活扩展传感器和末端执行器,软件层面提供全开放SDK系统支持Python开发 [58][61][65][68] 市场定位 - 瞄准高校科研团队、AI算法开发者和系统集成商三类群体,解决封闭式机器人二次开发难题 [49][50][56] - 价格仅为同类产品单臂模块成本,推动全尺寸人形机器人进入经济适用阶段 [83][84][88] - 通过OTA升级机制和标准化接口降低使用门槛,加速具身智能在医疗、教育等场景落地 [70][72][92] 行业影响 - 填补全尺寸人形机器人在高任务复杂度和广泛落地场景的技术空白 [44] - 价格策略打破行业动辄百万的定价惯例,降低科研和初创团队使用门槛 [89][91] - 开放生态战略(IDS)推动行业从封闭成品向标准化开发平台转型 [55][74][79]
阿里安全揭示:恶意邮件可致macOS/iOS瞬间瘫痪!畸形证书发现密码库新漏洞
量子位· 2025-07-30 23:56
核心观点 - 阿里安全与美国印第安纳大学伯明顿分校联合发现了一种新型攻击向量——畸形X509证书,可导致主流密码算法库和Apple生态系统的安全漏洞,引发远程DoS攻击[1][2][4] - 该研究在七款密码算法库中发现了18个新CVE漏洞和12个已知漏洞,其中Apple Security库的漏洞可导致macOS/iOS系统瘫痪[4][30] - 研究成果已发表于USENIX Security'25会议并获得Pwnie Awards提名,开发了自动化工具X509DoSTool用于漏洞检测[3][13][28] 技术原理 X509证书机制 - X509是国际通用的数字证书标准,用于TLS、S/MIME等协议,作为网络身份认证的基础[6] - 证书解析和验证环节存在缺陷时,攻击者可通过构造畸形证书触发CPU/内存资源耗尽[7][8] 攻击场景分类 - 数学模块:涉及椭圆曲线运算时未限制参数大小导致资源耗尽[24][26] - ASN1模块:DER编码解析时缺乏对字段长度和数量的校验[24][26] - X509模块:证书链验证过程中存在循环引用等逻辑缺陷[25][26] 漏洞影响 实验发现 - 在OpenSSL、Botan等六款开源库和Apple Security库中共计发现30个漏洞[4] - 风险矩阵显示Bouncy Castle存在6个Risk1漏洞,Crypto++存在Risk4和Risk5漏洞[5] 实际攻击案例 - CVE-2024-34703:通过畸形证书瘫痪基于Botan的HTTPS网站[30] - CVE-2024-54538(Banana Mail攻击):通过恶意邮件使macOS/iOS系统崩溃[8][30] 防御方案 开发实践 - 建议增加输入校验机制,限制动态内存分配大小[32] - 采用高效算法实现(如F_{2^m}乘法运算)可降低攻击效果[32] 系统优化 - 限制证书大小(如OpenSSL默认100KiB上限)增加攻击成本[33] - 逐步淘汰不安全特性(如自定义椭圆曲线)采用NIST标准曲线[33] 研究价值 - 首次系统性地揭示了密码算法库中的DoS风险谱系,提出10类典型风险[13][26] - 证明了X509证书作为通用攻击向量的可行性,推动安全社区关注密码学可用性漏洞[12][34]