Workflow
量子位
icon
搜索文档
混元3D世界模型1.0 lite版本发布,消费级显卡就能跑
量子位· 2025-08-15 10:05
腾讯混元3D世界生成模型HunyuanWorld 1.0技术框架 - 核心功能为通过单句或单图输入生成360度全景3D世界,并支持沉浸式漫游[1][3][5] - 技术路径以全景图为桥梁分层实现3D生成,先通过2D技术生成无边界断裂的全景图,再拆分为天空/背景/前景等语义图层并标注深度转化为3D结构[9][11][15][16] - 采用点云缓存与视频扩散技术实现长距离场景无缝漫游,并优化双模式压缩存储以适应VR/游戏开发场景[18] 显存优化技术突破 - 初始版本需26GB显存,通过动态FP8量化技术将显存需求降至17GB以下(减少35%),适配消费级显卡[19][20][25] - SageAttention量化技术将Transformer注意力计算改用INT8,推理速度提升2倍且精度损失<1%[28][29] - Cache算法通过自动化搜参优化冗余时间步,显著提升推理效率[33] - 优化后全景代理生成显存从23.14GB降至13.80GB,世界分层从25.51GB降至16.17GB(4090显卡可运行)[32] 行业对比优势 - 生成质量优于开源竞品:画面清晰度/推理速度(分钟级vs小时级)/3D引擎兼容性/可编辑性全面领先[37][38][39] - 相比谷歌Genie3可生成可编辑3D mesh而非视频,且开源并提供单卡部署量化版本[41] - 技术方案兼容传统CG/3D工业生产管线,支持3DGS方案,实用价值高于闭源demo模型[42] 应用场景与开源生态 - 生成内容可导出为标准3D mesh格式,无缝接入游戏引擎/影视制作/物理仿真等二次创作[6][39] - 已全面开源并部署于GitHub/Hugging Face平台,提供技术报告与在线体验入口[43][44]
GPT-5超越人类医生!推理能力比专家高出24%,理解力强29%
量子位· 2025-08-15 06:44
GPT-5在医学领域的性能表现 - GPT-5在医学影像的推理和理解准确率分别比人类专家高出24.23%和29.40% [2] - 在MedXpertQA多模态测试中,GPT-5的推理和理解得分比GPT-4o分别提高近30%和36% [5][13] - GPT-5在USMLE考试中全面超越GPT-4o,且平均得分领先于其他模型 [10] 测试方法与数据集 - 测试分为三类:纯文本的USMLE考试、多模态的MedXpertQA测试和放射科的VQA-RAD测试,均为零样本设置 [7] - USMLE是美国医师执照考试,分为三个步骤:Step1考察基础医学知识,Step2聚焦临床应用知识,Step3侧重实践 [8][9] - MedXpertQA测试涵盖4460道题目,涉及17个医学专科和11个身体系统,数据源自超20个权威考试内容 [11] - VQA-RAD测试包含315张放射影像和3515个问答对,用于评估模型解读复杂医学图像的能力 [16] 模型对比结果 - 在文本测试中,GPT-5得分大幅领先人类专家,GPT-5-mini略超人类专家,而GPT-4o和GPT-5-nano均低于人类专家 [15] - 在多模态测试中,GPT-5推理超人类专家24%,理解超人类专家29%,GPT-5-mini也大幅超越人类专家 [15][16] - 在VQA-RAD测试中,GPT-5匹配率为70.92%,GPT-5-mini表现略优,匹配率达74.90% [16][17] GPT-5的技术优势 - GPT-5构建了端到端的多模态架构,通过共享标记化技术和跨模态注意力机制实现感知-推理-决策的无缝衔接 [18][19] - GPT-5与GPT-4o的核心差距是从文本主导的混合处理到原生多模态深度融合的代际跨越 [19] - 在推理密集型任务中,GPT-5的思维链提示与增强的内部推理能力形成协同效应,使其能更准确地完成多步推理 [19] 实际应用挑战 - 在模拟日常实践的复杂真实病例测试中,所有AI模型得分均低于实习医生,且远低于拥有执业资格的放射科医生 [20][22] - 尽管GPT-5在标准测试中表现优秀,但现实中患者情况千奇百怪,AI仍需更多实战考验 [19][22]
首个开源多模态Deep Research智能体,超越多个闭源方案
量子位· 2025-08-15 06:44
开源多模态Deep Research Agent - 首个开源多模态Deep Research Agent整合了网页浏览、图像搜索、代码解释器、内部OCR等多种工具,通过全自动流程生成高质量推理轨迹 [1] - 采用冷启动微调和强化学习优化决策,使模型能自主选择合适的工具组合和推理路径 [1] - 解决跨模态、跨工具、多步骤任务需要具备深度研究能力的Agent [5] 技术方案 - WebWatcher技术方案覆盖从数据构建到训练优化的完整链路,包含三大环节:多模态高难度数据生成、高质量推理轨迹构建与后训练、高难度基准评测 [6] - 多模态高难度数据生成采用全自动多模态数据生成流程,在真实互联网知识分布下生成复杂、跨模态、链路不确定的任务样本 [8] - 高质量推理轨迹构建与后训练采用Action-Observation驱动的轨迹生成方法,通过监督微调和GRPO强化学习提升决策能力 [14] 数据生成方法 - 在多源网页中进行随机游走采样,构建多领域实体图谱,问题解决路线难以预设 [10] - 生成问题时刻意隐藏关键信息并引入模糊指代词描述,迫使模型进行跨模态推理 [11] - 通过QA-to-VQA转换模块将复杂问题样本扩展为多模态版本,依赖跨模态理解能力 [12] 性能表现 - 在HLE-VL多步复杂推理基准上,WebWatcher以13.6%的Pass@1分数领先GPT-4o(9.8%)和Gemini2.5-flash(9.2%) [20] - 在MMSearch评测中Pass@1得分55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)大幅领先 [21] - 在LiveVQA场景下Pass@1成绩58.7%,领先Gemini2.5-flash(41.3%)和GPT-4o(34.0%) [22] - 在BrowseComp-VL基准上以27.0%的平均得分领先GPT-4o(13.4%)和Gemini2.5-flash(13.0%) [23]
国家级AI创新应用赛事杀疯了!超200万元奖金池+全场景赛道,冲线团队速来
量子位· 2025-08-15 06:44
大赛概况 - 第二届"兴智杯"全国人工智能创新应用大赛是国内规模最大、参赛主体最丰富的AI专业赛事,由工业和信息化部、科学技术部等共同主办,吸引1.6万+选手、9000+支团队报名[3][4] - 大赛定位"以赛促用、以赛促产",面向全社会开放,国内外AI相关企事业单位、高校团队及个人开发者均可参赛[5][6] - 大赛主题为"兴智赋能,创造无界",包含三大主题赛和特色方向赛,覆盖技术原点、工程生态、行业落地全链路[7][9] 赛制设置 - 大赛分为主题赛和总决赛两个阶段,主题赛表现优异队伍可晋级深圳线下总决赛[8][11] - 大模型创新主题赛包含基础大模型智能体应用创新和智能编码创新应用开发两个挑战赛,基于书生大模型和通义灵码进行开发[12] - 软硬件创新生态主题赛包含基于国产软件栈的创新应用赛(100万元奖金池)、国产AI开发套件应用创新挑战赛、国产全栈AI软硬件系统及解决方案适配挑战赛[13][14][20][21] - 行业赋能主题赛设有13项比赛,覆盖工业、终端、医疗、能源、矿山、金融、城市等关键领域[14][22][23][24] 赛事亮点 - 大赛奖金池超200万元,提供就业落户、创业扶持、合作对接、项目孵化等激励[1][32][33] - 专家委员会由7位院士和行业资深专家组成,提供技术成果到产业落地的闭环指导[28][30] - 优秀项目可获得招聘绿色通道、资金场地支持、投资机构对接、联合研发立项等机会[33][34] - 赛事时间轴:5-9月主题赛决赛选拔,10-11月深圳总决赛,多数赛题8月25日截止报名[38][39] 支持单位 - 人工智能软硬件协同创新与适配验证中心由中国信息通信研究院成立,提供软硬件兼容适配、测试验证等服务[41][42] - AISHPerf人工智能软硬件基准体系覆盖芯片、计算设备、智算系统等测试,已完成百余次测试[42]
笑死,人形机器人运动会全是鬼畜名场面!这锅粥大家来趁乱喝了吧
量子位· 2025-08-15 06:44
人形机器人运动会概况 - 首届人形机器人运动会在国家速滑馆举行 包含跑步 足球 拳击 舞蹈 武术及工业场景应用等比赛项目 [17][65] - 赛事现场出现多种意外情况 包括机器人撞人逃逸 自主站立失败 队内抢球导致集体摔倒等混乱场面 [1][2][3][6][37][38][40] - 宇树机器人表现突出 在1500米长跑中夺冠 同时其产品被8支拳击队伍选用 [2][49][62] 足球比赛技术细节 - 5V5足球赛采用相同机器人本体 差异主要体现在算法设计上 双方通过实时计算进行攻防和团队配合 [19][20][21] - 比赛出现战术运用 红队采用"二二站位"防守阵型 但被蓝队突破 [24][26] - 蓝队1号机器人表现优异 完成3次进球 其算法训练和触球位置准确性被重点分析 [33] - 红队下半场表现提升 显示机器人比赛中也存在反转可能性 [35] - 比赛规则专门针对机器人设计 包括计算人工干预次数 禁止工作人员穿白鞋等特殊规定 [45][46] 拳击比赛技术特点 - 拳击比赛采用特殊计分规则 简单打击1分 重击3分 击倒10分 共进行三回合 [49] - 比赛过程显示机器人具备闪避 压哨站立等能力 但也会出现目标丢失 对空攻击等问题 [51][53][54] - 重心保持被解说员强调为比赛关键因素 [57] - 获胜机器人展示预设的嘲讽动作组合 包括拍屁股和倒地 [60] 技术应用与行业动态 - 现场解说重点讨论端到端 视觉识别 神经网络等技术术语 反映AI知识在体育领域的渗透 [16] - 比赛机器人通过实战持续学习 每次上场都构成一次实地训练机会 [36] - 宇树机器人产品线曝光 包括参赛机型和春晚表演机型 显示公司产品多样化发展 [49][64] - 赛事续航方案显示机器人能源管理特点 场地充电即可满足需求 无需长续航设计 [31]
谷歌版小钢炮开源!0.27B大模型,4个注意力头,专为终端而生
量子位· 2025-08-15 06:44
模型发布与市场反应 - 谷歌开源Gemma 3 270M模型 参数规模为2.7亿 其中1.7亿为嵌入层参数 1亿为Transformer模块参数 [1][14] - 模型可直接在浏览器本地运行 无需联网 支持创意内容生成如睡前故事 [3] - 发布后引发市场关注 网友误以为参数规模为270B 实际仅为0.27B [4] 架构与性能特征 - 采用紧凑高效架构 仅包含4个注意力头 较Qwen 3 0.6B模型少12个注意力头 [7] - 词汇量达25.6万token 可处理特定领域罕见词汇 适合进一步微调 [15] - 支持INT4量化运行 在Pixel 9 Pro手机25轮对话仅消耗0.75%电量 能效表现突出 [17] - 提供量化感知训练检查点 INT4精度下性能损耗极微 适合资源受限设备部署 [19] 功能与应用场景 - 开箱即用精准遵循指令 微调后可释放文本分类和数据提取能力 [12][13] - 支持OCR应用 可将图片或PDF转换为结构化Markdown格式 [6] - 适用于情感分析、实体提取、查询路由、文本结构化、创意写作及合规检查等批量任务 [27] - 支持完全本地化运行 无需云端数据传输 保障用户隐私 [24] 开发与部署优势 - 微调仅需数分钟 支持快速迭代实验 数小时内可完成用例配置 [1][24] - 可通过Hugging Face、Ollama、Kaggle等平台获取模型 [25] - 支持使用Hugging Face、UnSloth或JAX工具进行个性化微调 [28] - 可部署于低成本基础设施或终端设备 大幅降低推理成本 [24][27] 行业合作与案例 - Adaptive ML与SK Telecom合作案例 使用Gemma 3 4B模型微调后 在多语言内容审核任务中超越更大规模专有模型 [20][21] - 轻量化模型策略适用于明确界定的任务 可释放更高效率 [23]
实测Perplexity Pro平替模型,免费开源仅4B
量子位· 2025-08-15 04:21
产品定位与核心特性 - 开源模型Jan-v1仅4B大小但声称能平替Perplexity Pro [1] - 完全免费且支持本地部署 [2] - 基于Qwen3-4B-Thinking微调 针对推理和工具使用优化 [5] - 官方宣称SimpleQA准确率达91% 本地性能优于Perplexity Pro [3][9] 技术能力表现 - SimpleQA准确率高达91.1% 展现强事实性问答能力 [9] - 支持256k上下文长度 长文本分析接近Qwen-4B水平 [21][25] - 具备检索增强生成能力 可动态结合网络检索生成可溯源答案 [18][19] - 工具调用能力仍有提升空间 测试显示需进一步优化 [25][28] 应用场景与部署 - 专用于网络搜索和深度研究场景 [5][12] - 支持在Jan/llama.cpp/vLLM环境中运行 [8] - 最低仅需2.3GB存储空间(GGUF版本) [29][30] - 入门级NVIDIA GTX 1650显卡即可本地部署 [20] 市场反馈与生态 - 获得Qwen官方转发推文支持 [6] - 网络评价总体积极 但部分用户要求更详细技术报告 [33][34] - 提供四种量化版本 大小从2.3GB到4.0GB不等 [30]
OpenAI华人露头就被小扎挖!95后北大校友1个月前上直播,今天已是Meta人
量子位· 2025-08-15 04:21
人才流动与竞争 - Meta近期从OpenAI挖角多名核心研究人员 包括95后北大校友孙之清 思维链作者Jason Wei及o1关键人物Hyung Won Chung 三人组成的研究小团体集体加盟Meta超级智能实验室 [2][7][9][11][20][21] - 孙之清在OpenAI期间参与o3/o4-mini Computer-Using Agent等核心项目 担任Deep Research负责人 博士论文聚焦大语言模型对齐 曾获OpenAI 10万美元超级对齐快速补助金 论文被引量超10000次 h-index达27 [13][14][16][17][18] - OpenAI仍保持人才吸引力 GPT-5核心团队包含多名华人研究员 如Elaine Ya Le负责统一体验 王若宸主导多模态研究 Junhua Mao调整模型行为 Tianfu Fu设计集成模型 [30][32][33][35][36][37][38] 行业动态与影响 - Meta采用针对性挖人策略 网友调侃其通过发布会人脸识别锁定亚洲研究员并快速提供高额报价 导致OpenAI在公开活动中开始限制员工信息曝光 [22][24][26][27] - 硅谷AI人才争夺白热化 行业出现"人才保护"趋势 但OpenAI凭借技术IP优势仍持续吸引顶尖人才加入 [25][28][41][42][43] - GPT-5研发团队结构显示 OpenAI在关键领域仍保持深度技术储备 包括多模态集成 模型行为优化等方向 [33][36][38]
潘建伟团队突破量子操控极限!AI助力2024个原子60毫秒精准重排
量子位· 2025-08-14 09:11
量子计算技术突破 - 潘建伟团队利用AI技术在60毫秒内成功构建2024个原子的无缺陷二维和三维原子阵列 刷新了中性原子体系无缺陷原子阵列规模的世界纪录 [1] - 该系统单比特门保真度达99.97% 双比特门保真度达99.5% 探测保真度达99.92% 已追平以美国哈佛大学为代表的国际最高水平 [6] - 研究团队制作了包含549个原子的动画展示原子重排技术 视频以33倍慢速播放展示铷原子在230×230μm光镊阵列中的动态排列过程 [2][8] 技术原理与创新 - 中性原子体系因具备优异扩展性 高保真度量子门 高并行性和任意连接性 被认为是极具潜力的量子计算平台 [11] - 传统重排方法受限于时间复杂度 原子丢失及计算速度等问题 阵列规模长期停留在数百个原子水平 [12] - 创新性利用AI技术实现高度并行性 操作时间与阵列规模无关 可一次性完成光镊阵列调控 实现原子同步移动 [12] 发展前景与挑战 - 从2024个原子扩展到数万个不存在本质障碍 但需提升激光器功率 挑战更多极限性能 增强整体平台能力 [14] - 预计未来3-5年内量子计算机将在狭窄领域成为科研工具 实现密码破解等大规模应用可能还需10年左右 [14] - 研究由上海量子科学研究中心 上海人工智能实验室及中国科学技术大学专家共同合作完成 [14] 研究团队背景 - 潘建伟院士团队曾构建世界首台超越早期经典计算机的光量子计算原型机 并成功发射墨子号量子科学实验卫星 [19][20] - 团队先后构建"九章"系列量子计算原型机 从76光子发展到255光子 持续刷新光量子信息技术的世界纪录 [21][22] - 陆朝阳教授被诺奖得主称为"量子鬼才" 与潘建伟共同完成多项量子计算突破性研究 [25] 技术应用展示 - 研究人员通过检测原子受激光脉冲激发产生的荧光信号 对549个原子的空间位置进行实时成像与追踪 [9] - 展示原子在三个水平层中复杂而精确的排列 每层模拟石墨烯结构 右下角配有插图说明 [9] - 当前系统仅需两块英伟达4090显卡即可完成2024个原子的重排计算 规模限制主要来自其他技术与硬件条件 [14]
苹果发力AI硬件,结果就是小度智能屏??桌宠机器人也要等到2027……
量子位· 2025-08-14 09:11
苹果AI战略布局 - 公司战略重心转向智能家居领域,近期否决了自动驾驶汽车等新领域扩张,集中资源于智能家居赛道[8][9] - 产品线包括桌面机器人、智能家居显示屏、AI安全摄像头,部分产品预计2026-2027年推出[2][10][20][32] - 库克表示产品线"非常令人惊叹",部分产品将很快面市[2] 智能家居硬件产品 桌面机器人 - 计划2027年推出,设计类似"搭载可移动机械臂的iPad"[10][11] - 具备情绪反馈功能,可自动转向说话者并参与日常交流[15] - 视频通话时能追踪用户移动保持画面居中,集成FaceTime等生态功能[15][16] - 内部代号"皮克斯台灯",2023年已在论文中披露相关构想[13] 智能家居显示屏 - 代号J490,定位家庭轻量化交互中枢,预计2026年年中发布[20][21] - 搭载新操作系统,支持语音交互、小组件操作和面部识别[24] - 可个性化显示内容(如日程、偏好设置),联动其他设备实现自动化控制[25][26] AI安全摄像头 - 代号J450,直接对标亚马逊Ring和谷歌Nest产品[32][33] - 搭载人员检测、面部识别和红外感应技术,可区分家庭成员与访客[35] - 支持门锁/灯光联动(如检测到家人回家自动解锁房门)[35] Siri升级战略 - 升级分两条路径:自研Linwood项目与引入第三方模型的Glenwood项目[36][40][42] - Linwood项目由内部团队开发,重构Siri大脑使其具备自然语言理解、复杂查询处理和语境保留能力[40] - Glenwood项目测试使用Anthropic Claude等第三方模型,体现公司从完全自研向开放合作转变[42] - 升级后Siri将成为多款新硬件的核心交互入口,目标从被动助手转变为主动预判需求的智能助手[40][42] 行业竞争现状 - 桌面机器人被指类似市面已有AI桌宠产品,有开发者已自制GPT-4o集成版本[17] - 智能家居显示屏面临百度、小米、谷歌等成熟竞品压力[27] - AI安全摄像头功能与亚马逊/谷歌现有产品高度重合[5][33] - 外界评价认为公司在AI赛道落后,新产品缺乏原创性[3][5][41]