量子位

搜索文档
史上最大高质量科学推理后训练数据集开源,快速让Qwen3等变“科学家”
量子位· 2025-08-09 07:01
数据集发布与核心价值 - 上海创智学院与上海交通大学GAIR Lab联合发布MegaScience数据集,包含125万条跨学科问答对,覆盖生物学、化学、计算机科学等7大领域,旨在提升通用AI系统的科学推理能力[1] - 数据集采用大学教材作为核心数据源,通过12万本教材构建65万条问答对(TextbookReasoning子集),确保答案权威性,最终混合形成125万条数据的MegaScience全集[14][15] - 发布一周内下载量突破4.6k次,登上HuggingFace Datasets Trending榜单第四位,显示学术界与工业界的强烈需求[7] 技术创新与解决方案 - 开发四阶段系统性方案:构建15个Benchmark的评估体系、大模型驱动的数据去污染、教科书级数据源采集、聊天模型优化的数据精炼流程[13] - 采用全自动化LLM流水线处理教材数据,包含OCR转换、双重问答抽取(高标准/低标准)、LSH去重、DeepSeek-V3精炼、Llama3.3污染检测等5大步骤[17][19][20][23][24][25] - 创新数据筛选策略:基于回答长度(保留最长回答)、问题难度(Qwen2.5模型评分1-10分过滤简单题)、随机采样三重方法优化数据集质量[30][31][32] 性能表现与模型验证 - 在Qwen2.5-7B模型上,MegaScience微调版相比官方Instruct模型提升2.21%平均性能,在SciBench等计算类任务中优势达5.78个百分点[42] - 模型规模扩展性显著:Qwen3-14B经MegaScience训练后性能超越官方Instruct模型2.82%,30B版本差距扩大至3.24%,显示大模型获益更明显[44][45] - 数学推理呈现能力门槛效应,仅Qwen2.5-7B及以上规模模型能有效吸收数据集中的高难度数学内容(大学本科级概念)[46] 开源生态与评估体系 - 完整开源体系包含:数据集本体(CC-BY-NC-SA 4.0协议)、数据构建代码、评估系统(Language Model Open Science Evaluation框架)、预训练模型[5][37][48] - 评估框架覆盖15个Benchmark,创新两阶段答案抽取技术解决传统\boxed{}格式局限,支持选择题/计算题/判断题/简答题全题型[38][39] - 提供跨模型验证结果:在Llama3.1-8B、Qwen全系列(1.5B-30B)上均观察到性能提升,最高达73.86平均分(Qwen3-30B)[43][44]
Nature:锂可逆转老年痴呆
量子位· 2025-08-09 05:14
核心观点 - 锂在大脑中的内源性稳态对认知功能维持至关重要 锂缺乏会加速阿尔茨海默病病理进程 而特定形式的锂补充剂(如乳清酸锂)可逆转神经病变并恢复记忆功能 [1][4][12] - 乳清酸锂相比碳酸锂具有更低电导率和淀粉样蛋白结合能力 能更有效提升脑内非斑块区域锂浓度并显著改善AD病理和认知功能 [103][104][110] - 锂稳态与认知韧性密切相关 低剂量乳清酸锂可预防年龄相关的神经炎症和突触丢失 且无显著毒性证据 [130][131][133] 锂缺乏与阿尔茨海默病关联性 - 轻度认知障碍(MCI)和AD患者前额叶皮层锂水平显著降低 降幅未具体量化 但皮层-血清锂比率显著下降 [16][18][20] - 锂被Aβ沉积物捕获导致生物利用度降低 Aβ斑块中锂浓度较非斑块区域高3-4倍 [26][29][31] - 锂缺乏加速AD模型小鼠Aβ沉积:3xTg和J20小鼠海马体Aβ沉积显著增加 老龄野生型小鼠皮质Aβ42水平上升 [33][35][37] - 锂缺乏促进神经元磷酸化tau积累:3xTg小鼠海马神经元pSer202-tau和pSer396/Ser404-tau增加3-4倍 [38][43][44] 锂对认知功能的影响 - 缺锂饮食显著损害3xTg小鼠学习能力和长期记忆 Morris水迷宫及新物体识别测试显示记忆缺陷 [47][49][51] - 低剂量乳清酸锂(4.3 μEq/L)几乎完全逆转3xTg小鼠记忆损伤 碳酸锂无效 [119][121][123] - 老年野生型小鼠经乳清酸锂治疗后 年龄相关的树突棘丢失和认知衰退得到逆转 [128][130] 分子机制研究 - 锂缺乏广泛影响脑转录组和蛋白质组:兴奋性神经元中突触相关基因下调 少突胶质细胞中髓鞘基因表达减少 [55][58][62] - 锂缺乏导致小胶质细胞呈现促炎状态:促炎细胞因子(IL-6、TNF等)释放增加 Aβ清除能力降低 [74][81][85] - GSK3β激活是关键病理机制:锂缺乏提高海马神经元总GSK3β水平和pTyr216-GSK3β活性 GSK3β抑制剂可逆转相关病理 [90][94][99] 乳清酸锂的治疗优势 - 乳清酸锂电导率显著低于碳酸锂 对Aβ42纤维原结合亲和力低 [103][104] - 乳清酸锂在非斑块脑实质中提升锂水平的效果优于碳酸锂 斑块锂富集程度降低 [108][109][110] - 乳清酸锂能减少老年3xTg小鼠海马区Aβ斑块负荷约70% 并降低磷酸化tau阳性结构密度 [112][114] 锂与正常脑衰老 - 低剂量乳清酸锂使老年野生型小鼠血清和皮层锂水平轻微升高 浓度与内源性范围重叠 [124] - 乳清酸锂几乎完全阻断年龄相关的小胶质细胞和星形胶质细胞增生 降低IL-6和IL-1β水平 [125][126] - 人类研究中皮层锂浓度与工作记忆评分(P=0.04)和MMSE表现(P=0.02)呈正相关 [132][133]
NotebookLM能生成PPT了,还带演讲配音
量子位· 2025-08-09 05:14
产品功能 - 谷歌NotebookLM推出新功能,可自动生成带AI音频的PPT,用户只需输入数据、图表和旁白,无需亲自讲解[1] - AI可帮助撰写旁白,适用于总结汇报、学习新知识和了解新领域[2] - 视频概览功能提供旁白幻灯片,AI主持人创建视觉内容并提取文档中的图片、图表、引言和数字[4] - 功能特别适用于解释数据、演示流程和使抽象概念具体化[5] - 用户可指定关注主题、学习目标和目标受众,提出一般性或具体问题引导AI生成内容[6] 用户体验 - 网友评价该功能若如宣传般好用,将成为超牛的学习工具[8] - NotebookLM本身是高效的笔记工具,提供"精选笔记本"分区和音频概要、思维导图等功能[9][10][11] - 支持插入视频或直接输入YouTube视频链接,辅助长视频整理[13] - 部分用户反馈功能速度较慢,但认为这是一个惊人的开始[19][21] 市场反应 - 多数用户对新功能表示期待,询问推出时间[14] - 官方回应概览功能将在下周左右向所有用户推出[15] - 已试用用户认为这是一种绝佳的信息总结方法,使学习更引人入胜[16] 产品定位 - NotebookLM被用户称为"外置大脑",结合音频概览和可视辅助工具帮助理解复杂概念[3] - 产品定位为高效学习工具,通过互动提问、答案与引文探索主题[11]
本科必学Dijkstra算法被超越!清华段然团队打破图灵奖得主证明的普遍最优性
量子位· 2025-08-09 05:14
白交 发自 凹非寺 量子位 | 公众号 QbitAI 本科经典算法Dijkstra,被清华团队超越了! 这个被用来解决最短路径问题的经典算法,去年 才被图灵奖得主Tarjan团队证明具有普遍最优性 。 但现在,来自清华的段然团队将这一格局彻底打破—— 运行速度比任何Dijkstra及其改进算法都快,关键是它彻底解决了困扰研究人员四十多年来的"排序障碍"。因为它压根就不进行排序 。 该算法改进了图灵奖得主Tarjan提出的O(m + nlogn)算法,后者在1984年将Dijkstra原始算法探索到了速度极限。 而更快的最短路径算法,不管是在理论上和实际应用中都有很大意义,参考Dijkstra算法就知道了。Dijkstra算法在广泛地应用于我们的日常 生活中,例如地图APP,Dijkstra算法就被用来计算从用户当前位置到目的地的最优路线。而在计算机网络中也被广泛应用于路由协议中。 这一进展被曝光,一时间引发了不少关注。 也有人不吝赞美:这是一个重要的里程碑。 GPT-5已经准备好编码了。 但也有人认为,对大模型来说可能是个挫折,尤其在GPT-5发布之际,因为我们总是期待AI能发现这些突破性进展。 找到最佳路线 ...
“还我GPT-4o”!奥特曼强推GPT-5惹怒网友,紧急公关来了
量子位· 2025-08-09 05:14
GPT-5上线遇冷及用户反馈 - GPT-5上线后市场反应冷淡,用户普遍怀念GPT-4o的情感化交互体验[1][4] - 主要批评包括对话生硬、长文本理解偏差、写作创意不足,缺乏GPT-4o的情感链接特性[4][13][17] - OpenAI强制替换所有旧模型引发用户不满,最终妥协允许付费用户切换回GPT-4o[4][8][27] GPT-5与GPT-4o的对比 - GPT-5技术指标提升(编程能力增强、幻觉减少、榜单排名领先),但缺乏颠覆性创新[13] - GPT-4o因"谄媚"风格受争议,但其情感陪伴价值被用户高度认可,尤其对孤独感缓解作用显著[15][19] - 风格差异:GPT-5偏向专业论文式输出,GPT-4o更擅长个性化创作(小说/散文)和表情符号互动[17][18] OpenAI的决策调整与战略考量 - 公司低估用户对旧模型的依赖,模型切换策略过于激进导致反弹[22][28] - 承认需强化模型定制化,未来可能支持不同属性AI(情感型/工具型)以满足多元需求[29] - 长期仍优先GPT-5迭代与算力投资,旧模型保留仅为过渡方案[34][36][37] 行业竞争动态 - 马斯克借用户不满推广竞品Grok,可能加速OpenAI的响应速度[40][41] - 公司面临平衡技术升级与用户习惯的挑战,需优化产品生命周期管理策略[26][38] 用户行为与产品使用洞察 - 过去一年多数用户默认使用GPT-4o,未主动尝试新版模型[6] - 创造性工作者和情感需求用户构成旧模型核心受众[16] - 产品突然变更影响实际应用场景(如论文写作中断),暴露用户体验设计缺陷[19][21]
高中没毕业直接读博,17岁少女推翻40年数学猜想后的下一步
量子位· 2025-08-08 07:23
数学天才汉娜·凯罗的成长历程 - 11岁学会微积分 14岁具备大学数学水平 17岁推翻40年前的Mizohata-Takeuchi猜想 [1][4] - 通过可汗学院完成早期数学学习 后由韦尔斯利学院和克拉克大学教授远程辅导 主要靠自学研究生教材 [11][13][14] - 14岁参加伯克利数学圈在线课程 自学内容相当于高级本科学位水平 [25][26][27] 学术突破与影响 - Mizohata-Takeuchi猜想涉及调和分析/偏微分方程/几何分析 其推翻将改变傅里叶限制和PDE良性问题的研究范式 [6] - 通过构造特殊函数发现波干涉异常 打破猜想禁止的分形结构 简化后验证结论正确 [65][67][68] - 成果获数学家Tony Carbery高度评价 未来类似问题将采用"汉娜式构造"检验 [18] 教育路径与职业发展 - 2023年通过伯克利并行注册项目修读研究生课程 每周通勤五天学习 [35][37][38] - 在张瑞祥教授的傅里叶限制理论课程中 从作业题延伸破解猜想 [44][48][49] - 跳过本科直接申请10所博士项目 最终被马里兰大学和约翰斯·霍普金斯大学破格录取 [71][72][73] 个人特质与学术环境 - 长期在家教育导致社交局限 数学成为精神寄托和探索无限可能的方式 [16][19][20] - 芝加哥数学圈和伯克利数学圈的经历激发研究热情 被赞"申请时已超前多个层次" [25][28] - 性格谦逊 早期对自身数学天赋存疑 习惯以自我为参照标准 [30][31][32]
无需外部数据!AI自问自答实现推理能力进化
量子位· 2025-08-08 07:23
时令 发自 凹非寺 量子位 | 公众号 QbitAI AI通过自问自答就能提升推理能力?! 这正是卡内基梅隆大学团队提出的新框架 SQLM ——一种无需外部数据的自我提问模型。 该框架包含提问者(proposer)和解答者(solver)两个角色,提问者生成与给定主题相关的问题,解答者旨在解决问题。 这凸显出当前方法的一个关键不足: 缺乏一种可扩展且自我维持的流程,能够在无人干预的情况下自动生成有意义的问题和答案。 为此,研究者提出了 SQLM框架 ,一种非对称的自我博弈框架,其中提问者 ,解答者 回答该问题,两者均通过强 化学习进行训练,以最大化期望奖励。 网友们神评,"简直是带有RL的GAN"。 | | Aryan Siddiqui @Ar_boian · 20h | | | | | | --- | --- | --- | --- | --- | --- | | ONYTH | lt's like GAN with RL | | | | | | | 这就像带有 RL 的 GAN | | | | | | | C | ા | C 4 | 11 221 | 지 | 值得一提的是,此团队中又双叒叕现华人身影~ 通 ...
哇塞,今天北京被机器人人人人人塞满了!
量子位· 2025-08-08 07:23
世界机器人大会盛况 - 世界机器人大会(WRC)在北京开幕 现场人气爆棚 吸引大量观众参观 [4] - 展会展示100多款新型机器人 其中智平方公司的人形机器人爱宝成为焦点展品 [4][5][7] 爱宝机器人核心能力 - 爱宝是通用机器人代表 通过单一基座模型可快速学习并完成多种任务 包括打架子鼓 制作冰淇淋 搬运货物等 [11][12][14][15][19] - 具备34+自由度 单臂负载10公斤 作业高度2.4米 续航6小时 展现全域行动和全身协同能力 [21] - 新发布全向轮版本 配备双激光雷达实现360°导航 48V 42Ah大电池支持自动充电和手动换电 [22][23][24][25] GOVLA大模型技术突破 - 采用全球首个全栈自研的全域全身视觉-语言-行动大模型GOVLA 具备四大核心能力 [27] - 全域感知:360度环境理解 突破传统桌面工作限制 [28] - 全身协同:控制全身自由度 实现拟人化复杂操作 [30][31][32] - 长程柔性:自主拆解多步骤任务 如完整饮品制作流程 [33][34] - 快速学习:通过观察和少量数据掌握新技能 如演奏不同风格曲目 [35] 商业化落地进展 - 已在四大场景实现商业化部署:工业制造(汽车生产线) 半导体(晶圆转运) 生物科技(无菌车间) 公共服务(机场导览) [45] - 采用多场景并行战略 从工业服务(L2)逐步向家庭服务(L4)演进 加速数据积累和模型迭代 [45]
1句话高质量生成游戏3D动作,北大新方法刷新动画制作SOTA
量子位· 2025-08-08 07:23
ReMoMask团队 投稿 量子位 | 公众号 QbitAI 在游戏开发工作室中,动画师常常面临这样的困扰:为了让角色能更自然的"走路""转圈",不得不反复微调骨骼或者逐帧手动摆出几十个姿 势。 如果只需一句指令,比如"一个人走两步,然后跳起来",就能自动生成流畅逼真的3D动作,动画制作的方式将被彻底改写。 为此,北京大学提出了 ReMoMask:一种全新的基于检索增强生成的Text-to-Motion框架 。它是一个集成三项关键创新的统一框架:(1) 基于动量的双向文本-动作模型,通过动量队列将负样本的尺度与批次大小解耦,显著提高了跨模态检索精度;(2)语义时空注意力机制,在 部件级融合过程中强制执行生物力学约束,消除异步伪影;(3)RAG-无分类器引导结合轻微的无条件生成以增强泛化能力。 基于MoMask的RVQ-VAE,ReMoMask在最少步骤内高效生成时间连贯的动作。 在标准基准测试上的大量实验表明,ReMoMask达到了最先进的性能, 与之前的SOTA方法RAG-T2M相比,在HumanML3D和KIT-ML上分 别实现了3.88%和10.97%的FID分数提升 。 ReMoMask整体架构 问题 ...
3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学
量子位· 2025-08-08 07:23
AI验证能力发展现状 - 大模型训练能力突飞猛进但验证答案能力成为发展短板[1] - AI在规则明确领域超越人类但在需要主观鉴赏的领域进展缓慢[11] - 当前大模型验证领域缺乏合理的迭代体系[15] AI发展范式转变 - AI下半场将从解决问题转向定义问题 评估变得比训练更重要[6] - 训练AI解决任务的难易程度与任务可验证性成正比[8] - AI进化边界被结果验证的速度和客观性锁定[9] 验证技术瓶颈 - 传统方法依赖人工定制规则 面对多步骤问题和复杂公式时容易失效[18] - 使用通用大模型作为验证器存在幻觉问题 不同模型判罚尺度不一致[18] - 社区缺乏针对可验证答案的标准化高难度基准[30] CompassVerifier技术方案 - 基于OpenCompass框架从50多个大模型在15个数据集上的100余万份回复中筛选数据[21] - 采用多模型投票机制筛选简单样本 借助DeepSeek-V3进行多提示词验证[22] - 通过错误驱动对抗性增强 复杂公式增强和泛化性增强三种方式提升验证能力[23][24][25][27] 模型性能表现 - CompassVerifier-32B在VerifierBench上平均准确率达90.8% F1分数87.7%[35] - 3B轻量版本超越大规模通用模型 展现极高参数效率[36] - 在数学推理任务中作为奖励模型使Qwen3-4B-Base在AIME24数据集性能提升18.5分[40] 应用前景 - 为数学 知识问答 科学推理等多领域强化学习训练提供技术支撑[44] - 未来可能实现模型自我验证和自我改进的循环迭代[45] - 验证器能力直接影响大模型发展速度 是AGI道路上的关键环节[14]