Workflow
机器之心
icon
搜索文档
当智能成为主要生产资料,硅基经济学引爆「AI+金融」
机器之心· 2025-07-30 05:13
硅基经济学概念提出 - 邵怡蕾院长首次提出「硅基经济学」概念,以人工智能、大模型、算力、数据和芯片为核心生产资料,引领世界经济体系从碳基向硅基转型[1][3] - 该理论重构三大经济要素:生产资料(智能替代能源)、劳动力(AI Agent替代人力)、贸易格局(智能成为贸易主力)[3] - 硅基经济学以「算法-算力-数据」为新型社会生产关系基础,继承并重构传统经济学理论[10] 硅基经济三大重构方向 - 生产资料重构:需加快算力、智能云服务等硅基基础设施建设[3] - 劳动力重构:劳动型机器人或AI Agent占比提升,人力占比降低[3] - 贸易格局重构:智能成为出口贸易主力,需重新定义出口国、进口国、定价及结算货币[3] 硅基世界权力结构 - 智能开采权:仅中国与美国具备稳定供给算力、数据、算法的能力[11] - 智能定价权:需确立单位智能(每百万token)的国际市场价格[11] - 智能结算权:需确定智能国际贸易的结算货币体系[11] 三重奇点交织 - 科技奇点:人工智能与芯片技术突破[11] - 金融奇点:「后美元体系」与数字货币变革[11] - 地缘政治奇点:全球秩序与价值观重构[11] 未来500天三大前瞻 - 算法主导全球生产力:AI驱动GDP年增长率从3%提升至10%[13] - 金融领域稳定币与智能挂钩:人民币稳定币或引领算法锚点新秩序[13] - 硅基经济学成为AI经济能力全球标准:推动算法治理与智能主权竞争[13] 中国战略机遇 - 中国AI国际定价权确立[14] - 智能出海战略实施[14] - 人民币智能稳定币发展[14] 金融智能系统创新 - 发布「SmithRM金融推理大模型+Silicon Fin」双核驱动系统,构建从数据采集到执行反馈的闭环[16][19] - 系统包含数据层(六大金融数据池)、基础设施层(7x24小时算力集群)、智能体层(4位AI Agent)、应用层与内控层[21] - 4位AI Agent实现30秒处理多模态数据、生成2万字0幻觉报告、分钟级金融报告核验等能力[22][23] 金融AI技术突破 - SmithRM模型兼顾「因果链」与「逻辑链」,实现可解释性金融推理[20] - 通过10万条深度标注思维链构建神经元级知识颗粒[21] - 开发FinAI金融能力评测基准FinAI Bench及金融幻觉检测器[21]
技术狂飙下的 AI Assistant,离真正的 Jarvis 还有几层窗户纸?
机器之心· 2025-07-30 01:30
01 通用 Agent 架构受限,任务智能还停留在「样板房」? - 当前 AI Assistant 的核心挑战集中在智能规划与调用、系统延迟与协同、交互记忆与拟人性以及商业模式与落地路径四个维度 [2] - 在任务执行智能方面,一条核心路线是构建长程、循环、可泛化的通用任务框架,实现从目标理解到任务完成的全过程 [2] - 通用框架的代表 Manus 采用「多步任务规划 + 工具链组合」架构,将 LLM 用作「控制中心」,但在实际测试中对复杂网页结构的抓取覆盖不足 [4] - MetaGPT 强调通用框架需叠加「代码执行、记忆管理与系统调用」等组件,但存在延迟高、调用链复杂、成本不可控等问题 [4] - 「逐场景做透」的技术路线更强调低门槛部署与稳定性,适用于「弱通用、强完成」的应用需求,但在非结构化任务或领域迁移时表现明显下降 [4] - Browser-Use 类路径支持 Agent 模拟浏览器登录、填写表单、抓取信息、提交交易等功能,但稳定性、安全性与权限系统仍未成熟 [6] - 无代码出工具(No‑Code Agent Builder)正成为下一代 AI Assistant 的推荐解决方案,如 AutoGen Studio、Base44 和 StackAI 等 [6][7] 02 一句话唤醒万物,AI Assistant 要补齐的系统短板有哪些? - AI Assistant 最终要以语音为主要形态和用户进行交互,系统优化层面面临语音交互低延迟、全双工语音、能力与硬件/系统行动绑定等挑战 [8]
凌晨,Qwen又更新了,3090就能跑,3B激活媲美GPT-4o
机器之心· 2025-07-30 00:48
模型性能突破 - Qwen3-30B-A3B-Instruct-2507为非思考模式模型,仅激活30亿参数即可媲美谷歌Gemini 2.5-Flash和OpenAI GPT-4o等顶尖闭源模型,实现效率与性能的重大突破[2] - 新版本在多项基准测试中表现显著提升:AIME25从21.6升至61.3,Arena-Hard v2从24.8升至69.0[3] - 在知识、推理、编程等领域的平均得分达62.8,超越DeepSeek-V3-0324(61.2)和GPT-4o-0327(58.9)[10] 技术参数优化 - 模型参数总量减少22倍,活跃参数减少10倍,仅需30亿总参数和3亿活跃参数即可达到与大型模型相当的智能水平[8] - 支持256K长文本理解能力,并在多语言知识覆盖、逻辑推理、数学及编程能力上实现通用能力大幅提升[13][27][28] - 提供多种量化版本(1-bit至16-bit),最小量化版本仅9.05GB,可在消费级GPU(如RTX 3090)和Apple M2 Ultra等设备本地部署[22][24][26] 行业影响与生态支持 - 模型已在魔搭社区、HuggingFace开源,并集成至QwenChat和anycoder等平台,支持vibe编程等场景[16][17][19] - 社区快速响应推出量化版本,开发者实测可在Mac(8bit量化)和PC端流畅运行,验证其消费级硬件兼容性[23][24][26] - 非思考模式设计虽在复杂代码生成任务中可能弱于推理模型,但在效率与成本平衡上为行业提供新选择[34] 研发进展与竞争态势 - 公司4个月内实现模型效率跃升,参数效率优化速度远超行业预期[7][8] - 新模型在创造性写作(WritingBench 85.5分)和多语言任务(PolyMATH 43.1分)等细分领域超越同类产品[6][10] - 持续深夜更新策略推动技术迭代速度,加剧行业竞争压力[35]
刚刚,OpenAI推出学习模式,AI教师真来了,系统提示词已泄露
机器之心· 2025-07-30 00:48
ChatGPT学习模式更新 - ChatGPT推出Study Mode(学习模式),该模式旨在帮助用户逐步解决问题而非直接提供答案[1][2] - 学习模式下ChatGPT会通过引导性问题、分步骤解释和个性化调整来确保用户理解每个概念[3][4] - 免费用户也可使用该功能,核心特性包括交互式提示、支架式回复、个性化支持、知识测试和灵活性[5] 学习模式的功能特性 - **交互式提示**:采用苏格拉底式提问和提示词引导用户主动学习,避免直接给出答案[5] - **支架式回复**:信息组织成易于理解的章节,突出主题关联性并减少学习压力[5] - **个性化支持**:根据用户技能水平和聊天记忆定制课程内容[5] - **知识测试**:通过测验和开放式问题跟踪进度并提供反馈[5] - **灵活性**:允许用户在对话中随时切换学习模式以调整目标[5] 学习模式的构建原理 - 底层基于OpenAI与教育专家合作设计的提示词工程,体现主动参与、认知负荷管理等学习科学原则[13] - 系统提示词明确要求ChatGPT扮演导师角色,通过提问、联系已有知识、引导发现答案等方式辅助学习[16][17][18][19] - 关键规则包括了解用户目标、检查理解程度、改变互动节奏,并禁止直接解答作业问题[20][21][22] 用户反馈与案例 - 功能推出后广受好评,演示案例显示ChatGPT能通过问题评估用户知识水平并开展针对性教学[6][9] - 开发者发现OpenAI公开了学习模式的系统提示词,便于其他AI模型复现类似功能[14][15][24]
AI安全上,开源仍胜闭源,Meta、UCB防御LLM提示词注入攻击
机器之心· 2025-07-30 00:48
开源安全大语言模型Meta-SecAlign-70B - Meta与UC Berkeley联合开源首个工业级安全大语言模型Meta-SecAlign-70B,该模型在提示词注入攻击防御上超越GPT-4o和Gemini-2.5-flash等闭源方案,同时具备更强的Agent能力(工具调用、网页导航)[1] - 模型基于Llama-3.3-70B-Instruct训练,采用SecAlign++防御算法,完全开源模型权重和训练代码[17][21] - 在7个提示词注入测试基准上攻击成功率显著低于闭源模型,在AgentDojo和WASP等Agent任务中表现优于现有方案[19] 提示词注入攻击背景 - 提示词注入攻击被OWASP列为LLM集成应用的首要威胁,已成功攻击Google Docs中的Bard、Slack AI等工业级系统[10] - 攻击方式通过在被处理数据中植入指令(如"Ignore all previous instructions"),诱导LLM执行非预期操作,Nature文章证实该攻击已出现在多所顶尖大学预印本论文中[5][10] SecAlign++防御技术 - 核心技术通过特殊分隔符区分prompt与data,采用DPO偏好优化算法训练模型仅响应prompt指令[12] - 算法包含三步骤:添加分隔符→DPO优化→删除data部分潜在分隔符,数学表达为最小化风险目标函数[12][14] - 仅需19K指令微调数据集即可实现<2%攻击成功率,且防御能力可泛化至训练数据未覆盖的Agent任务[20] 模型性能表现 - Meta-SecAlign-70B展现出领域外泛化能力,在未训练的tool-calling和web-navigation等场景仍保持低攻击成功率(ASR)[21] - 相比闭源模型同时保持实用性能,在Agent任务中展现竞争优势[19] - 研究团队包含UC Berkeley博士生陈思哲和Meta FAIR科学家郭川,相关论文发表于CCS'25等顶会[1][15]
WAIC 2025大黑马,一个「谢耳朵AI」如何用分子式超越Grok-4
机器之心· 2025-07-29 10:31
核心观点 - 上海AI实验室发布并开源科学多模态大模型Intern-S1 其综合性能为当前开源模型中最优 在科学推理任务上超越xAI的Grok 4 同时训练算力消耗仅为Grok 4的1% [5][7] - Intern-S1首创"跨模态科学解析引擎" 可精准解读化学分子式 蛋白质结构 地震波信号等多种复杂科学模态数据 助力AI从"对话助手"进化为"科研搭档" [16] - 基于Intern-S1构建的多智能体虚拟疾病学家系统"元生"已在肝癌和结直肠癌治疗领域提出新靶点GPR160和ARG2 并经真实临床样本和动物实验验证 [17] 模型性能 - Intern-S1采用235B MoE语言模型和6B Vision编码器 预训练数据包含5T tokens 其中50%以上为科学数据 [21][25] - 在综合多模态通用能力评估上 Intern-S1得分比肩国内外一流模型 展现跨文本 图像的全面理解力 [10] - 在科学能力评测中 Intern-S1领先Grok-4等最新闭源模型 评测覆盖物理 化学 材料 生物等领域的复杂专业任务 [12] - 在化学 材料 地球等多学科专业任务基准上 Intern-S1超越顶尖闭源模型Grok-4 展现出卓越的科学推理与理解能力 [17] 技术创新 - Intern-S1新增动态Tokenizer和时序信号编码器 对化学分子式的压缩率相比DeepSeek-R1提升70%以上 [26] - 采用通专融合的科学数据合成方法 使模型同时具备强大的通用推理能力与多项顶尖的专业能力 [28] - 通过系统与算法联合优化 实现大型多模态MoE模型在FP8精度下的高效稳定强化学习训练 成本相比近期公开的MoE模型降低10倍 [30] 开源生态 - 上海AI实验室开源了面向大模型研发与应用的全链路开源工具体系 覆盖数据处理 预训练 微调 部署 评测与应用等关键环节 [32] - 近期开源多智能体框架Intern·Agent 可广泛应用于化学 物理 生物等领域的12种科研任务 [32] - 基于Intern-S1的『书生』科学发现平台Intern-Discovery上线 驱动科学研究从团队单点探索迈向科学发现Scaling Law阶段 [6][32]
通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1 , 收获开源SOTA
机器之心· 2025-07-29 10:31
WebShaper技术突破 - 首次提出对information-seeking(IS)任务的形式化建模并设计训练数据合成方法,采用全开源模型方案在GAIA评测中取得60.1分的SOTA表现[1][6][30] - 开创性提出"形式化驱动"新范式,通过数学建模IS任务并合成训练数据,突破传统"信息驱动"范式的局限性[9][15] - 基于集合论构建IS任务形式化模型,引入"知识投影(KP)"核心概念,实现可控、可解释、可扩展的数据合成[11][13][14][17] 技术方案创新 - 采用智能体式扩展合成方法,通过Expander模块实现种子任务的多步扩展,确保任务正确性和推理严谨性[18][25] - 提出逐层扩展结构策略,有效解决冗余性和推理捷径问题,提升数据质量[23][24][28] - 训练方案采用监督微调(SFT)+GRPO强化学习策略,生成5k高质量训练轨迹[26] 性能表现 - 在GAIA基准任务中60.1分,超越所有开源方案,接近最强闭源模型O4 mini的66.99分[6][30] - 大幅领先GPT4.1(40.7分)和Claude Sonnet4(58.2分)等闭源模型[30] - 消融实验验证形式化建模和逐层扩展策略的有效性[31] 行业影响 - 补足GAIA、Browsecomp等平台高质量训练数据缺口,推动智能体信息检索能力发展[2][7] - 实现从启发式理解到形式化定义的认知深化,为复杂任务数据合成提供新思路[2][35] - 全开源方案降低技术门槛,推动社区生态繁荣[34][35] 资源开放 - 开源高质量QA数据集和模型,包括GitHub、huggingface和modelscope平台资源[4][8] - 提供完整技术方案和训练细节,支持行业复现和应用[26][34]
全球首个全链式空间天气AI预报模型“风宇”!国家卫星气象中心牵头,联合南昌大学、华为共同研发
机器之心· 2025-07-29 09:58
空间天气预报技术突破 - 全球首个全链式空间天气人工智能预报模型"风宇"正式发布,由我国国家卫星气象中心联合南昌大学、华为技术有限公司共同研发[8] - 该模型实现了物理模型、数值预报和人工智能三足并立的格局,大幅提升空间天气预报能力[9] - 采用首创空间天气上下游智能耦合技术,实现模型协同优化和全链式小时级快速预报[10] 技术创新亮点 - 国际首次实现从太阳风-磁层-电离层端到端AI建模,包含"煦风"、"天磁"、"电穹"三大区域模型[13] - 独创智能耦合优化机制,通过深度神经网络实现多区域模型协同优化[14] - 基于自主可控AI框架MindSpore Science套件和昇腾硬件,实现训练到推理全流程应用[11][18] - 采用张量并行、流水线并行等策略,开发3D时空数据科学计算接口,提升训练/推理效率[18] 数据支撑体系 - 依托我国"天地一体化"监测体系,包括风云系列卫星、"羲和号"、"夸父一号"及104个地面台站近300台设备[20] - 创新性地将数值模式数据与观测数据结合,形成高质量数据基础[21] - 电离层部分能有效融合不同观测源、不同时间分辨率的数据[22] 应用表现与价值 - 在24小时短临预测中表现卓越,全球电子密度总含量预测误差控制在10%左右[24][25] - 已申请11项国家发明专利[26] - 可指导航天器设计、管理和运行,包括防辐射加固、轨道管理和任务安全优化[27][28] 未来发展方向 - 从云端大模型向星上边缘计算演进,实现AI能力直接部署在卫星上[31] - AI模型轻量化、端侧推理优化、高可靠性系统设计将成为新热点[32] - 为空间科学、机器学习和高性能计算融合发展提供新参考[30]
LeCun出手,造出视频世界模型,挑战英伟达COSMOS
机器之心· 2025-07-29 09:58
世界模型概念与发展 - 世界模型是一种神经网络,能够根据智能体过去的观察与动作预测环境的未来状态 [2] - 深度学习三巨头之一Yann LeCun将世界模型视为通向人类智能的核心路径 [3] - 训练有效世界模型面临数据获取成本高、任务复杂度高、算力消耗大等挑战 [4][5][6] DINO-world模型创新 - 采用冻结视觉编码器DINOv2在潜在空间预训练视频世界模型,显著降低计算成本 [9][19] - 模型参数量少于10亿,远低于生成式模型COSMOS的120亿参数规模 [19] - 引入残差预归一化交叉注意力块架构,提升预测效率 [20][21] 技术实现细节 - 使用旋转位置编码(RoPE)处理时空关系,支持可变帧率训练增强泛化能力 [23][24][28] - 通过动作条件微调模块将预测与智能体动作结合,缓解数据不足问题 [30][32][33] - 在6000万条未清洗网络视频数据集上训练,获得跨领域迁移能力 [11] 性能验证结果 - 在VSPW分割预测任务中,0.5秒预测mIoU提升6.3% [13] - 密集预测任务表现优于V-JEPA和COSMOS,Cityscapes mIoU达64.7 [37][38] - 直觉物理测试显示与V-JEPA ViT-H相当,验证大规模预训练价值 [40][41] 应用优势 - 解耦视频预训练与动作微调,减少90%标注数据需求 [12] - 潜在空间建模避免像素级计算,推理资源消耗降低80% [10][12] - 规划任务成功率比从头训练模型提高50%以上 [44]
这家国内公司,在给具身智能技术栈做「通解」
机器之心· 2025-07-29 09:58
机器之心报道 编辑:泽南、杜伟 打通机器人智能化的关键:眼+脑+手。 具身智能(Embodied Intelligence)是 AI 领域里热度极高的赛道:给大模型以物理的躯体,让它能够感知真实世界,这套新范式似乎能让机器人完成各种 以前无法想象的复杂任务。 自大语言模型(LLM)技术爆发以来,以具身智能为目标的明星机器人公司不断涌现,新闻头条一个接着一个。不过直到最近还有机器人领域专家表示,我 们似乎仍没有看到「机器人领域的 ChatGPT」出现。 具身智能究竟应该会是怎样的形式,我们还没有定论。不过最近的世界人工智能大会 WAIC 2025,已经让这个概念逐渐清晰了起来。 形态、任务模式不受限 真正通用的 AI 今年的 WAIC 大会热闹非常,展区人头攒动,最能吸引人们目光的当然是一台台机器人。值得一提的是,有个展位上似乎集合了最近机器人技术落地的大 多数形式。 我们知道一直以来,机器人的铁手都是难以处理柔软物体的。但在这个展台的模拟居家场景中,机器人正在展示叠衣服。 它从判断到做出决策的过程丝滑流畅。在设置好工作范围后, 机器人就可以完成一长串连续复杂的动作,把柔软衣服整齐叠好 ,还会像人类一样铺平几 ...