Workflow
大语言模型
icon
搜索文档
远程银行的“跨越山海”与咫尺服务
证券日报· 2025-09-18 16:22
"我们观察到多家银行的AI业务已从'试试看'转为'必须做',其整体战略布局已被重构。远程银行不仅是 银行数字化转型成果的集中展现,更是其关键输出端口。它不再是成本中心,而是新的服务核心、营销 中心和价值创造中心。"蚂蚁数科副总裁余滨在接受《证券日报》记者采访时分享了他的见解。 从业者的直观感受,正是当前银行业数字化转型深入推进的真实写照。在数智驱动下,金融服务提质升 级,有力推动了银行跑出金融为民的"加速度"。作为数字化转型的"桥头堡",远程银行由信用卡中心、 电话银行中心、网络银行部等传统部门整合而成,形成独立的"远程银行部"或"线上客户经营中心",并 提升至与线下网点同等重要的战略层级,成为银行全面数字化转型的重要支点。 随着"数字中国"建设及做好"数字金融"大文章的深入推进,以创新为核心的新质生产力正迅速崛起,成 为推动金融高质量发展的核心动力。在新形势下,银行与用户的关系正在重塑,服务渠道与工具也在不 断更新迭代,一幅"新金融"的蓝图正徐徐展开。 从功能叠加 走向业务重构 余滨长期深耕在业务一线,致力于服务机构的远程银行建设。他向记者讲述:"如今,我们为银行提供 的AI应用已从最初的智能客服、知识问答 ...
当前的自动驾驶VLA,还有很多模块需要优化...
自动驾驶之心· 2025-09-18 11:00
点击咨询匹配大牛导师 1. 传统模块化架构的时代: 早期的自动驾驶系统(L2-L4级)普遍采用模块化设计。每个模块(如 物体检测、轨迹预测、路径规划)被独立开发和优化。 优势: 逻辑清晰,各模块可独立调试和 验证,具有较好的可解释性。 瓶颈: 错误累积效应: 上游模块的微小误差会逐级传递并放大, 影响最终决策。 信息损失: 在模块间传递的结构化数据(如3D框、轨迹点)会损失原始传感器 信息中的丰富细节。 规则的局限性: 依赖大量人工设计的规则和参数,难以应对复杂、长尾的 交通场景(Corner Cases)。 2. 纯视觉端到端(模仿学习)的兴起: 以NVIDIA的DAVE-2、Wayve等为代表,研究者们尝试使用 深度神经网络,通过模仿学习(Imitation Learning)的方式,直接从人类驾驶员的驾驶视频和操 作数据中学习"像素到行为"的映射。 优势: 简化了系统架构,能从数据中自动学习复杂的驾驶 策略,无需繁琐的规则设计。 瓶颈: "黑箱"问题与可解释性差: 模型决策过程不透明,难以理 解其做出特定行为的原因,这对于安全至关重要的自动驾驶是致命缺陷。 因果混淆(Causal VLA绝对是今年自动驾 ...
DeepSeek 首登《自然》封面:中国大模型创造新历史,做了 OpenAI 不敢做的事
36氪· 2025-09-18 09:56
就在今天,DeepSeek 的大型语言模型 DeepSeek-R1 的研究成果,作为封面文章登上了国际顶尖科学期刊《Nature》。 和 OpenAI 那些动辄上千万美元, 这个只花了 30 万美元训练出来的国产 AI 模型 ,曾经不仅一度引发美股震荡,现在还登上了 Nature 的最新封面。 图片链接:https://www.nature.com/nature/volumes/645/issues/8081 Nature 封面评语 此次登上 Nature 封面的文章,是 DeepSeek 年初在 arXiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》,即 R1 的技术论文。 虽然大体上和年初那篇类似,但是补充了相当多细节。 论文作者名单,梁文锋是通讯作者 正文只有双栏 11 页,补充材料却来到了 83 页;而同行评审,就是审稿人与 DeepSeek 团队就论文某些问题进行讨论的记录(一般叫 rebuttal,反驳),也有 64 页之多。 这些新公开的资料,让我们看到了 De ...
DeepSeek,严正声明!
中国基金报· 2025-09-18 08:37
公司声明与事件 - 深度求索公司发布声明称有不法分子冒充公司或员工实施诈骗 伪造工牌和营业执照等材料 在多个平台以算力租赁和股权融资等名义向用户收取费用 [1] - 公司强调从未要求用户向个人账户或非官方账户付款 任何私下转账要求均属诈骗 冒用公司名义开展算力租赁或融资等行为均属违法 将追究法律责任 [2] - 公司提醒用户通过官网deepseek com及官方认证账号获取信息 官方网页和App产品目前均为免费 API调用服务需前往官网开放平台充值 遇可疑情况可通过官方邮箱联系或向公安机关举报 [2] 公司背景与成就 - 深度求索成立于2023年 由中国知名量化投资机构幻方量化孵化 是一家总部位于杭州的人工智能研究机构 [3] - 创始团队由量化专家梁文锋领衔 集结了多名顶尖高校科研人才及具备国际机构经验的技术专家 [3] - 近期DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1研究论文登上国际权威期刊《Nature》封面 引发市场高度关注 DeepSeek-R1成为首个通过同行评议的主要大语言模型 [3]
从 ChatGPT 到 Marble,李飞飞押注的下一个爆发点是 3D 世界生成?
锦秋集· 2025-09-18 07:33
文章核心观点 - 李飞飞创立的World Labs推出空间智能模型Marble 其核心突破在于通过一张图片或文本提示生成持久存在且可自由导航的3D世界 在几何一致性、风格多样性、世界规模和跨设备支持上显著优于同类产品[1][2] - Marble并非孤立产品 而是李飞飞"世界模型-空间智能-三维表征"思路的集中落地 代表从语言理解到世界理解再到AGI的演进路径[3][6] - 世界模型被视为AI发展的第三阶段范式 其核心在于三维表征与时空一致性 而不仅是多模态拼接 这将推动内容生产、机器人和AR/VR领域的变革[6][21][29] 大语言模型边界与空间智能必要性 - 大语言模型在写作、推理等任务中展现强大能力 但其基于一维序列的结构无法原生理解三维世界 语言作为有损编码方式难以传递几何、物理和时序因果信息[5][9][10] - 二维像素和视频输入不会自动生成三维结构 关键在模型内部表征需原生支持三维表达 满足可微渲染、视角一致性和物理一致性要求[11][14] - 空间智能是AGI的必要条件 因为世界本质是三维的 二维观测是不完备投影 且语言训练信号是纯生成的 无法替代对三维结构的直接建模[16] 世界模型的技术实现路径 - 数据策略采用混合路径:真实采集+重建生成+仿真合成 以解决三维数据匮乏问题 同时强调数据质量与一致性约束的重要性[20][26] - 算法层面注重"重建与生成合流" 同一套三维表示既能重建真实场景 也能生成虚拟世界 NeRF等方法让小规模算力也能实现原创突破[20][24] - 算力资源配置体现学术与产业分工:工业界侧重系统工程与产品化 学术界专注表示方法和跨模态原理研究[25] 产业发展与落地节奏 - 内容生产为首要落地场景 目标将3D内容生成成本从AAA游戏级降至创作者可及水平 应用覆盖游戏、虚拟摄影、工业设计和教育领域[6][29] - 机器人被视为天然应用场景 空间智能连接数字脑与物理界面 但需先打磨三维表示与交互能力 再承接高风险实体操作[30] - AR/VR作为后续发展阶段 需实现从静态场景到动态要素、可交互性和场景语义的逐步演进[29] 范式演进与投资逻辑 - AI发展遵循三要素共振规律:数据×算力×算法 ImageNet时代是二维标注数据驱动 世界模型时代是三维表示驱动[18][21][23] - 范式演进分为三阶段:监督学习(ImageNet)→生成式建模(扩散/GAN)→三维世界模型(重建×生成)[21][24] - 投资逻辑围绕"找到时代最被低估的数据形态" 三维表示被视为当前最具潜力的数据形态[21][23]
DeepSeek打破历史!中国AI的“Nature时刻”
证券时报· 2025-09-18 07:29
研究突破与学术认可 - DeepSeek-R1推理模型研究论文登上Nature封面 成为中国大模型研究首次获此认可 也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究 [1] - Nature社论评价该研究打破主流大模型缺乏独立同行评审的局面 强调其公开性和透明性价值 [1][2] - 论文历经半年评审周期 8位外部专家参与质询数据来源、训练方法及安全性 全文64页包含训练成本披露和技术细节更新 [2] 技术创新与成本优势 - R1模型使用512张H800 GPU训练80小时 以每GPU小时2美元租赁成本计算 总训练成本为29.4万美元(约209万元人民币) 较其他推理模型千万级成本显著降低 [3] - 团队澄清未使用专有模型蒸馏技术 训练数据全部来自互联网 包含GPT-4生成内容属非故意行为 并提供数据污染防控流程 [3] - DeepSeek-V3.1采用混合推理架构 支持思考与非思考双模式 通过后训练优化提升工具使用与智能体任务表现 [4] 硬件生态与产业协同 - V3.1版本采用UE8M0 FP8 Scale参数精度 专为下一代国产芯片设计 预示未来训练与推理将更多应用国产AI芯片 [4][5] - 通过FP8精度降低算力需求 使国产ASIC芯片在12-28nm成熟制程接近英伟达GPU算力精度 形成"软硬协同"技术壁垒 [5] - 该技术路径带动国产芯片算力股股价飙升 可能成为行业新技术趋势 通过软硬件协同实现数量级性能提升 [5]
DeepSeek首次回应“蒸馏OpenAI”质疑
第一财经· 2025-09-18 05:34
2025.09. 18 本文字数:2259,阅读时长大约4分钟 作者 | 第一财经 刘晓洁 郑栩彤 9月18日,DeepSeek再次引发轰动。由DeepSeek团队共同完成、梁文锋担任通讯作者的 DeepSeek-R1研究论文,登上了国际权威期刊《Nature》的封面。 今年1月,DeepSeek曾在arxiv公布了初版预印本论文,相较而言,此次发布在《Nature》的版本 补充了更多模型细节,减少了描述中的拟人化说明。在补充材料中,DeepSeek提到了R1模型的训 练成本仅29.4万美元,以及回应了模型发布之初关于蒸馏OpenAI的质疑。 今年1月,有报道提到,OpenAI研究人员认为,DeepSeek可能使用了OpenAI模型的输出来训练 R1,这种方法可以在使用较少资源的情况下加速模型能力提升。 在论文的补充资料部分,DeepSeek回应了关于DeepSeek-V3-Base训练数据来源的问 题。"DeepSeek-V3-Base的训练数据仅来自普通网页和电子书,不包含任何合成数据。在预训练 冷却阶段,我们没有故意加入OpenAI生成的合成数据,此阶段使用的所有数据都是通过网页抓取 的。"DeepSe ...
DeepSeek,打破历史!中国AI的“Nature时刻”
证券时报· 2025-09-18 04:51
文章核心观点 - DeepSeek-R1推理模型研究论文登上Nature封面 成为中国首个登上该期刊封面的大模型研究 标志着中国AI技术在国际科学界获得最高认可 [1] - DeepSeek通过独立同行评审打破行业空白 其公开透明的模式受到Nature高度评价 为AI模型提供更高的透明度和可重复性标准 [1][2][3] - DeepSeek-R1以仅29.4万美元的训练成本实现显著降本 相比其他推理模型动辄上千万美元的花费具有显著成本优势 [3] - DeepSeek-V3.1的发布采用针对国产芯片设计的UE8M0 FP8参数精度 推动软硬协同生态建设 带动国产算力芯片发展 [6][7] 技术突破与学术认可 - DeepSeek-R1是全球首个经过完整同行评审并发表于Nature的主流大语言模型研究 历时半年通过8位外部专家评审 [1][2] - 论文全文64页 首次披露训练成本和技术细节 包括数据来源 训练方法及安全性评估 并对"蒸馏"质疑作出正面回应 [3][4] - 训练成本仅29.4万美元(约209万元人民币) 使用512张H800 GPU训练80小时 以每GPU小时2美元租赁价格计算 [3] - Nature社论强调该研究填补主流大模型缺乏独立同行评审的空白 Hugging Face专家评价其为行业建立公开分享研发过程的先例 [1][3] 产品演进与算力生态 - DeepSeek-V3.1采用混合推理架构 提升思考效率和智能体能力 通过后训练优化在工具使用与智能体任务中表现提升 [6] - V3.1使用UE8M0 FP8参数精度 针对下一代国产芯片设计 表明未来训练与推理将更多应用国产AI芯片 [6][7] - FP8参数精度使国产ASIC芯片在成熟制程(12-28nm)接近英伟达GPU算力精度 软硬协同成为AI新范式 [7] - 国产大模型拥抱FP8算力精度成为技术趋势 通过软硬件协同实现数量级性能提升 推动国产算力芯片变革 [7] 行业影响与市场反应 - DeepSeek从预印本到Nature封面的"学术跃迁" 为AI模型建立透明度和可重复性标准 [2] - 国产芯片算力股因DeepSeek支持国产AI芯片的表态出现股价飙升 [6] - R2研发进程可能受算力限制影响 但V3.1升级引发对R2发布的猜测 [5][6]
“这一空白终于被打破”,梁文锋论文登上《自然》封面
观察者网· 2025-09-18 03:27
《科技日报》则在报道中介绍称,梁文锋参与的研究表明,大语言模型的推理能力可通过纯强化学习来 提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学和STEM领域研究生水平问题等 任务上,比传统训练的大语言模型表现更好。 DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使 用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的 问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习 效果。在评估AI表现的各项测试中,DeepSeek-R1-Zero和DeepSeek-R1的表现都十分优异。 据智通财经9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研 究论文,登上了国际权威期刊《自然(Nature)》的封面。 与今年1月发布的DeepSeek-R1的初版论文相比,本次论文披露了更多模型训练的细节,并正面回应了 模型发布之初的蒸馏质疑。DeepSeek-R1也是全球首个经过同行评审的主流大语言模型。Nature评价 道:目前几 ...
梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑
AI前线· 2025-09-18 02:28
核心突破与行业地位 - DeepSeek-R1成为首个通过完整同行评审并发表于《自然》封面的大语言模型 标志着国产AI研究迈入世界舞台并填补行业空白 [2][3][8] - 模型通过纯强化学习机制自主形成推理能力 无需依赖人工标注的思维链数据或提示工程 显著降低对人工数据的依赖 [3][12] - 在Hugging Face平台下载量突破1090万次 成为全球开源社区最受欢迎的推理模型之一 [3] 技术创新与训练方法 - 基于DeepSeek-V3 Base构建R1-Zero 通过多阶段训练结合监督微调和拒绝采样 实现强推理性能与人类偏好对齐 [3] - 采用组相对策略优化技术 模型通过自我评分和试错机制学习独立推理策略 而非模仿人类示例 [13] - 训练成本仅29.4万美元 基础模型开发成本约600万美元 总成本远低于竞争对手数千万美元投入 [6] 数据安全与透明度改进 - 预训练数据完全来自互联网 团队强调未有意进行蒸馏过程 但承认可能包含GPT-4生成文本 [6][13] - 为避免基准测试污染 清除数学数据中约600万条潜在污染样本 并引入外部风险控制机制 [6] - 安全性表现优于Claude-3.7-Sonnet和GPT-4o等主流模型 通过DeepSeek-V3实时审查 [6] 学术影响与行业评价 - 论文经过8位专家评审 收到上百条意见 最终审稿文件达64页 为论文本身三倍长度 [9] - 该方法引发行业革命 2025年几乎所有大语言模型的强化学习研究均受R1启发 [13] - 在ScienceAgentBench科学任务中 以23.53%准确率和1.87美元成本达到帕累托最优 成为性能成本平衡最佳模型之一 [15] 争议回应与验证 - 团队回应OpenAI数据使用质疑 称未直接使用其输出训练 但基础模型可能吸收互联网现有AI生成内容 [13][14] - 外部专家认为反驳具有说服力 其他实验室重复实验表明纯强化学习可实现高性能 无需依赖OpenAI样本 [14] - 论文补充训练细节和技术说明 减少拟人化描述 增加数据类型和安全性披露 [9][13]