Seek .(SKLTY)
搜索文档
DeepSeek官宣线上模型升级,版本号DeepSeek-V3.1-Terminus
新浪科技· 2025-09-22 11:59
模型版本与功能升级 - 公司宣布线上模型已升级至DeepSeek-V3.1-Terminus版本,包含思考模型和非思考模式两个版本 [2] - 两个版本的上下文长度均为128K [1][2] - 非思考模式输出长度默认4K,最大8K,支持Function Calling、对话前缀续写和FIM补全功能 [1][2] - 思考模式输出长度默认32K,最大64K,但不支持Function Calling和FIM补全功能 [1][2] - 两个版本均支持Json格式输出 [1] 定价策略 - 模型输入费用根据缓存状态区分:百万tokens输入在缓存命中时价格为0.5元,缓存未命中时为4元 [1][2] - 模型输出费用为百万tokens 12元 [1][2]
这一空白终于被DeepSeek打破
新浪财经· 2025-09-21 06:26
公司技术成就与透明度 - DeepSeek-R1推理模型研究论文登上国际顶级期刊《自然》封面,其通讯作者为梁文锋[1] - 《自然》期刊编辑部指出主流大模型普遍缺乏独立同行评审,而DeepSeek打破了这一空白[1] - 论文详尽披露了模型训练细节,并在长达64页的同行评审文件中回应,DeepSeek-V3 Base使用的数据全部来自互联网,没有专门蒸馏环节[1] - 公司坚持开放开源技术路线,DeepSeek-R1采用MIT许可协议,支持免费商用、任意修改和衍生开发[1] - 模型在HuggingFace平台累计获得超1090万次下载,成为全球开发者使用最广泛的推理模型之一[1] 行业影响与发展路径 - 自ChatGPT起,全球大模型发展犹如“黑箱”竞速,产品性能通过社交媒体和营销发布会了解,核心训练方法和数据属于商业机密[1] - DeepSeek大大方方公布技术并接受检验,被赞扬为AI行业迈向透明度和可重复性的可喜一步[1] - 公司依托中国完整产业链和广阔市场空间,深耕医疗问诊、工业质检等垂直领域,推动算法服务生产生活[1] - 中国通过开放源代码、北斗系统、中国天眼等举措,为全球科技治理贡献智慧,坚持开放合作紧跟科技发展方向[1]
金沙江创投朱啸虎:大家低估了DeepSeek的影响力
新浪科技· 2025-09-20 02:26
朱啸虎谈到,"若干年后或许我们回望这段历史时,我觉得至少保证了一个事情,就是整个人类的AI发 展,不可能被几个私有化的公司,几个私有化的模型给控制,以后肯定是一个开源的、一个开放的AI 生态,这对人类来说特别重要。"(闫妍) 责任编辑:郝欣煜 新浪科技讯 9月20日上午消息,由硅星人与北京中关村科学城创新发展有限公司、北京中关村创业大街 科技服务有限公司联合发起的"AI 创造者嘉年华"上,金沙江创投主管合伙人朱啸虎表示,"大家低估了 DeepSeek 的影响力。" ...
DeepSeek首度公开R1模型训练成本仅为29.4万美元,“美国同行开始质疑自己的战略”
新浪财经· 2025-09-19 13:25
核心观点 - DeepSeek-R1模型以极低的训练成本实现了高性能,其训练成本仅为29.4万美元,构建基础大语言模型花费约600万美元,远低于美国同行的成本水平[1][2] - 该成本数据引发美国媒体和行业对中美人工智能竞争格局的重新评估,认为其推翻了只有拥有最先进芯片的国家才能主导AI竞赛的假设[1] - DeepSeek通过开源策略和高效率实现了高端AI的民主化,改变了行业竞争规则,竞争焦点从拥有最多GPU转向用更少资源实现更多目标[6][7] 成本优势 - DeepSeek-R1模型训练使用512块英伟达H800芯片,训练成本29.4万美元,训练时长总计80小时[2][4] - 构建基础大语言模型总成本约600万美元,远低于OpenAI首席执行官透露的远超1亿美元的训练成本[1][2] - 低成本策略得益于使用最大量免费数据进行预训练,并巧妙使用自生成数据进行微调,只在计算上花钱[6] 技术路径 - 模型训练数据来源于网络爬取,包含大量由OpenAI模型生成的回答,可能导致基础模型间接从其他强大模型获得知识[5] - 采用蒸馏技术让庞大复杂的预训练AI模型充当教师训练较小的学生模型,提升性能同时显著降低训练和运行成本[5] - 使用美国科技公司Meta的开源AI模型Llama构建模型的部分精简版本[5] 行业影响 - DeepSeek-R1成为全球首个经过同行评审的主流大语言模型,标志着重要技术里程碑[2] - 该模型在同类产品中脱颖而出,以极低成本实现最先进成果,推动AI技术普及范围扩大[6] - 开源、复制成本相对低廉、高度注重效率的模式将开放理念推向新高度,为其他公司提供可研究模板[6][7] 供应链情况 - DeepSeek在研发前期使用A100芯片为较小模型实验做准备,但R1模型主要使用合法采购的H800芯片集群进行训练[4] - 公司回应了美国官员关于违规获取H100芯片的指控,明确使用的是专为中国市场设计的H800芯片[4] - 尽管面临美国芯片出口管制,仍利用现有芯片资源成功训练出高性能AI模型[4]
DeepSeek团队梁文锋论文登上《自然》封面
证券时报网· 2025-09-19 04:46
公司研究 - DeepSeek团队共同完成的DeepSeek-R1推理模型研究论文登上国际权威期刊《自然》第645期的封面[1] - 梁文锋担任该论文的通讯作者[1] 行业研究 - 研究表明大语言模型的推理能力可通过纯强化学习来提升 从而减少增强性能所需的人类输入工作量[1] - 大语言模型不必依赖人工示例或复杂指令 也能通过试错式强化学习自主学会生成推理过程[1] - 人工智能会自发进行"自省" 被认为是探索人类之外思维路径的重要迹象[1]
DeepSeek刷屏论文背后:除了梁文锋,还有一个18岁中国高中生,曾写出神级提示词
36氪· 2025-09-19 03:32
DeepSeek-R1论文发表 - DeepSeek-R1模型通过强化学习激励大语言模型推理,论文于2025年9月17日在《自然》期刊正式发表并开放获取[5] - 相较于早期的arXiv预印版本,《自然》正式版包含更丰富的实现细节与更详尽的实验分析[2] - 该论文是全球首个经过同行评审的主流大语言模型,代表中国AI在全球顶级学术舞台上的突破[38][39] 核心研究人员背景 - 涂津豪(2007年出生)以34分最高分在2024年阿里巴巴全球数学竞赛AI赛道从全球563支队伍中夺得第一名[5][6] - 涂津豪开发"Thinking Claude"提示词工程,使Claude 3.5展现深度推理能力,该提示词在GitHub上获得15.6k stars[6][7][30] - 罗福莉学术成果显著,Google Scholar总引用量10025,h指数27,i10指数34,是DeepSeek系列多篇论文的核心作者[36] 研究人员职业轨迹 - 罗福莉本科就读北京师范大学计算机专业,硕士保送北京大学计算语言学方向,2019年以密集输出登上NLP顶会ACL[32] - 职业经历涵盖阿里达摩院(主导AliceMind开源项目)、幻方量化(深度学习策略建模)到DeepSeek(MoE大模型核心研发)[32][34] - 2024年底多家媒体报道小米创始人雷军开出千万年薪挖角罗福莉,但本人拒绝天才人设,今年2月亲属确认已入职新岗位[36] 行业影响与趋势 - 中国AI人才正以更高频率、更核心身份出现在全球顶级学术舞台[38] - 涂津豪强调"思考过程"是决定推理质量的关键因素,认为AI幻觉问题需要理性看待,某种程度上是创造力的体现[30] - 论文成果属于整个团队乃至全球探索AI的学术共同体,标志着中国AI在世界舞台上的重要突破[38][39]
AI医学的“DeepSeek时刻”快来了?
第一财经· 2025-09-19 00:32
中国AI大模型的科研突破 - DeepSeek的大模型R1的研究成果登上《自然》杂志封面,这是中国AI科技公司的首次,全球范围内此前仅有DeepMind的AlphaFold获此殊荣 [2] - 人工智能工具在极端天气预报等科学领域展现出潜力,自2022年底ChatGPT推出以来,生成式AI的迅猛发展在医学领域掀起热潮 [2] - 随着中国大模型更多技术细节披露,未来有望推动大模型在医学领域落地,AI医学的DeepSeek时刻即将到来 [2] AI在药物研发领域的应用与投资 - AI制药已成为巨头重要部署方向,跨国制药公司如百时美施贵宝和赛诺菲已进行数十亿美元投资,希望新一代AI公司实现技术突破以改变药物发现过程 [4] - 复星医药正着力打造一系列AI开发工具以提升研发效率、缩短开发周期,并引入了AI决策智能体平台PharmAID [4] - 临床试验数字化解决方案公司Medidata首席战略官表示,软件增强药物研发将是下一代临床试验重要领域,公司已联合业内合作伙伴全面布局AI [4] - Medidata自2015年以来支持了美国FDA获批的93%的肿瘤新药 [4] - 全球由中国企业发起的临床试验比例从过去约3%跃升至2024年的30%,中国已成为全球第二大临床试验市场 [4] AI制药面临的技术与生物学挑战 - AI可快速浏览分子数据库并将化合物与靶点匹配,但这仅是药物发现的第一步,药物的毒副作用等许多问题尚无法用AI预测 [5] - 纸面上看起来不错的药物在临床试验中仍有90%的失败率 [5] - AI制药走向现实的过程堪比自动驾驶汽车上路,除解决技术算法核心难题外,还面临复杂生物学问题及应用时的监管问题 [5] - 人类对自身生物学问题如细胞相互作用仍知之甚少,这些问题超出算法范围,大模型缺乏AI制药加速所需的数据 [5] 医疗机构推动AI大模型落地 - 复旦大学附属中山医院联合华为、联影智能等公司共同发起“元医疗模拟实验室”,将开发AI智能体并开展以大模型为代表的人工智能技术应用中试 [5][6] - 人工智能、大模型正在改变诊疗范式,成为下一代疗法研发的重点方向,这已在全球顶尖学术会议上传递出明确信号 [6] - 在欧洲心脏病学会年会上,葛均波团队联合华为终端发布利用可穿戴多模态AI驱动的冠心病风险预测系统,重构冠心病早期筛查与风险评估的临床路径 [6] AI在医疗应用的具体进展与关键环节 - AI在心率筛查、影像分析、风险评估等方面取得显著进展,在特定领域已达临床应用水平,如通过可穿戴设备成功实现间歇性房颤监测 [6] - 复旦大学附属中山医院已发布首个心血管疾病大模型“观心” [6] - 人工智能在医学中的应用涉及三个关键环节:数据质量以确保医疗数据准确有效、足够强大的计算能力支持、算法优化以从有效数据中提取临床价值信息 [6] - 医生始终是诊疗决策主体,使用AI技术的医生对医疗行为承担主要责任,相关伦理规范正在制定以确保AI技术安全有效地服务临床诊疗 [7]
DeepSeek 创始人梁文锋在《自然》杂志回应质疑,R1 训练真 29.4 万美金
新浪财经· 2025-09-19 00:03
学术成就与行业认可 - DeepSeek团队的研究成果登上Nature封面,论文主题为通过强化学习激发大语言模型推理能力 [1][3] - Nature发表评论文章对DeepSeek-R1的创新性给予高度评价,称其开创了AI推理新范式 [1][3] - 该模型成为全球首个经过同行评审的主流大语言模型,审稿人认为这一先例有助于系统风险评估 [5][8] 技术突破与创新 - 采用纯强化学习框架DeepSeek-R1-Zero,摒弃传统监督微调(SFT)阶段,仅通过答案正确性给予奖励信号 [10] - 训练成本仅29.4万美元(含20.2万美元Zero阶段+1万美元SFT数据创建+8.2万美元其他成本),总成本远低于行业巨头 [6][7] - 使用GRPO(组相对策略优化)算法替代传统PPO,通过组内竞争机制降低资源消耗并保持训练稳定性 [23][24] 性能表现与能力进化 - 在AIME 2024数学竞赛中,模型准确率从初始15.6%提升至77.9%,结合自洽解码技术后达86.7% [10] - 训练过程中出现"顿悟时刻",模型自主增加思考链长度(最高达数百token)并涌现自我反思、替代解法探索等高级策略 [14][16] - 经过多阶段训练后,在AlpacaEval 2.0和Arena-Hard基准测试中性能提升17%-25%,同时保持数学编程领域顶尖水平 [21] 训练方法论 - 采用四阶段训练流程:冷启动微调、第一轮RL强化推理、大规模SFT混合非推理数据、第二轮RL对齐人类偏好 [18][19] - 设计双轨奖励系统:推理任务采用基于规则的严格奖励(避免奖励投机),通用任务采用基于模型的奖励 [25][26] - 关键训练参数包括学习率3×10⁻⁶、KL散度系数0.001、批次大小512,并在8200步时将上下文长度从32K扩展至65K token [31][34] 市场反响与行业影响 - 开源后在Hugging Face平台下载量突破1090万次,成为最受欢迎模型 [5] - 引发OpenAI质疑可能使用ChatGPT输出训练,但审稿人认可其方法独立性并通过复现验证有效性 [37][39] - 被评价为"开启革命",多国实验室正尝试将该方法扩展至数学编码之外领域 [42]
DeepSeek团队发表重磅论文,《自然》配发社论狂赞呼吁同行效仿
扬子晚报网· 2025-09-18 13:19
研究论文发表 - DeepSeek-R1推理模型研究论文登上《自然(Nature)》封面 成为全球首个经过同行评审的主流大语言模型[2] - 论文披露更多模型训练细节 强调大语言模型推理能力可通过纯强化学习提升 减少人类输入工作量[2] - 训练出的模型在数学 编程竞赛和STEM领域研究生水平问题等任务上表现优于传统训练的LLM[2] 同行评审意义 - 《自然》配发社论强调同行评审对AI模型至关重要 指出目前几乎所有主流大模型都未经过独立同行评审[4] - 同行评审有助于厘清LLM工作原理并评估其是否真正实现宣称功能[6] - DeepSeek-R1成为目前唯一接受同行评审的大语言模型[6] 评审过程与改进 - R1模型经过八位专家评审 从原创性 方法学和鲁棒性等方面接受评估[9] - 公司提供减少数据污染的技术细节 并补充模型发布后新基准评估结果[9] - 同行评审促使论文作出重要修改 所有举措被视作迈向透明化与可复现性的进步[9] 行业影响与呼吁 - 《自然》呼吁其他AI公司效仿DeepSeek做法 将AI模型开发纳入科学研究规范框架[10] - 开放模型允许更广泛群体发现并修复缺陷 虽存在安全争议但具有积极意义[10] - 若同行评审形成趋势 将极大促进AI行业健康发展 DeepSeek-R1被期待成为首个而非最后一个案例[10]
9.18犀牛财经晚报:生猪产能调控超预期 DeepSeek首次回应蒸馏OpenAI质疑
犀牛财经· 2025-09-18 10:30
银行业务动态 - 华瑞银行与苏商银行逆势推出年利率超2%的大额存单产品 其中18个月期利率2.15% 2年期利率2.35% 起购门槛均为20万元 [1] - 华瑞银行两款存单产品仅限上海地区购买 其中18个月期产品已售罄 2年期产品剩余额度仅7820万元 [1] - 业内分析认为高利率存单属于阶段性获客手段 旨在提升零售端市场竞争力 不具备长期可持续性 [1] 科技创新进展 - 科技部确认人形机器人已在汽车制造、物流搬运、电力巡检场景加速落地 关键技术实现突破 [1] - 脑机接口技术取得临床进展 国产脑起搏器实现全面商用 在8个国家400家医院开展植入 累计帮助3万名帕金森病患者 [1] 生猪产能调控 - 农业农村部联合发改委召开产能调控座谈会 要求头部企业带头减产 包括调减能繁母猪存栏量及控制出栏体重在120公斤左右 [2] - 调控措施超出市场预期 配套出台严控信贷投放和减少补贴等财政金融措施 [2] 医药领域突破 - 润生药业丙酸氟替卡松吸入粉雾剂获批上市 成为国内首款高端吸入粉雾剂产品 [2] 人工智能技术 - DeepSeek在《Nature》发表论文 披露R1模型训练成本仅29.4万美元 并回应训练数据仅来自普通网页和电子书 未使用OpenAI合成数据 [3] 企业债务动态 - 锤子科技内部人士回应1500万元债务问题 称罗永浩愿以个人名义偿还但将紫辉创投债务置于最后处理 [4][5] - 融创房地产新增三则被执行人信息 执行标的合计9.2亿元 公司现存被执行人信息280余条 被执行总金额超454亿元 [6] 监管合规事项 - 和顺科技因信息披露问题收到浙江证监局警示函 涉及275.50万元政府补助未及时披露及超募资金投资进展未披露 [7] 重大合同中标 - 蜀道装备控股子公司签署2468.38万元氢燃料电池生产线技术改造施工合同 [8] - 棕榈股份全资子公司中标4.33亿元高标准农田建设项目 占公司2023年营收14.12% [9] - 三维股份子公司中标1.58亿元铁路轨枕采购项目 [12] - 富临精工控股子公司获宁德时代15亿元预付款 用于锁定磷酸铁锂材料供应 [11] 土地资产获取 - 天地源子公司以20.15亿元竞得西安高新区住宅用地 [10] 资本市场动态 - 紫金黄金国际香港IPO预计融资超30亿美元 吸引GIC、Millennium、高瓴、贝莱德等机构认购半数股份 [5] 市场表现数据 - A股三大指数集体下跌 创业板指跌1.64% 沪深两市成交额3.135万亿元创年内第三 超4300只个股下跌 [13] - 机器人板块延续强势 芯片产业链逆势上涨 中芯国际创历史新高 有色金属板块大幅下跌 [13]