Seek .(SKLTY)

搜索文档
DeepSeekR1幻觉率最高降低50%,用户喊话想要R2模型
第一财经· 2025-05-29 14:10
模型性能提升 - 更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得国内领先成绩,接近国际顶尖模型如o3与Gemini-2 5-Pro [4] - 新版模型在AIME 2025数学测试中准确率从旧版70%提升至87 5% [18] - 代码能力显著提升,在Live CodeBench平台性能媲美OpenAI的o3-high模型 [18] 幻觉问题优化 - 新版R1模型在改写润色、总结摘要、阅读理解等场景中幻觉率降低45%-50%,此前旧版幻觉率为21% [4][18] - SuperCLUE测评显示推理模型平均幻觉率为22 95%,非推理模型为13 52% [18] 文本生成能力 - 针对议论文、小说、散文等文体优化,能输出篇幅更长、结构更完整的长篇作品,写作风格更贴近人类偏好 [18] - 深度思考能力与创意写作能力得到强化 [1] 技术细节与开源策略 - 新模型参数为685B,开源版本上下文长度128K(网页端/App/API提供64K),仍采用MIT License允许商用与二次训练 [19] - 基于DeepSeek V3 Base模型基座,后训练投入更多算力提升思维深度与推理能力 [18] 行业动态与用户反馈 - 用户对下一代R2模型期待强烈,X平台评论区出现"We want R2"呼声 [19] - 业界猜测R1更新可能延迟R2发布,或与基准测试未超越OpenAI o3有关 [19] - 海内外基座模型竞争持续,DeepSeek更新后行业关注下一家突破者 [19]
DeepSeek-R1更新,官方说明来了!多项表现已接近其他国际顶尖模型
每日经济新闻· 2025-05-29 13:13
5月29日晚间,深度求索微信公众号公布了 DeepSeek-R1-0528 更新的详细升级内容,DeepSeek-R1-0528 仍然使用 2024年12月所发布的 DeepSeek V3 Base 模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。更新后的 R1 模型在数学、编程与通用逻辑 等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如 o3 与 Gemini-2.5-Pro。 其他能力更新比如: 1.幻觉改善:新版 DeepSeek R1 针对"幻觉"问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降 低了 45~50% 左右,能够有效地提供更为准确、可靠的结果。 2.创意写作:在旧版 R1 的基础上,更新后的 R1 模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的 长篇作品,同时呈现出更加贴近人类偏好的写作风格。 3.工具调用:DeepSeek-R1-0528 支持工具调用(不支持在 thinking 中进行工具调用)。当前模型 Tau-Ben ...
DeepSeek-R1-0528更新官方详解:思考更深、推理更强
智通财经网· 2025-05-29 12:55
模型升级概述 - DeepSeek-R1-0528 基于 DeepSeek V3 Base 模型进行升级,显著提升了思维深度与推理能力 [1] - 新版模型在数学、编程与通用逻辑等基准测评中取得国内领先成绩,接近国际顶尖模型如 o3 与 Gemini-2.5-Pro [1] 性能表现 - 在 AIME 2024 数学竞赛 pass@1 中得分为 91.4,略低于 OpenAI-03 的 91.6,但高于 Gemini-2.5-Pro-0506 的 90.8 [2] - 在 AIME 2025 数学竞赛 pass@1 中得分为 87.5,较旧版 R1 的 70.0 提升 17.5 个百分点 [2] - GPQA Diamond 科学测试 pass@1 得分为 81.0,略低于 OpenAI-03 的 83.3 和 Gemini-2.5-Pro-0506 的 83.0 [2] - LiveCodeBench 代码生成 pass@1 得分为 73.3,低于 OpenAI-03 的 77.3,但高于 Gemini-2.5-Pro-0506 的 71.8 [2] 技术优化 - 新版模型在 AIME 2025 测试中每题平均使用 23K tokens,较旧版的 12K tokens 增加近一倍,显示思维深度增强 [3] - 针对"幻觉"问题优化,在改写润色、总结摘要等场景中幻觉率降低 45~50% [3] - 对议论文、小说、散文等文体进行优化,能输出更长、结构更完整的长篇作品,写作风格更贴近人类偏好 [3]
DeepSeek R1官宣更新:思维深度与推理能力显著提升,优化“幻觉”问题
新浪科技· 2025-05-29 12:40
新浪科技讯 5月29日晚间消息,DeepSeek今日宣布,DeepSeek R1模型已完成小版本升级,当前版本为 DeepSeek-R1-0528。用户通过官方网站、App或小程序进入对话界面后,开启"深度思考"功能即可体验 最新版本。API 也已同步更新,调用方式不变。 工具调用,DeepSeek-R1-0528 支持工具调用(不支持在 thinking 中进行工具调用); 据介绍,DeepSeek-R1-0528 仍然使用 2024 年 12 月所发布的 DeepSeek V3 Base 模型作为基座,但在后 训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。官方称更新后的 R1 模型在数 学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表 现上已接近其他国际顶尖模型,如o3与Gemini-2.5-Pro。 其他能力更新方面,包括幻觉改善,新版 DeepSeek R1 针对"幻觉"问题进行了优化。与旧版相比,更新 后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45~50%左右,能够有效地提供更 为准确、可靠的结果; 创意写作,在旧版 R1 ...
不只是“小升级”!DeepSeek-R1新版获海外盛赞,每经记者亲测挑战三大编程任务
每日经济新闻· 2025-05-29 10:46
每经记者|宋欣悦 每经编辑|兰素英 5月29日凌晨,DeepSeek-R1-0528正式在Hugging Face平台开源。此前一日(5月28日),DeepSeek官方宣布DeepSeek-R1模型已完成小版本试升级,用户可 通过官方网页、App、小程序进行测试(打开深度思考),API接口和使用方式保持不变。 在此次更新中,模型代码能力的提升最为显著。知名代码测试平台LiveCodeBench显示,更新后的R1性能可以媲美OpenAI o3模型的高版本。 除代码能力外,R1新版本模型的文本理解与推理能力亦实现跨越式升级。其上下文长度拓展至128k,长文本提取的准确率也有显著提升。 《每日经济新闻》记者(以下简称"每经记者")通过俄罗斯方块游戏开发、太阳系模拟与交互展示,以及设计英伟达最新财报网页这三项任务对R1新版本 进行了实测,发现DeepSeek-R1-0528的编程能力确实强大,对物理世界的理解以及文本的提取都相当准确。 知名AI评论人Haider在社交媒体上评价称,这是开源的一大胜利。 瑞士IT咨询公司CTOL Digital Solutions首席执行官Max Zhang则表示,在这一"小"进步之后 ...
DeepSeek R1悄悄更新,用“小版本”干翻大模型
虎嗅· 2025-05-29 09:52
模型升级与性能提升 - DeepSeek-R1-0528版本在编程能力上大幅提升,性能接近OpenAI o3-high水平,尤其在代码生成领域进入第一梯队 [7][8] - Extended NYT Connections基准测试得分从38.6提升至49.8,显示智能水平显著进步 [5] - 模型参数规模达671B,其中37B参数在推理过程中激活,保持164K上下文长度 [4] 技术特性与成本优势 - 新版本输入输出价格维持不变(输入$0.50/M tokens,输出$2.18/M tokens),成本效益突出 [4] - 采用MIT开源许可,支持商业用途,模型文件包含163个safetensors分卷(单个体积4.3-5.23GB) [42] - 支持fp8量化、工具调用(Supports Tools)和164K tokens长上下文处理 [4] 实际应用表现 - 在LiveCodeBench测试中总分73.4,接近o3-high(75.4),尤其在简单题(98.3)和中难度题(83.4)表现优异 [8] - 生成复杂动态动画能力突破:粒子效果模拟与Claude-4-sonnet相当,单次生成代码量达728行(对比Claude的542行) [9][11][12] - 全栈开发能力提升,可快速构建three.js 3D应用(如3D画廊、太阳系模拟器),响应时间仅14秒生成462行代码 [16][20][24][26] 行业趋势与竞争格局 - 小版本迭代策略成效显著,打破大版本号崇拜,通过持续优化实现性能对标头部竞品 [43][44] - 开源策略延续,模型性能与Claude 4形成直接竞争,尤其在编程领域威胁传统AI编码工具(如Cursor、Warp)市场地位 [7][21] - 思维链模式改变导致推理时间延长(如估算π/7耗时148秒),但输出精度和纠错能力提升 [37][39][40] 用户体验与设计改进 - 前端审美显著优化,能生成苹果官网风格网页,融合深空灰/银色调、悬浮动画等设计元素 [28][29] - 科技感UI设计超越Claude4,深色主题界面更具视觉冲击力 [32] - 交互功能增强,如3D太阳系模拟器支持行星点击获取信息,展示实时轨道物理模拟 [24]
ima已接入DeepSeek R1-0528
快讯· 2025-05-29 09:06
腾讯AI工作台产品更新 - 腾讯旗下AI工作台产品ima迎来更新 全端接入深度思考模型DeepSeek R1-0528版本 [1] - 用户无需更新 打开ima任意版本(包括电脑端、App、小程序) 选择DeepSeek R1即可体验 [1] 产品技术升级 - 深度思考模型DeepSeek R1-0528版本已全面接入ima产品线 [1] - 更新覆盖电脑端、App、小程序等多终端 实现无缝体验 [1]
DeepSeek开源新版模型 A500指数ETF(159351)今年以来份额增长幅度达15.53% 位居同类第一
每日经济新闻· 2025-05-29 07:54
市场表现 - 5月29日A股市场放量反弹,沪指收盘报3363.45点,上涨0.70% [1] - A500指数ETF(159351)大涨0.94%,收盘溢价幅度达0.13%,全天成交26.65亿元,位居全市场同类第二,深市同类第一 [1] - 成分股中德赛西威涨停,君实生物、光启技术涨超7%,康龙化成、华海药业涨超6% [1] 资金动向 - A500指数ETF(159351)当日获2.04亿份净申购,连续7个交易日净申购,今年以来份额增长15.53%,位居同类第一 [1] 指数特征 - A500指数ETF跟踪中证A500指数,包含500只市值大、流动性好的股票,行业分布均衡且偏向大中盘风格,新质生产力成分占比较高 [2] - 场外投资者可通过联接基金(A类022453;C类022454)布局该指数 [2] 机构观点 - 中信证券认为中国资本市场生态优化,资产吸引力提升,未来一年权益资产或迎年度级别行情 [1]
全面实测新版DeepSeek R1,我们挖出了这些隐藏亮点
虎嗅· 2025-05-29 06:22
DeepSeek猝不及防地更新了,不是R2,而是R1v2。 官方的通告也很"DeepSeek",甚至可以说有点佛系,在微信交流群发了一句: "DeepSeekR1模型已完成小版本试升级,欢迎前往官方网页、APP、小程序测试(打开深度思考),API接口和使用方式保持不变。" 看起来平平无奇,但真一顿实测下来,这个"小版本"恐怕还是过于谦虚了。 全球最大AI开源社区HuggingFace已经开源了这个新版本,名字也很实在:DeepSeek-R1-0528。不过截至目前,模型卡还没同步更新。 | deepseek-ai/DeepSeek-R1-0528 ♡ like 4 | | Follow or DeepSeek 69.9k | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | | & Safetensors deepseek_v3 custom_code | fp8 | | | | | | | | @ Model card Files and versions Community | | | | | | | | | main v DeepSe ...
DeepSeek宣布开源新版R1模型,AI人工智能ETF(512930)、线上消费ETF基金(159793)涨超2%,消费电子ETF(561600)近1月日均成交额居同类第一
搜狐财经· 2025-05-29 05:55
人工智能主题指数表现 - 中证人工智能主题指数(930713)上涨1 90%,成分股德赛西威上涨10 00%,千方科技上涨5 76%,广电运通上涨4 92%,四维图新、易华录等跟涨 [1] - AI人工智能ETF(512930)上涨2 05%,最新价1 3元,近1年累计上涨24 55% [1] - AI人工智能ETF盘中换手2 77%,成交5354 94万元,近1年日均成交8769 66万元 [1] - AI人工智能ETF最新规模达19 04亿元,近1周份额增长900 00万份,新增份额位居可比基金1/3 [1] - 近10个交易日内有6日资金净流入,合计4201 15万元,日均净流入420 12万元 [1] - 杠杆资金持续布局,AI人工智能ETF最新融资买入额209 72万元,融资余额8464 96万元 [2] 消费电子主题指数表现 - 中证消费电子主题指数(931494)上涨1 89%,成分股工业富联上涨5 92%,景旺电子上涨5 72%,生益科技上涨4 31%,信维通信、圣邦股份等跟涨 [5] - 消费电子ETF(561600)盘中涨超2%,现涨1 98%,最新价0 77元,近1年累计上涨22 13% [5] - 消费电子ETF盘中换手4 07%,成交745 46万元,近1月日均成交1371 29万元,居可比基金第一 [5] - 消费电子ETF近1月规模增长1012 54万元,新增规模位居可比基金2/5,份额增长1800 00万份,新增份额位居可比基金2/5 [5] - 近17个交易日内合计资金净流入1502 74万元 [5] 线上消费主题指数表现 - 中证沪港深线上消费主题指数(931481)上涨1 81%,成分股美团-W上涨6 09%,完美世界上涨3 62%,浙数文化上涨3 61%,快手-W、巨人网络等跟涨 [8] - 线上消费ETF基金(159793)上涨2 29%,最新价0 89元,近半年累计上涨6 07% [8] AI行业动态 - DeepSeek开源新版R1模型,代码生成与复杂推理能力媲美OpenAI顶级o3模型,编程任务中首次运行通过率接近100% [10] - 中信证券认为2025年下半年科技产业投资主线将继续围绕AI展开,AI正从技术进步迈向生产力落地阶段,已在广告、游戏、智能汽车等领域改变行业格局 [10] - DeepSeek R2、GPT-5预计下半年发布,中国科技产业价值重估过程尚未结束 [10] 指数成分与权重 - 中证沪港深线上消费主题指数前十大权重股包括阿里巴巴-W、腾讯控股、美团-W等,合计占比56 94% [11] - 中证消费电子主题指数前十大权重股包括中芯国际、立讯精密、寒武纪等,合计占比53 78% [12] - 中证人工智能主题指数前十大权重股包括寒武纪、韦尔股份、海康威视等,合计占比50 64% [13]