Seek .(SKLTY)

搜索文档
独家对话IBM陈旭东:DeepSeek很热,但影响尚未全面到来! 丨 科创100人
新浪科技· 2025-06-13 10:24
生成式AI发展现状 - DeepSeek热度高但对企业的大规模影响尚未全面到来,当前主要影响集中在文生图、翻译、写代码等大语言模型擅长的领域[2][3] - 许多企业拥抱AI前需补数字化基础课,数字化水平不足导致AI应用受限[4] - 智能体本质是软件,规模化应用需信息化基础、工具平台和真实需求三者结合[4][5] 企业AI投资误区与策略 - 客户对AI存在三大误区:认为AI无所不能、拥抱AI容易、ROI计算不准确(将信息化投资误计入AI)[5] - AI投资需覆盖硬件(算力)、软件平台、人员培训三方面,缺一不可[5][6] - 企业应优先开发知识库和智能问答系统,这类"入门级"投资具有长期价值且不会后悔[6][7] - AI投资ROI需长远评估,重点关注重复性工作优化,IBM内部HR系统应用AI后工单减少61%[6] 行业盈利与竞争格局 - 全球生成式AI产业仍处早期,OpenAI尚未回收训练成本,国内企业盈利周期将被拉长[7] - 当前盈利的AI企业多为服务型公司(如数据清洗),类比淘金热中卖牛仔裤的商家,规模有限[8] - 国内AI企业分三类:大模型+云服务巨头(阿里/腾讯等)、定制化开发服务商、IBM等混合云+工具平台提供商[8][9] - IBM混合云战略集成1000+流行软件(如SAP、CRM),具备API调度优势,重点服务民营和出海企业[10] 数字化转型与AI协同 - 企业需将历史手工数据转化为AI可读格式,类似《纽约时报》旧报纸电子化案例[7] - 数字化是AI应用前提,IBM过去40年帮助国企/银行转型的经验现拓展至民营企业[10]
阿里千问与DeepSeek入选全球AI开源贡献榜前十
快讯· 2025-06-12 10:33
AI开源社区贡献榜 - Hugging Face发布最新AI开源贡献榜 中国团队表现亮眼 阿里通义千问位列全球第五 中国第一 DeepSeek排名第九 是前十中唯二的非美国机构[1] - 榜单评估指标包括开源模型 数据集 开发者关注度 社区活跃度及全球影响力等[1] 中国AI公司表现 - 阿里通义千问跻身全球第五 中国第一 展现中国AI公司在开源领域的领先地位[1] - DeepSeek位列全球第九 与阿里通义千问同为前十中仅有的非美国机构[1] 评估标准 - Hugging Face官方对全球开源模型主要机构进行评估 考察多维度指标[1] - 评估维度包括开源模型 数据集 开发者关注度 社区活跃度及全球影响力[1]
OpenAI开源模型发布推迟至夏末,为了狙击DeepSeek R2?
华尔街见闻· 2025-06-11 02:37
OpenAI开源模型延期 - OpenAI宣布原定6月推出的开源模型将延期至"今年夏天晚些时候",首席执行官Sam Altman表示研究团队取得了"出乎意料且相当令人惊叹"的进展,需要更多时间完善[1] - 该开源模型规划具备与GPT-4o相当的复杂推理能力,目标性能超越当前顶尖开源模型如中国DeepSeek的R1模型[2] - 公司曾讨论为开源模型增加连接云端大模型的接口功能以处理超复杂查询,但最终版本是否包含这些功能尚不确定[2] AI行业竞争态势 - 法国Mistral实验室推出首个AI推理模型系列Magistral,中国通义千问(Qwen)4月发布混合AI推理模型系列,行业竞争显著加剧[2] - OpenAI面临战略转型压力,Altman承认过去在开源领域"站在历史错误的一边",此次开源被视为修复开发者关系的核心举措[2] - 市场猜测OpenAI延期可能为狙击中国DeepSeek即将发布的R2模型,避免性能对比风险[2] DeepSeek技术进展 - DeepSeek R2作为R1迭代版本,在技术架构、功能特性和资源效率实现显著升级,摩根士丹利预测其AI调用成本大降87%且具备多模态处理能力[3] - 公司保持每季度重大更新的开发节奏,2024年9月推V2.5、12月发V3基础架构、2025年3月升级至V3-0324版本[4] - 创始人梁文锋强调中国要成为创新贡献者而非搭便车,将探索通用人工智能作为核心使命[4]
“千帆”系列昇腾DeepSeek技术沙龙重庆站成功举办
搜狐财经· 2025-06-10 23:57
活动概述 - 华为中国政企解决方案伙伴"千帆"系列昇腾DeepSeek技术沙龙重庆站活动顺利举行,聚焦昇腾AI与DeepSeek的技术协同 [1] - 活动由华为技术有限公司、数字重庆大数据应用发展有限公司智算科技分公司主办,东数西算(重庆)产业联盟等协办 [1] - 现场汇聚40+家行业客户及伙伴的100+名专家,围绕教育智能体、企业大模型等AI场景化实践展开交流 [1] 技术合作与方案发布 - 佳发教育与华为联合发布教育智能体应用基座方案,深度融合多模态AI与自适应学习算法,覆盖"考、教、管、评、学、研"全场景 [2] - 华为展示万卡级集群部署能力、昇腾软硬件全栈技术及行业大模型工程化经验,定位为AI算力基础设施核心赋能者 [8] - 沙龙议题包括昇腾+DeepSeek解决方案、DCS AI DeepSeek训推一体机方案及大模型智能应用平台分享 [10] 区域战略与基础设施 - 重庆人工智能创新中心一期算力达400P,定位为"一平台、一枢纽、三促进",推动科技创新、产业发展及人才培养 [13] - 创新中心以昇腾全栈AI技术为核心,助力产业链上下游聚集,目标打造西部领先、辐射东盟的算力枢纽 [13] - 重庆OpenLab提供全栈自主创新测试床,覆盖联接、计算、存储、数字能源及AI等领域,加速行业解决方案落地 [11] 行业趋势与战略方向 - 人工智能大模型推动行业ISV从"软件定制+服务"向"算力+数据+大模型+智能体"模式转型 [8] - 数字重庆强调将发挥算力资源优势,构建具有重庆辨识度的人工智能公共服务平台 [4] - 华为呼吁ISV伙伴"坚决拥抱、主动学习、价值导向、勇于创新",共同把握AI数智化机遇 [8]
十大推理模型挑战2025年高考数学题:DeepSeek-R1、腾讯混元T1并列第一,马斯克的Grok 3遭遇“滑铁卢”
每日经济新闻· 2025-06-10 13:53
测评结果 - 国产大模型DeepSeek-R1与腾讯混元T1在117分标准化试卷测试中以零错误并列榜首,均获得117分满分 [1][4] - 讯飞星火X1以112分紧随其后,因填空题自我怀疑导致答案不完整 [5] - Gemini 2.5 Pro、OpenAI o3、阿里千问Qwen3和豆包深度思考模式得分均超100分,分别为109分、107分、106分和104分 [7] - Grok 3表现意外,仅得91分排名倒数第三,主要因多选题理解失误 [8] - 智谱清言推理模式得78分排名倒数第二,因逻辑崩溃导致失分 [8] - Kimi k1.5因压轴大题失误得分最低 [10] 测评标准与方法 - 以2025年全国新课标数学I卷(总分150分)为考题,移除图形/图表题后形成117分标准化试卷 [3] - 部分模型因"重要考试期间"限制未参与图形题测试,如讯飞星火X1、豆包深度思考和智谱清言推理模式 [2][3] - 对无限制模型(如Gemini 2.5 Pro)仍测试完整150分试卷以评估最高水平 [3] - 扣分标准遵循高考规则,但解答题仅按结果计分 [3] 模型表现细节 - DeepSeek-R1与腾讯混元T1在代数计算和函数题中展现极高稳定性 [4] - 讯飞星火X1在填空题中因自我怀疑仅输出部分正确答案("2"而非"±2") [5] - Grok 3在多选题中固执输出单一答案,导致部分失分 [8] - 智谱清言推理模式多次在最终推理步骤崩溃,陷入逻辑循环 [8] - Kimi k1.5在压轴大题上表现最弱 [10] 行业技术现状 - AI推理大模型在固定步骤和严密逻辑的数学问题上能力较强 [10] - 涉及抽象和创新思维的题目仍是当前模型的局限性所在 [10]
一文了解DeepSeek和OpenAI:企业家为什么需要认知型创新?
搜狐财经· 2025-06-10 12:49
AI技术创新路径 - OpenAI创立初心为反巨头霸权 通过开源普惠AI技术对抗科技巨头垄断 2015年由马斯克和奥特曼创立并挖角谷歌核心科学家伊利亚[4][7] - 大语言模型革命依赖Transformer架构和Scaling Law 前者实现并行数据处理 后者揭示模型性能与规模呈线性关系[8][11] - GPT系列模型通过"涌现"现象突破 当参数量达临界点时自发产生新能力 实现从工具到智能助手的转变[12] - ChatGPT引发人机交互范式变革 自然语言交互降低使用门槛 2022年末推出后成为全球现象级产品[13][14] - 推理模型o1实现认知跃迁 从直觉思维(系统1)升级至逻辑推理(系统2) 具备多步推理和自我纠正能力[16][17] DeepSeek差异化战略 - 采用"有限Scaling Law"战略 在资源受限下通过数据筛选和算法优化实现低成本高性能 训练成本仅5557万美元[18][22] - 创新MLA+MoE架构 MLA优化内存效率 MoE实现专家网络动态激活 结合华为昇腾平台实现软硬协同优化[20][21] - R1模型实现纯强化学习突破 复现OpenAI o1能力并开源 展示完整推理过程 2025年1月发布后登顶美国应用榜[23][24][25] - 组织模式激发"涌现"创新 采用动态团队和自组织管理 研究员可自由调用GPU资源 产生MLA架构等突破性成果[27][28][29] 行业格局影响 - DeepSeek打破中国创新者"思想钢印" 证明中国企业可引领基础研究 而非仅做技术应用[35][36][37] - R1模型引发行业震动 微软CEO公开提及导致英伟达市值单日下跌17% 标志中美成为AI技术两极[25][26] - AI Lab范式重构研发体系 开放协作和资源共享取代传统金字塔管理 适应不确定性创新需求[30][32][33] - 认知型创新推动产业升级 从商业驱动转向基础研究 需要长期投入和突破思维定式[38][39][40]
重磅!中国团队发布SRDA新计算架构,从根源解决AI算力成本问题,DeepSeek“神预言”成真?
新浪财经· 2025-06-09 13:27
大模型算力成本挑战 - 大模型每生成1美元价值需支付3美元算力成本 算力成本挑战已成为行业共识 [1] - 当前优化方案多集中于软件层面 硬件源头解决方案较少 现有新计算硬件如Groq多在大模型爆发前定型 难以充分匹配需求 [1] SRDA架构创新 - 玉盘AI发布《SRDA AI大模型专用计算架构》白皮书 提出系统级精简可重构数据流架构(SRDA) 从硬件源头解决AI算力核心瓶颈 [3] - SRDA架构将"数据流"作为核心设计哲学 通过硬件直接映射AI计算图数据依赖关系 实现计算单元间点到点直接传输 减少内存依赖和访问次数 [8] - 架构采用3D堆叠DRAM内存技术 实现计算单元内存私有化 每个计算核心拥有专属内存区域 消除共享总线竞争 [14] GPGPU架构局限性 - GPGPU架构为保证通用性未针对大模型需求优化 类似"瑞士军刀切牛排" 工具缺乏针对性 [6] - H100每秒可计算1000万亿次 但共享内存架构+低内存带宽仅能"喂饱"不足一半硬件算力 [7] - H100单卡功耗达700瓦 超三分之一电量用于数据搬运而非计算 [7] 下一代AI芯片关键特征 - 需解决内存与互联带宽不足问题 当前架构存在"几台车抢一个车位"现象 [7] - 需提升算力利用率 避免类GPGPU架构通信开销及内存瓶颈导致理论算力打折 [7] - 需简化网络设计 传统多层网络带来带宽层级差异 协议转换开销和管理难题 [7] SRDA技术突破 - 采用I/O融合技术(QLink) 将节点内外网络融合为统一单层网络 简化拓扑结构 [14] - 具备可重构特性 允许根据AI模型调整数据流路径 计算单元功能和内存模式 适应未来模型变化 [16] - 基于开源RISC-V指令集 提供简化指令 降低算子开发难度 [16] 行业趋势与影响 - DeepSeek论文与玉盘SRDA架构在IO融合 3D堆叠DRAM等技术方向不谋而合 显示行业共识正在形成 [6] - 当前算力瓶颈主要在于数据搬运及读写(I/O问题) 而非计算能力本身 [6] - SRDA架构可能颠覆GPGPU在AI场景的垄断地位 形成"SRDA+3D-DRAM"替代"GPGPU+HBM"的新组合 [14]
报道:DeepSeek核心高管离职创业,瞄准Agent赛道
快讯· 2025-06-09 13:02
高管离职创业 - 某DeepSeek核心高管已离职创业 计划于2025年圣诞节前后发布Agent产品 [1] - 该高管被描述为原DeepSeek CTO 但公司内部并无明确CTO职位设置 仅有承担相应职能的人士 [1] - 创业项目已获得某头部VC融资 [1] 公司职位架构 - DeepSeek内部未设立正式CTO职位 但存在履行类似职责的人员 [1]
DeepSeek核心高管离职创业,瞄准Agent赛道|独家
虎嗅· 2025-06-09 08:24
核心事件 - DeepSeek核心高管于半年前离职创业 计划于2025年圣诞节前后发布Agent产品[1] - 该高管被部分信源称为原DeepSeek CTO 但公司内部并无明确CTO职位[1] - 创业项目已获得IDG资本融资 但IDG方面表示对此事并不知情[1] 时间节点与背景 - 高管离职时间为2024年12月至2025年1月 正值DeepSeek发布并开源V3模型和推理模型R1的热度高峰期[1] - 选择在公司巅峰期离职创业并切入Agent赛道 时机选择耐人寻味[1] 行业人才流动现象 - 头部大模型公司技术人才成为资本市场追逐焦点 参与核心模型研发的高管更具竞争力[2] - AI行业核心高管离职创业已成常态 案例包括OpenAI联合创始人出走及国内大厂AI人才分流[2] - OpenAI前首席科学家伊利亚2024年5月离职后创立SSI 总融资额达30亿美元 第二轮融资后估值飙升至320亿美元[2] 创业环境与行业特征 - 技术迭代速度快 新方向不断涌现创造创业机会窗口[3] - 大公司技术路线和商业策略已定型 难以满足技术专家的创新需求[3] - AI人才稀缺 具备核心技术经验的高管在创业市场极具竞争力[3] - 大模型公司技术积累宝贵 但创新更易发生在灵活环境中 创业可兼顾技术积累与避开路径依赖[3] 公司动态与市场关注 - 近半年市场关注聚焦DeepSeek的R2模型发布时机及融资IPO计划[3] - 三个月前DeepSeek招聘多个财务岗位(CFO、财务副总监、财务总监)引发融资猜测[4] - 接近公司人士称招聘CFO非为资本市场准备 近期无融资或IPO计划[4]
2025年第18期(总899期):开源大模型DeepSeek实现三个“首
搜狐财经· 2025-06-07 08:35
DeepSeek:全球开源AI大模型的新标杆 - AI大模型开源需满足代码完整、模型参数公开、训练数据透明三大核心标准,较传统软件开源更复杂 [1][13] - 多数大模型厂商走纯闭源或"半开源"路线,如OpenAI的GPT-4、Meta的Llama 3仅部分开源且附带商用限制 [1][13] - DeepSeek以全栈开源和宽松协议树立新典范:开放代码、权重、文档下载,公开GPRO训练算法等技术细节,采用无商用限制的MIT许可 [1][14] DeepSeek的三大突破性"首次" 技术路径革新 - DeepSeek-R1通过纯强化学习(RL)训练证明"小而美"路径的可行性,打破依赖"Scaling Law"的"唯资源论"定式 [2][17] - 推理成本与定价显著低于国际主流模型,为资源有限的国家提供低成本高效能技术方案 [2][17] 应用爆发 - 应用程序18天下载量达1600万次,日活突破3000万的速度创行业纪录 [3][18] - 引发《自然》期刊等国际媒体高度关注,被视为非美国公司践行开源初心的标杆 [3][18] 生态重构 - 吸引全球软硬件厂商适配,构建"模型—芯片—系统"一体化生态:国内十余家芯片厂商、华为/荣耀等手机厂商完成接入,美国AMD、亚马逊、Apple等企业开展合作 [4][20] - 美国红杉资本设立2亿美元专项基金用于投资DeepSeek技术生态项目 [20] 推动AI普惠化平权化的发展建议 技术协同创新 - 依托GitHub、Hugging Face等开源平台,鼓励企业与科研机构基于DeepSeek等开源成果开展二次开发 [5][21] 行业应用落地 - 推动开源大模型与各行业场景结合,发展垂类模型并构建高质量数据集 [6][21] 全民素养培育 - 通过线上平台开展大模型通识教育,推动企业与高校合作建设开发平台 [7][22] 结语 - DeepSeek的"低成本、高性能、全开放"特性重塑行业竞争格局,为全球AI普惠化、平权化提供可行路径 [8][12]