Workflow
Seek .(SKLTY)
icon
搜索文档
比DeepSeek R2先发!阿里巴巴Qwen3上新8款,登顶全球最强开源模型
钛媒体APP· 2025-04-28 23:27
Qwen3千呼万唤始出来,直接登顶全球最强开源模型。 4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(简称千问3),旗舰模型Qwen3-235B-A22B参 数量仅为DeepSeek-R1的1/3,总参数量235B,激活仅需22B,成本大幅下降,性能全面超越R1、 OpenAI-o1等全球顶尖模型,登顶全球最强开源模型。 | | Qwen3-235B-A228 | Qwen3-32B | OpenAl-o1 | Deepseek R1 | Grok 3 Beta | Gemini2.5-Pro | OpenAl-o3-mini | | --- | --- | --- | --- | --- | --- | --- | --- | | | Mil | Deces | 2024.12.17 | | Think | | Median | | ArenaHard | 95.6 | 93.8 | 92.1 | 93.2 | . | 96.4 | 89.0 | | AIME'24 | 85.7 | 81.4 | 74.3 | 79.8 | 83.9 | 92.0 | 79.6 | | AIME'25 | 81. ...
阿里Qwen3深夜开源,8款模型、集成MCP,性能超DeepSeek-R1,2小时狂揽16.9k星
36氪· 2025-04-28 23:23
文章核心观点 阿里云开源Qwen3系列模型,该系列模型具有多种特性和优势,在性能上表现出色,未来将围绕多维度提升能力以适应AI产业发展[2][24] 模型发布情况 - 4月29日凌晨4点阿里云正式开源Qwen3系列模型,包含2个MoE模型、6个稠密模型,发布2小时在GitHub上star数超16.9k [2] - Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台开源,均遵循Apache 2.0许可证 [7] 模型特性 - 有8种参数大小的稠密与MoE模型,分别为0.6B、1.7B、4B、8B、14B、32B、Qwen3 - 235B - A22B(2350亿总参数和220亿激活参数)、Qwen3 - 30B - A3B(300亿总参数和30亿激活参数) [4] - 引入混合思考模式,用户可切换“思考模式”“非思考模式”控制思考程度,思考模式适用于复杂问题,非思考模式适用于对响应速度敏感的问题,还能增强模型实施稳定和高效思考预算控制的能力 [4][15][16] - 推理能力提升,在数学、代码生成和常识逻辑推理方面超越QwQ(在思考模式下)和Qwen2.5 instruct models(在非思考模式下) [4] - 支持MCP(模型上下文协议),Agent能力提升,可在思考和非思考模式下实现大语言模型与外部数据源和工具的集成并完成复杂任务 [4] - 支持119种语言和方言,具备多语言理解、推理、指令跟随和生成能力 [4] 模型性能 - 旗舰模型Qwen3 - 235B - A22B在编程、数学、通用能力等基准评估中表现优于DeepSeek - R1、OpenAI o1、OpenAI o3 - mini、Grok - 3和Gemini - 2.5 - Pro等业界知名模型 [3] - 小型MoE模型Qwen3 - 30B - A3B在激活参数是QwQ - 32B的1/10的情况下实现性能反超,参数规模更小的Qwen3 - 4B模型实现了与Qwen2.5 - 72B - Instruct的性能相当 [11] - Qwen3 - 1.7B/4B/8B/14B/32B - Base的性能分别与Qwen2.5 - 3B/7B/14B/32B/72B - Base相当,在STEM、编程和推理等领域,Qwen3稠密模型的性能甚至优于参数规模更大的Qwen2.5系列模型 [13] 模型上下文长度 - 6个稠密模型中,0.6B~4B参数规模的模型上下文长度为32K,8B~32B参数规模的模型上下文长度为128K,2个MoE模型的上下文长度均为128K [8][10] 模型部署 - 建议开发者使用SGLang和vLLM等框架,本地部署的开发者使用Ollama、LMStudio、MLX、llama.cpp等工具 [9] 预训练与后训练 - 与Qwen2.5相比,Qwen3的预训练数据集大小翻了两倍,Qwen2.5在1800亿个token上预训练,Qwen3基于约3600亿个token预训练,研发人员收集多种数据并使用Qwen2.5相关模型处理数据,还生成合成数据增加数学和代码数据量 [20] - 预训练分三个阶段,第一阶段在超3000亿个token上预训练,上下文长度4K;第二阶段增加知识密集型数据比例,在额外500亿个token上预训练;第三阶段用高质量长上下文数据将上下文长度扩展到32K [21] - 后训练采取四阶段训练流程,包括思维链(CoT)冷启动、基于推理的强化学习、思维模式融合、通用强化学习,以开发既能逐步推理又能快速响应的混合模型 [21][23] 未来发展 - 未来将围绕优化模型架构和训练方法,实现扩展数据规模、增加模型大小、延长上下文长度、拓宽模态的目标,并通过环境反馈推进长期推理的强化学习 [24]
Deep Seek分析:未来5年,钱放黄金、存银行、买房哪个更划算?
搜狐财经· 2025-04-28 22:51
黄金投资分析 - 国际金价在2025年后出现大幅波动 前些年购买金条的投资者获得较高收益 [1] - 黄金价格波动主要受美元指数和全球战争局势影响 例如2024年俄乌战争升级导致金价两周暴涨12% 而中东局势缓和使金价回调5% [3] - 实物黄金存在流动性问题 银行基本不回收金条 金店回收价格仅为市值的60%(150万金条仅回收90万) [3] 房地产市场分析 - 2025年一季度百城二手住宅价格累计下跌1.51% 3月环比下跌0.59% 同比跌幅达7.29% [1] - 全国平均房价较2021年峰值下跌30% 但部分城市如上海深圳房价收入比仍高达40倍 [5] - 政策面出现宽松信号 包括限购取消 房贷利率下调 首付比例降低 契税增值税减免 [5] - 投资性购房需求骤降 主要由于居民收入下降和楼市赚钱效应消失 [7] 银行存款分析 - 2024年起国有银行连续下调存款利率 存款收益持续减少 [7] - 存款面临购买力贬值问题 但相比黄金和房产投资风险更低 [7] 资产配置建议 - 多元化资产配置方案建议将资金分为三部分:40%无风险资产(国债/大额存单) 40%低风险资产(结构性存款/债券基金) 20%中等风险资产(混合基金/分红银行股) [9] - 以120万资金为例 可配置40万固定收益品种 40万R2级以下理财产品 40万股债混合基金 [9]
DeepSeek新一代大模型即将发布,推动低代码开发成主流
选股宝· 2025-04-28 15:09
DeepSeek R2大模型技术突破 - DeepSeek公司新一代大模型DeepSeek R2预计5月初发布,采用昇腾卡训练,实现全产业链自主可控 [1] - DeepSeek R2成本比GPT-4下降97%,采用混合专家模型(MoE),总参数量达1.2万亿,较上一代DeepSeek-R1(6710亿参数)提升约1倍 [1] - 模型在编程能力、多语言推理能力和成本效益方面实现突破,将推动低代码开发快速发展 [1] 低代码开发行业前景 - 权威预测未来五年内全球70%企业应用将基于低代码开发,AI和机器学习将深度融入低代码平台,增强智能推荐、代码自动生成等功能 [1] - 技术融合或推动低代码平台成为主流开发模式,加速亿级新应用生态构建 [1] 相关公司布局 - 金现代积极拓展AI低代码开发平台业务,已开发轻骑兵低代码开发平台、知识图谱可视化开发平台等标准化产品 [2] - 浩云科技持续投入低代码技术研发,其"浩易搭"平台与AI、物联网深度融合,可为企业定制AI智能体 [2]
马蜂窝AI旅行助手官宣上线,DeepSeek大模型+垂直精调模型致力打破“幻觉”
财经网· 2025-04-28 08:32
马蜂窝AI旅行助手上线 - 公司正式上线自研AI旅行助手"AI小蚂",该产品全量接入DeepSeek大模型并集成公司垂直精调模型,以十数年积累的海量真实旅行数据为基础消除AI在旅行场景中的"幻觉"[1] - "AI小蚂"支持实时问答、行程线路规划、在线旅行向导、个性化推荐等功能,用户可在APP首页搜索栏及目的地POI页面使用[1] - 产品经历反复试用、反馈、打磨阶段,在功能和呈现上实现质的飞跃[1] AI路书产品特点 - 同期上线深度个性化攻略定制产品"AI路书",采用主动提问机制通过选择题形式帮助用户完善需求细节[3] - 产品设计包含需求确认环节,用户可手动添加选项并调整AI整理的需求,确保定制流程专业周全[3] - 功能可生成包含行程、住宿、交通等8大要素的整体方案,支持目录跳转查看,目前以每日限量内测码形式开放测试[5] 技术架构与数据优势 - 平台构建旅游行业最完整"知识图谱",覆盖全球6万多个目的地和6300万POI数据库[7] - 采用双模型架构:DeepSeek大模型负责生成推荐,垂直精调模型通过攻略游记数据库进行交叉验证[7] - 动态地图功能可显示路线长度、景点间距等实用信息,并关联用户真实内容分享避免"照骗"[7] 用户行为洞察 - 新疆旅行用户平均浏览时长62.5分钟,澳大利亚旅行用户达90.4分钟[7] - AI助手将传统跨平台检索的"功课时间"缩短至几分钟[7] - 产品设计针对自由行用户路线衔接不合理、景点与宣传落差大等痛点[7] 产品发展理念 - 坚持通过AI技术提升旅行体验而非炫技,将持续迭代更新[9] - 通过用户搜索、提问等交互数据洞察需求,保持技术前沿性与服务可靠性[9]
DeepSeek-R2大模型临近发布时间窗口!科创板人工智能ETF(588930)低位上涨翻红,实时成交额突破3600万元
搜狐财经· 2025-04-28 03:19
消息面上,三个月前的春节,DeepSeek R1火爆出圈,让"东升西落"成为了随后一段时间的叙事和预 期。三个月后五一临近。DeepSeek R2临近发布此前市场预期的"5月发布"时间窗口。人工智能板块有望 迎来强烈催化剂。当前高层集体学习人工智能释放出强烈的政策升级信号,叠加DeepSeek R2等国产大 模型迭代节点临近,科技板块有望在政策与技术的双重驱动下重获资金关注。 4月28日,A股市场今日走势较稳,人工智能题材V型反弹,市场风险偏好快速提升。科创板人工智能指 数成分股中,恒玄科技、当虹科技、奥普特涨超3%,有方科技、寒武纪-U、中科星图、虹软科技、道 通科技涨超2%。科创板人工智能ETF(588930)市场热度较高,连续2个交易日获得资金净流入。 科创板人工智能ETF(588930)跟踪的科创板人工智能指数布局30只科创板人工智能龙头,覆盖AI产业 链上游算力、中游大模型云计算、下游机器人等各类创新应用,聚焦电子、计算机、机械设备、家电、 通信五大行业,前五大成分股合计权重47%,或具有较高的AI主题纯度和更高的弹性。 国元证券表示,国家高度重视人工智能产业的发展,长期成长空间广阔。尽管计算机行业 ...
宝马中国宣布接入DeepSeek,传日产计划关闭武汉工厂 | 汽车早参
每日经济新闻· 2025-04-27 22:40
宝马中国接入DeepSeek - 宝马中国宣布接入DeepSeek AI大模型 未来功能将应用于国产新世代车型 三季度起率先搭载于第9代BMW操作系统的在售新车 [1] - 此次合作是继阿里巴巴AI合作后 宝马深化本土AI生态的又一举措 旨在通过深度思考能力优化BMW智能个人助理的人机交互体验 [1] - 该战略布局显示公司对智能驾驶和人机交互优化的决心 可能提升产品竞争力并推动行业技术升级 [1] 日产武汉工厂关闭计划 - 日产计划2026年3月31日前停产武汉工厂 该厂年产能30万辆但2022年投产后年产量仅约1万辆 产能利用率严重不足 [2] - 公司2024财年预计净亏损7000亿-7500亿日元 创历史新高 主因资产减记 重组成本及多市场销售疲软 [2] - 作为战略调整 日产将在中国增投14亿美元 计划2027年前推出约10款新电气化车型以扭转销量颓势 [2] 博世与远程新能源合作升级 - 博世商用车与远程新能源从单一项目合作升级为全方位战略伙伴 将围绕醇氢电动技术构建生态体系 [3] - 双方计划以博世多款产品匹配远程多动力构型商用车平台 推进新能源及代用燃料技术规模化应用 [3] - 首批联合开发的1000辆新能源商用车将于2025年下半年投放国内外市场 多项关键技术也将在年内投入市场 [3] 福特暂停对华出口 - 福特暂停向中国出口SUV 皮卡及跑车等车型 主因中国反制关税使美国汽车进口税率升至150% 涉及F-150猛禽 野马跑车等热门车型 [4] - 2024年福特对华出口相关车型约5500辆 远低于过去十年年均超2万辆的水平 [4] - 发动机 变速箱对华出口及中国产林肯航海家对美出口预计不受影响 显示公司在贸易摩擦中的灵活应对 [4] 大众暂缓美国涨价 - 大众汽车宣布维持美国市场车型售价至5月末 澄清此前"转嫁进口费用"传言为沟通方案误读 [5] - 此举与现代 福特 Stellantis等车企策略一致 旨在缓解消费者对关税加征致车价上涨的担忧 [5] - 当前美国新车均价超5万美元叠加高利率压力 已显著抑制消费者购车意愿 [5]
超越DeepSeek,中国开源“集团军”重塑全球AI生态
观察者网· 2025-04-27 12:57
中国开源大模型生态发展 - 中国开源大模型形成集团化作战优势,DeepSeek和阿里Qwen等基础模型提升技术上限,中小企业基于其开发垂直模型加速迭代[1] - 昆仑万维推出Skywork-OR1系列模型,性能超越阿里QwQ-32B并开源数据集和训练代码,实现"真开源"[4] - 阿里云通义千问、阶跃星辰、智谱等企业密集开源多模态模型,百度宣布6月30日完全开源文心大模型[5] 中美AI开源策略对比 - 美国AI企业以闭源为主(OpenAI、Anthropic),Meta开源Llama但附加商业限制条款[6][7] - 中国通过政策推动开源生态,2017年《新一代人工智能发展规划》和2021年"十四五"规划明确支持开源[8] - 北京国资联合智谱成立3亿元Z基金支持全球AI开源项目[9] 开源技术商业化路径 - 智谱通过开源吸引开发者生态,向B/G端提供付费定制解决方案,其开源模型累计下载量达4000万次[16][17] - DeepSeek采用"免费基础API+高性能付费API"模式,定价每百万输入Token1元[17] - 阿里通过开源模型绑定云计算基础设施,形成场景闭环变现[17] 开源模型产业应用案例 - 工业领域:宝钢、中煤科工等企业利用开源模型实现生产优化,故障停机时间降低30%[13] - 公益领域:华为昇腾开源三江源物种识别模型,助力雪豹保护效率提升[14] - 海外市场:DeepSeek模型被印尼Ruangguru用于教育优化,阿里Qwen接入新加坡Atlas客服系统[6] 开源生态理论支撑 - 开源模式符合《大教堂与集市》提出的"集市"开发理论,通过群体协作加速创新[15] - 哈佛研究显示开源投入产出比达1:2000,中国正复制这一成功模式[16] - 中国开源战略推动全球AI从"单极霸权"转向"多极共生"[1][18]
中国首个DeepSeek驱动的黑土地保护智能平台试运行
环球网资讯· 2025-04-27 09:56
行业技术发展 - 中国首个DeepSeek驱动的黑土侵蚀阻控技术智慧配置平台"智保黑土"开启试运行,由中国科学院东北地理与农业生态研究所牵头,联合西北农林科技大学等多家高校、科研机构打造 [1] - 平台通过深度学习技术消化数十年积累的土壤研究报告、气象数据、农业实践案例,构建覆盖土壤特性、地形地貌、植被分布等要素的"数字黑土地档案库" [1] - 利用DeepSeek大模型驱动数据检索与分析,平台可实现快速智能化评估黑土侵蚀特征,并生成定制化黑土侵蚀阻控技术方案 [1] 平台应用与效率 - 在黑龙江友谊农场试验基地,平台在半小时内提供定制化治理方案,相比过去需要好几个月的工作时间大幅提升效率 [3] - 平台已在黑龙江友谊、海伦和吉林东辽等示范基地试运行,预计2026年可覆盖中国东北主要黑土区 [3] 未来规划与行业影响 - 研发团队将持续开展应用验证和迭代优化,提升平台能力,为中国黑土地资源的可持续利用贡献科技力量 [3] - 平台通过智能化监测、精准化管理和系统性保护,为端牢中国饭碗提供科技支撑 [3]
百度的后DeepSeek时代,一切为了应用
北京商报· 2025-04-27 09:50
百度AI开发者大会核心内容 - 百度创始人李彦宏强调大模型的终局是应用 提出"模型有很多 但统治这个世界的是应用"的观点 [2] - 百度发布从模型到应用 生态的"九件套" 包括性能提升价格下降的两款模型 数字人 智能体等 目的是降低模型成本提高能力并提供开发工具和平台 [2] - 2024年四季度有49个大模型发布 2025年一季度一周内行业共发布了8个模型 模型迭代速度极快 [2] 百度新发布的大模型 - 百度发布文心大模型X1 Turbo和4 5 Turbo 其中X1 Turbo是基于4 5 Turbo的深度思考模型 价格最高降了80% [3] - 两款模型都属于多模态 强推理 李彦宏判断"多模态将成为未来基础模型的标配 纯文本模型的市场会越变越小 多模态模型的市场会越来越大" [3] - 基础设施成本持续下降 创新的应用和产品才有可能出现 移动互联网已经证明了这一点 [3] 百度推出的应用开发工具 - 无代码编程工具秒哒向全社会开放 用户可以通过秒哒一句话生成应用 [4] - 通用智能体"心响"可以一站式解决用户复杂问题 以租房维权为例 会理清事件关键问题 寻找专家律师AI分身 提供专业建议并生成法律分析报告 [4] - 百度搜索宣布构建了MCP server的发现平台 可以索引全网市场上优质的server [4] 行业动态与趋势 - 阿里云百炼上线全生命周期MCP服务 腾讯云升级大模型知识引擎 支持调用MCP插件 [4] - 大模型出世之初 业界就提出所有应用重新做一遍 从基础设施到企业端应用端接受度来说 成熟度上了一个台阶 [4] - 科技大厂有多重身份 既是AI基础设施服务商 也是应用开发商 同时提供开发工具 跟开发商是竞合关系 [3]