Workflow
AI前线
icon
搜索文档
推理、训练、数据全链条的工程挑战,谁在构建中国 AI 的底层能力?|AICon 北京
AI前线· 2025-06-16 07:37
大模型系统性问题与国产AI挑战 - 大模型发展面临推理慢、训练不稳、数据迁移难等系统性挑战 这些因素决定技术规模化落地能力 [1] - 国产AI需解决算力适配、系统容错、数据合规等现实问题 特别是摆脱对进口芯片的依赖 [1] - AICon大会将聚焦国产芯片推理适配、开源部署、训练容错机制等七大关键议题 覆盖基础设施建设全貌 [1] 国产算力与推理优化技术 - 清程极智开源赤兔推理引擎 实现在非英伟达Hopper架构及国产芯片上原生运行FP8精度模型 解决硬件成本高企问题 [4] - 华为昇腾推出DeepSeek大模型推理架构 提供性能优化方案与专家并行调度技术 加速国产算力平台部署 [5][6] - 京东零售分享LLM推理优化实践 通过请求调度与流水线执行技术 平衡高吞吐与低延迟的零售级需求 [7][8] 训练系统与开源生态 - 蚂蚁集团开源DLRover框架 解决万卡规模训练的稳定性问题 包含分布式容错与国产卡适配经验 [11] - SGLang推理引擎整合专家并行、推测解码等前沿技术 实现DeepSeek V3等开源模型低成本部署 [9][10] - 阿里巴巴探讨强化学习系统发展 涵盖RLHF架构、自对齐算法及开源生态建设方向 [8][9] 数据基础设施演进 - Zilliz推出向量数据库云原生方案 解决GenAI场景下的数据迁移、BYOC部署和Schema演进问题 [12] - 行业面临传统数据库架构不适应AI需求的问题 需构建企业级向量数据管理平台 [12] 行业动态与人才流动 - 百度大幅扩招AI人才 岗位数量增长超60% 反映行业对顶尖技术人才的激烈争夺 [12] - 阶跃星辰高管转投京东 显示头部企业间核心人才竞争白热化 [12] - ClaudeCode获企业青睐 日均使用成本达1000美元/员工 凸显高性能AI工具的商业价值 [12]
被骂“在乱讲”的专家,这次可能说对了:传统数据仓库正在被 Agentic AI 吞噬
AI前线· 2025-06-15 03:55
技术架构变革 - AI浪潮将深刻影响软件生态,传统DSS系统设计逻辑从以人为中心转向以Agent为中心,数据仓库和ETL链路将被重新设计甚至消失[1] - 传统数据仓库偏重结构与查询模式,将被Agentic Data Stack架构强调语义与响应模式取代[1][34] - Snowflake换帅事件隐喻数据仓库范式巨变,新CEO上任后公司战略关键词切换为AI-first、Agent-driven、语义导向[3] 行业演进历程 - 1970年Bill Inmon提出EDW概念奠定企业数据架构基石,主题域/数据分层/缓变维设计沿用至今[9] - 1983年Teradata引入MPP架构,处理效率较Oracle/DB2高出数倍,市值曾达102亿美元[11][12] - 2015年Snowflake以云原生分离存算架构颠覆传统DW思维,带动New Data Stack技术栈兴起[18] - 大数据时代Hadoop等技术动摇传统数据仓库地位,中国企业PB级数据平台普遍采用Hadoop/Iceberg而非MPP架构[17] Agentic AI冲击 - AI从聊天工具演进为具备感知/规划/执行能力的数字员工,2024年RAG技术普及使AI能融合企业私域知识[22][23] - 营销/客服/供应链等岗位将被Campaign Agent/Support Agent/Procurement Agent重构,传统SQL和分析报告将转为Agent的自动响应[25][27] - 数据仓库用户从人变为Agent导致传统DSS架构失效,系统需从"拉模式"转向"推模式"[30][33] 未来架构方向 - 提出Contextual Data Unit(CDU)概念:语义+数据组合单元,解决传统数据仓库对Agent不友好的问题[35] - Agentic Data Stack包含三大组件:语义交互层(Semantic Orchestrator)、数据存储层(Data Mesh)、数据处理层(Data Flow Agent)[39] - 预测Agentic Data Stack将显著降低数据仓库建设成本,使中小企业也能实现自由对话查询[40] 行业趋势判断 - 实时数据仓库层数减少反映传统模型设计跟不上业务变化,Agentic Data Stack在总账ROI上优于现有方案[44] - 技术采纳周期显示Agentic Data Stack完全普及需时,预计在实时数仓/数据湖被广泛接受后才进入主流[45][46] - 类比共享单车颠覆自行车行业,Agent时代将改变核心产品路线定义,需警惕范式转移风险[41]
阶跃星辰高管离职,跳槽京东;百度最大规模抢夺顶尖AI人才,岗位增超60%;阿里自曝:被DeepSeek逼急了 | AI周报
AI前线· 2025-06-15 03:55
阿里巴巴动态 - 阿里钉钉15年老员工元安离职前发布长文,反思阿里价值观变化并获马云回应,强调"阿里味"的核心是品德与价值认可 [2] - 阿里自曝因DeepSeek的AI模型突破感到压力,工程师春节无休加速研发,最终推出开源Qwen系列模型以推动云计算业务 [6][7] - 阿里云宣布比亚迪接入通义大模型,未来智能座舱可通过语音实现在线服务 [30] 人工智能人才与研发 - 百度启动最大规模AI人才招聘,岗位扩增超60%,AIDU计划提供万卡算力及亿级用户场景支持 [8][9] - Meta以7000万美元高薪挖角OpenAI/谷歌AI人才,部分offer达八位数年薪 [12][13] - 阶跃星辰Tech Fellow段楠离职加盟京东,负责视觉与多模态实验室 [3] 大模型与技术突破 - OpenAI发布最强推理模型o3-pro,支持复杂问题处理但限制图像生成功能,同时宣布o3降价80% [21][22] - Meta推出V-JEPA 2模型,提升AI物理世界推理能力并发布新评估基准 [28] - 字节跳动发布豆包大模型1.6及视频生成模型Seedance 1.0 pro,加速Agent应用落地 [29] 企业战略与合作 - 谷歌终止与Scale AI合作(原年采购额2亿美元),因Meta收购其49%股份致估值翻倍至290亿美元 [11] - 星巴克联合微软Azure推出AI助手"绿点助手",试点目标将订单处理时间缩短33%至4分钟 [30] - 老凤祥联合火山引擎推出AI眼镜,搭载豆包大模型支持老年人视觉/语音交互 [30] 产品与市场动态 - 云知声通过港交所聆讯,将成为"港股AGI第一股",创始人黄伟强调"做难而正确的事" [10] - 苹果WWDC25发布全系"26"操作系统,新增流光玻璃设计及端侧AI功能如实时翻译 [26][27] - 火狐AI助手Orbit因功能冗余将于6月停服,Mozilla转向浏览器内置AI开发 [18][19] 行业应用创新 - 百度爱采购发布B2B智能体,10秒生成百条多语言营销视频,已签约200家企业 [23] - 夸克推出高考志愿大模型,提供志愿报告生成等三大决策辅助功能 [24][25] - 微信"元宝AI"升级,可解析视频号内容并生成摘要与问答 [30]
智能投顾的大模型应用,为什么选择了“大小模型协同”?
AI前线· 2025-06-15 03:55
大模型在金融投顾领域的应用挑战与解决方案 - 大模型在金融投顾领域面临的最大技术挑战是如何在高合规门槛的业务中避免幻觉和误答,金融业务容错率低,错误输出可能带来法律风险 [1][2] - 大小模型协同架构通过限制大模型职责范围(任务扩写与流程编排)和核心内容交由小模型完成,在性能、准确性与合规之间找到平衡 [1][2] - 大小模型协同方案在更低算力消耗下实现更稳定、深入的回答效果,提高了回答深度/算力消耗的比率 [3][4] 大小模型协同架构的技术实现 - 架构采用模块化设计,每个环节的大小模型都是解耦且可快速替换的,例如资产配置场景可使用专训的3B或7B模型进行问题扩写 [5] - 通过专训小模型进行意图识别,精准调用对应的小模型完成任务,各环节的小参数LLM或传统小模型都可独立更新 [5] - 基础模型与应用层解耦设计提高了应用稳定性、成长性和私密性,避免过度依赖基础模型 [6] 解决幻觉问题的具体措施 - 采用大小模型映射方式和词向量匹配传统手段进行投顾任务分配 [7] - 产品设计中将不同场景(选股、配置等)分类处理,直接调用对应Agent提高命中率 [7] - 通过知识库约束回答范围、内容和黑名单词汇,避免不合规表述 [7] 实际应用效果与扩展性 - 大小模型协同方案在回答深度和合规性上优于DeepSeek 671B和Qwen72B等大模型 [8] - 方案支持基础模型无缝切换,在基础模型较差时保持专业性下限,强大基础模型时提高上限 [8] - 架构可扩展至保险、财富管理等其他金融领域,但需要为小模型建立特征向量和维护索引 [7][8] 未来AI应用架构趋势 - 未来金融行业AI架构将趋向"语言理解+工具调用"的组合形态,LLM+API将成为主流 [9] - Agent在AI架构的商业实现中越来越重要,复杂场景可能需要LLM+API+RPA组合 [9] - 新技术更可能通过LLM+API调用现有工具(如PS)而非完全替代,形成性价比更高的解决方案 [9]
“多模态方法无法实现AGI”
AI前线· 2025-06-14 04:06
生成式人工智能与AGI路径 - 当前生成式AI模型的成功被误认为通向AGI的路径 但实际是硬件规模扩展的结果而非智能问题的解决方案 [1] - 多模态方法通过组合模块化网络模拟通用智能 但本质是拼凑式策略难以实现人类水平AGI [1] - 真正的AGI需优先考虑具身性和环境互动 而非以模态为中心的拼合方式 [1] AGI的核心定义 - 完整AGI定义必须包含解决物理现实问题的能力 如修理汽车、准备食物等具体任务 [2] - AGI需要基于物理世界模型的智能形式 而非仅符号操作能力 [2][4] 大型语言模型的局限性 - LLMs通过预测token的启发式集合模拟理解 而非真实世界模型 [4] - 语言描述无法推断物理世界完整状态 奥赛罗游戏等符号领域任务与物理任务存在本质差异 [6] - LLMs将语义问题简化为语法规则 缺乏对物理世界的常识性理解 [8][10] 规模至上主义的争议 - 规模最大化方法在LLMs/LVMs中有效 但缺乏具身数据难以直接应用于AGI [17] - 多模态建模人为切断模态间自然联系 联合嵌入空间简化了真实概念关系 [17][18] - 当前模态划分可能阻碍基础认知结构的发现 人类认知由重叠结构引导多模态处理 [19] AGI的未来发展方向 - 需设计自然涌现多模态处理的架构 而非预设模态结构 [21] - 应通过具身互动过程融合模态 使用统一感知/行动系统处理文本、图像、动作等 [23] - 关键挑战在于概念整合而非数学能力 通用函数逼近器已具备但需系统性架构设计 [23] 认知科学对AI的启示 - 人类语言理解依赖独立认知系统融合 语法正确性不等于语义合理性 [10][12] - 语义学本质是理解世界本质 而LLMs仅通过语法规则模拟表面关联 [11][12] - 人类概念形成具有灵活性 能从少数样本创造新概念 当前模型仅复制已有概念结构 [20]
看不见的底座:大模型 Infra 工程师的实战日常 | 直播预告
AI前线· 2025-06-14 04:06
大模型能跑起来、跑得好,背后有哪些看不见的工程细节?三位分别来自华为、蚂蚁集团与 SGLang 开源项目的 AI Infra 从业者 将分享他们的观察与体验。扫码预约直播,不见不散! 直播介绍 直播时间 Infra 工程师日常遇到的真实需求与故障类型 训练 / 推理流程中最常出错的环节有哪些 开源 Infra 项目的推进难点:技术之外还要兼顾什么 国产卡适配训练 / 推理过程中的实际体验与挑战 如何看直播? 扫描下图海报 【二维码】 ,或戳直播预约按钮,预约 AI 前线视频号直播。 如何向讲师提问? 看不见的底座:大模型 Infra 工程师的实战日常 直播嘉宾 主持人 :ZOMI 酱 华为 / 昇腾技术专家 嘉宾 : 直播亮点 马介悦 蚂蚁集团 / 高级专家 尹良升 SGLang 核心开发者 6 月 16 日 20:00~21:30 直播主题 文末留言写下问题,讲师会在直播中为你解答。 ...
员工每天花1000美元也要用ClaudeCode!创始人:太贵了,大公司专属,但它比 Cursor 猛!
AI前线· 2025-06-14 04:06
产品定位与核心优势 - Claude Code定位为终端环境下的代理式编程工具,无需更换IDE或学习新工具,直接在原有工作环境中使用[5] - 产品设计源于公司内部工程师多样化技术栈需求,选择终端作为通用入口以兼容所有开发者[5] - 在处理大型代码库时表现突出,无需额外索引或复杂配置即可开箱即用[9] - 被评价为让Cursor、Windsurf、Augment等工具显得过时,代表编程体验的范式变革[2][13] 技术能力与用户体验 - 采用Claude 4系列模型驱动,理解指令能力显著提升,首次执行准确率大幅改善[14][15] - 支持GitHub Actions集成,可直接在PR中@Claude自动修复问题或编写测试[16] - 通过Claude.md文件实现指令记忆与团队共享,支持全局/个人/项目级配置[24][25][26] - 工作流分为自动化处理简单任务与人工参与复杂任务两种模式[19][20] 市场反馈与定价策略 - 内部测试阶段DAU呈垂直上涨,发布三个月后获企业用户广泛采用[7][9] - 基础使用月费50-200美元,纳入Claude Max订阅计划后实现"无限量"使用[9][10] - 用户承认其能力超越Cursor等工具,但价格成为阻碍大规模采用的主因[1][2] - 公司内部工程师单日使用成本可超1000美元,反映高频使用的经济门槛[1] 行业影响与未来方向 - 推动开发者角色从代码编写者转变为技术决策主导者[4][18] - 代表编程语言演进后的体验变革,进入提示词驱动的新时代[13][18] - 计划拓展工具集成范围,支持更多CI系统和聊天工具场景化调用[27] - 采用"规划-执行"工作流,显著提升复杂任务处理效率[22][23] 开发历程与产品哲学 - 产品本身使用Claude Code进行多轮编写与重构,实现自我迭代开发[8] - 强调内部测试重要性,产品细节体现开发团队实际使用经验[8] - 创始人认为编程演进路径从打孔卡到提示词具有历史延续性[12][13] - 设计理念聚焦降低开发者认知负荷,通过自然语言交互完成编码[11][18]
硅基流动完成新一轮数亿元融资,打造开发者首选生成式 AI 开发平台
AI前线· 2025-06-13 06:42
融资与战略发展 - 硅基流动完成数亿元人民币A轮融资,由阿里云领投,创新工场等老股东超额跟投,华兴资本担任独家财务顾问 [1] - 公司定位为AI基础设施领域专业选手,通过技术突破解决国内AI行业发展重大问题,业务因开源大模型崛起和推理算力需求激增迎来爆发式增长 [1] - 融资资金将用于加大研发投入,拓展海内外市场,目标成为开发者首选的生成式AI开发平台 [1] 技术突破与产品创新 - 自主研发高性能推理引擎,显著提升芯片计算效率,完成国产芯片深度适配,实现国产算力从"可用"到"好用"的突破 [2] - 2025年2月推出基于国产算力的DeepSeek-R1 & V3服务,用户体验和性价比达国际主流GPU水准,验证国产算力部署大模型的商业可行性 [2] - 推出异构算力纳管平台,通过弹性调度技术整合碎片化算力资源,提升运营效率,推动算力资源普惠化 [2] - 大模型云服务平台SiliconCloud上线超百款主流开源大模型,提供模型精调、托管到部署的一站式解决方案,总用户数突破600万,企业客户数千家,日均Token生成量上千亿 [4] 应用场景与生态建设 - 一站式工作流设计平台BizyAir实现云端GPU与本地ComfyUI无缝协同,提供开箱即用模板,支持自定义模型与节点,已应用于阿里巴巴通义万相视频生成工作流 [6] - 推出API服务、专属实例、软件订阅及大模型一体机等多元解决方案,覆盖大语言模型、文生图、视频生成等领域,服务互联网、金融、制造、文娱等行业头部客户 [6] - 未来将持续降低AI开发与部署门槛,携手上下游合作伙伴推动AI技术深度应用,加速行业智能化升级 [6] 行业活动与趋势 - 创始人袁进辉将在AICon大会分享《AI-Native Cloud构建之路与展望》,聚焦推理引擎、FaaS、MaaS、工作流等技术探索 [1][10] - AICon北京站将围绕AI Agent、多模态应用、大模型推理优化等议题探讨技术与应用融合趋势 [10]
三大云厂同时瘫了?Cursor、ChatGPT跟着倒下!网友:整个互联网都要废了
AI前线· 2025-06-13 06:42
云服务中断事件概述 - 北京时间昨夜AWS、谷歌云、Azure和Cloudflare同时出现服务中断[1] - Down Detector数据显示谷歌云中断峰值达13000起报告,Azure和AWS分别达1000份和5000份[2][3][4] - 微软和AWS官方状态页面未显示异常,但第三方监测平台记录大量中断[5] 谷歌云中断详情 - 中断始于太平洋时间10:51,持续近3小时,影响Gmail、Google Drive等Workspace产品及GCP多项服务[10] - 根本原因为身份和访问管理服务(IAM)故障,导致全球13个区域云服务异常[38] - 至15:16大部分服务恢复,但Dataflow和Vertex AI等产品仍存在延迟和错误[13][14] 受影响企业 - Shopify因依赖谷歌云成为重灾区,多项服务异常[17] - Spotify中断持续3小时,恢复后仍存在访问量下降问题[19][20] - Cloudflare因依赖谷歌云导致Workers KV等核心服务故障,股价当日下跌5%[21][25] 行业连锁反应 - 多米诺效应引发Twitch、GitHub等20余家依赖云服务的平台连锁中断[38] - 暴露Cloudflare等基础设施供应商对公有云的高度依赖[35][36] - Hacker News用户推测故障源于谷歌内部Chemist服务策略检查失败[30][31] 谷歌云业务影响 - 事件发生在谷歌云快速增长期,正值与AWS、Azure竞争关键阶段[38] - Alphabet近期裁员及岗位转移至印度/墨西哥引发服务质量担忧[40][41] - 云计算部门虽保持美国最大团队规模,但成本削减措施或影响运维能力[42]
SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻
AI前线· 2025-06-13 06:42
SGLang 开源推理引擎发展现状 - 截至2025年6月 GitHub Stars达15K 月均下载量突破10万次 [1] - 已被xAI Microsoft Azure NVIDIA AMD LinkedIn 美团等行业巨头采用 [1] - 成为DeepSeek R1官方推荐推理引擎 并实现首个完全开源的大规模专家并行部署方案 [1] 核心技术优势 - 采用PD分离架构控制尾延迟 推测解码提升Token生成速度 KV缓存落盘优化显存 [2] - 实现RadixAttention Overlap Scheduling等高效架构设计 复现PD分离 大规模EP等前沿技术 [3] - 支持离线批处理最大化GPU利用率 线上推理优先保障Token生成速度的差异化部署策略 [4] 并行部署技术挑战 - 专家并行实现中面临通讯与Prefill/Decode传输KV缓存的时间重叠问题 [4] - 网卡资源争抢 CPU负载过大 Python GIL锁释放不及时等工程挑战突出 [4] 社区生态建设 - 开源模式吸引广泛参与 技术分享增强社区认同感 [5] - 超过100k显卡规模的工业部署经验反哺技术演进 [5] 关键技术解析 - PD分离使Decode延迟均匀稳定 允许采用不同并行策略提升资源利用率 [6] - 推测解码通过隐藏层信息一次预测多个Token 显著提升Decode速度 [6] - KV缓存落盘将历史上下文存储至大容量设备 避免重复Prefill计算 [6] 部署实践洞察 - 参数配置调试是影响上线效率的关键环节 需精细化优化而非依赖"开箱即用" [7] - 模型规模持续扩大背景下 多GPU与高效并行策略是实现高性价比部署的必经之路 [7] 行业活动预告 - AICon全球人工智能开发与应用大会将深入解析大模型推理关键技术 [2][7] - 聚焦AI Agent构建 多模态应用 大模型推理优化等前沿议题 [7]