Workflow
AI前线
icon
搜索文档
分享个好消息!| 极客时间
AI前线· 2025-12-17 18:16
软考政策与趋势 - 软考中程序员报考热门科目“系统分析师”和“系统架构设计师”的考试频率已从一年一次调整为一年两次 [1] - 上述科目以及“系统规划与管理师”的考试内容发生了重大改版 [1] 软考证书价值 - 软考全称为计算机技术与软件专业技术资格(水平)考试,是计算机领域唯一的国家级证书 [4] - 该证书在私营企业、企事业单位均受高度认可,是招聘时的重要加分项 [4] - 证书无报名门槛限制,一经考取永久有效且全国通用 [5] - 证书持有者可享受多项实际利益,包括:在广州、杭州、天津等地积分落户或直接落户,在上海可加分;有助于升职加薪;可用于申请个税专项附加扣除;高级证书持有者可进入专家库获取评标报酬并享受更高退休待遇;在项目招标中,持有国家级证书尤其是高级证书可作为加分项 [12] 软考资料包内容 - 资料包针对四个软考高级科目:“系统架构设计师”、“系统分析师”、“系统规划与管理师”、“信息系统项目管理师” [13] - 资料包内容为各科目的重难点知识整理,旨在帮助考生更快速高效地备考 [13] - “系统架构设计师”资料包含知识点与练习题,建议打印成便携纸质版使用 [14] - “系统分析师”资料按1-8章节准备,涵盖案例分析及论文写作专题 [16] - “系统分析师”具体重难点文档包括:系统配置与性能评价、操作系统、企业信息化与系统规划、软件工程(一)、软件工程(二)、面向对象技术、网络与信息安全、数据库设计、案例分析专题、论文写作专题 [17] - “系统规划与管理师”资料包含教程文档与视频解析 [18] - “信息系统项目管理师”资料已按章节总结,内容详略得当 [24] - 资料包今日免费分享,不限基础与人群,对软考感兴趣者均可领取 [26] 考试科目与时间 - “系统架构设计师”考试时间为每年5月和11月 [14] - “系统分析师”考试时间为每年5月和11月 [16] - “系统规划与管理师”考试时间为每年11月 [18] - “信息系统项目管理师”考试时间为每年5月 [24] 考试知识结构分析(以系统规划与管理师为例) - 综合知识考点共分为13个部分,各知识点分值及比例如下:信息系统综合知识(6分,占比8%)、信息技术知识(8分,占比10.6%)、信息技术服务知识(9分,占比12%)、IT服务规划设计(7分,占比9.3%)、IT服务部署实施(7分,占比9.3%)、IT运营管理(7分,占比9.3%)、IT服务持续改进(5分,占比6.7%)、监督管理(6分,占比8%)、IT服务营销(5分,占比6.7%)、团队建设与管理(3分,占比4%)、标准化知识与IT服务相关标准(6分,占比8%)、课外知识(1分,占比1.3%)、专业英语(5分,占比6.7%)[23]
模力工场 024 周 AI 应用榜:从“能力秀场”到“角色战场”,AI 价值锚点已迁移
AI前线· 2025-12-17 08:00
行业活动与平台动态 - 模力工场将联合举办“AI闪耀中国·吴晓波科技人文秀”活动,该活动定于2025年12月28日在厦门国博举办,旨在发布年度AI应用生态调研成果并探讨AI落地与商业前景[1] - 阿里云通义智能硬件与模力工场将于2026年1月8日至11日在深圳联合举办开年首展,预计覆盖76个以上品类、汇聚200家以上展商及1000款以上前沿AI硬件产品[3] - 模力工场作为AI应用发布与推广平台,其榜单评选机制侧重于社区真实反馈,核心指标为评论数,次级指标包括收藏、点赞及推荐人贡献[10] - 平台为开发者提供应用上传渠道,并为上榜应用提供强大的媒体传播支持,可通过极客邦科技旗下品牌资源触达千万级技术决策者、开发者及用户[11] AI应用发展趋势:从工具到角色 - 行业观察显示,AI应用的价值锚点已发生根本转变,从“展示技术能力”转向“占据特定社会角色”,深度融入工作与生活的具体分工中[4] - 当前AI应用发展呈现三条清晰主线:生产力工具追求“专业化内卷”,设计工具进行“工业化”跃迁,以及轻生活与教育场景兴起[3] - 生产力工具(如AI写作、翻译)的发展趋势是弱化技术参数宣传,转而死磕具体工作流,追求直接交付成果,让工具本身在流程中“隐身”[3] - 设计工具(如创客贴、稿定AI)的核心已从“会生成”转向满足商业交付所需的模板化、稳定性和效率,系统性地承接了传统的外包产能[4] - 在轻生活与教育场景,AI产品(如作业助手)正通过融入家庭、亲子等高频日常场景,悄然改变用户的生活习惯[4] 代表性AI应用案例 - **有道翻译AI写作**:其核心创新在于将翻译与写作一体化思考,直接在“表达意图”层面进行内容重构,而非简单的“先翻译后润色”,特别适合双语工作者、内容编辑及产品市场岗位[6] - **小朋友作业助手**:该产品代表了游戏化教育方向,其设计重点不在于解题,而在于将作业重新设计为一套“完成→激励→进度→成就”的反馈系统[8] - **创客贴**:被定位为面向非设计师的智能视觉创作工具,其特点是实现设计能力的“产品化、模板化、自动化”[7] - **稿定AI**:是一款面向商业场景的智能设计工具,致力于让视觉与文案内容成为可规模化交付的生产力[7] - **其他上榜应用**包括:专注于海外社媒多账号管理的SocialEcho、以“大模型工程化落地”为核心的零一万物,以及将专业形象照变为大众消费品的妙鸭相机[7]
罗福莉执掌小米大模型首秀!定调下一代模型,全新MiMo-V2开源还横扫Agent第一梯队
AI前线· 2025-12-17 08:00
小米大模型战略与MiMo-V2-Flash发布 - 小米在2025年合作伙伴大会上,由新任命的大模型负责人罗福莉首次公开亮相,并发布了新一代开源大模型MiMo-V2-Flash [2][3][4] - 该模型采用MoE(混合专家)架构,总参数规模达3090亿,但每次推理仅激活约150亿参数,旨在实现高速、高频、低成本的推理 [8] - 模型设计目标明确为“要跑得快、跑得久、被高频调用也跑得起”,核心是为Agent(智能体)和真实世界应用场景服务 [8][16] 技术负责人背景 - 大模型负责人罗福莉是行业知名AI技术专家,硕士毕业于北大,曾任职于阿里巴巴达摩院和DeepSeek母公司幻方量化,参与研发DeepSeek-V2等模型 [11][12] - 她于2024年11月加入小米,此次演讲是其入职后的首次公开亮相 [13] 模型设计理念与工程逻辑 - 公司认为当前大语言模型本质上是解码了人类思维在文本空间中的投影,而非真正理解物理世界,因此语言是工具而非终点 [19][20][35] - MiMo-V2-Flash的设计目标不是追求“更聪明”,而是“更好用、更可部署”,其技术选择是被Agent场景需求“倒逼”出来的工程取舍 [21][22] - 模型研发主要围绕三大现实挑战展开:智能体需要高效的代码与工具调用沟通语言、智能体间交互带宽低要求极高推理效率、大模型范式正从预训练转向后训练和强化学习 [25][41] 核心技术特点与性能 - 模型采用Hybrid Attention混合注意力结构(Sliding Window Attention与Full Attention比例约5:1),以兼顾长短文本推理并适配现有推理基础设施 [45] - 深入挖掘多词元预测技术潜力,在预训练和微调阶段引入MTP层以提升模型潜能,在推理阶段使用三层MTP并行,实现约2到2.6倍的推理加速 [24][46][47] - 在单机环境下,模型输出吞吐可达5000到15000 token/s,单请求输出速度达150 token/s,相比不使用MTP速度提升约2-3倍 [24][47] - 在后训练阶段,公司提出了Multi-Teacher On-Policy Distillation范式,以高效、稳定地将多个专家模型能力蒸馏到学生模型中 [47][50] 模型性能对比与评测结果 - 在7项主流评测中,MiMo-V2-Flash在Agent、代码、工具调用和复杂任务执行方面已进入全球开源模型第一梯队,整体表现与DeepSeek-V3.2、Kimi-K2-Thinking基本相当 [27][40] - 在SWE-Bench基准测试中,MiMo-V2-Flash在多语言模式下以71.7%的准确率获得一项第一 [28] - 在推理效率对比上,MiMo-V2-Flash的推理成本略低于DeepSeek-V3.2,但推理速度约为后者的三倍;与综合能力相近的Gemini 2.5 Pro相比,推理速度接近,但成本低约20倍 [40][48] 对AGI发展的观点与未来方向 - 公司认为当前大模型虽能完成复杂任务,但缺乏对物理一致性、时空连续性及因果关系的理解,这是“具身幻觉”的根源 [30][52] - 真正的下一代智能体需从“回答问题”转向“完成任务”,并具备与世界交互的能力,其核心是构建一个统一、动态的世界模型,而非仅增加多模态输入 [31][32][52][53] - 智能不是从文本中“读出来”,而是要在与真实环境的持续交互中“活出来”,AI进化的下一个关键点是发展能够持续交互的物理模型 [33][52] - 公司对开源持积极态度,视其为一种分布式的技术加速机制,是缩短开源与闭源差距、推动AGI普惠化的现实路径 [33] 模型发布与生态 - MiMo-V2-Flash已正式发布并开源,同步开放了模型权重、技术报告和API,方便开发者接入Web Coding、IDE等场景,体验网页也已上线 [50]
政企研联手发力!N 个实战案例!企业数智化转型的石景山企业专属方案重磅登场 | Q推荐
AI前线· 2025-12-17 01:39
文章核心观点 - 人工智能发展已从概念探讨进入规模化落地实践阶段,企业关注点转向如何有效应用并持续创造价值[1] - 城市、产业与平台协同是推动AI规模化落地的重要环节,本次大会旨在为此提供从政策到实战的完整闭环[1] - 大会通过项目启动会、全国论坛和行业峰会,系统服务企业管理者与技术决策者的现实需求,提供清晰的行动路径[1][4] 大会概况与目标 - 全球人工智能开发与应用大会暨石景山数智化转型峰会(AICon北京站)将于2025年12月19日至20日在北京石景山万达嘉华酒店举行[1] - 大会由北京市石景山区经济和信息化局指导,北京石景山产业发展有限公司主办,飞书与极客邦联合承办[1] - 大会致力于打造连接政府、企业、技术平台与产业生态的高端对接平台,通过释放政策信号、汇聚资源、呈现可复制经验,为企业转型提供可行路径[4] 首日议程:项目启动与战略论坛 - **上午项目启动会**:举行《石景山区企业数智化转型及AI落地服务项目启动会》,发布相关权益内容,以“项目化、服务化、可执行”为导向,帮助企业明确转型路径[2][7] - **下午全国性论坛**:主题为《AI时代的企业战略升维与产业创新浪潮》,面向企业C-level及以上决策者,探讨AI技术演进、产业趋势及组织变革,旨在帮助企业制定中长期数智化战略[3][9][10] - **论坛具体议题**:涵盖政策引领、产业发展趋势、AI实践与创新组织、企业操作系统进化论及企业支出管理新范式等[11] 次日议程:行业峰会与场景实战 - **下午行业峰会**:主题为《AI在企业中的场景实战与效能跃升》,聚焦“用好AI”与“做好AI”两条实战路径,关注具体业务场景中的应用实践[4][12] - **峰会目标**:通过一线企业和平台的案例分享,呈现AI在业务流程、项目管理、组织协同等方面的实际应用,帮助理解AI如何嵌入组织体系以实现效能跃迁[4][13] - **峰会具体议题**:包括飞书多维表格的产品演进、神州数码的流程智能化实践、飞书项目重构范式以及游戏业务中的AI落地实景等[13] 参与方与核心议题 - **政府与平台方**:石景山区政府提供政策指导与支持,飞书、极客邦等科技公司承办并分享实战经验[1][7] - **企业案例与分享**:涉及神州数码、360集团、明略科技、智象未来、中科创达、分贝通、多比特等多家企业,分享AI在流程、管理、创作、Agent技术等领域的落地实践[8][11][13] - **技术焦点**:议题涵盖多模态大模型驱动的内容创作、Agent技术演进与落地、可信Agent的规模化、企业智能体等前沿方向[8]
国产GPU赛道又跑出一个 2700 亿独角兽!“中国AMD”沐曦股份完成IPO,开盘大涨超 500%
AI前线· 2025-12-17 01:39
公司上市与市场表现 - 沐曦集成电路于2025年12月登陆科创板,股票代码688802,成为继摩尔线程之后第二家上市的国产GPU公司 [2][3] - 上市首日股价表现强劲,截至发稿时股价达到679元/股,公司估值突破2700亿元 [3] - 公司发行价为104.66元/股,共发行4010万股,募资总额约41.97亿元 [8] - 网上申购与网下配售工作于2025年12月上旬完成,成为资本与产业关注的热点 [5] 募资用途与财务数据 - 募集资金约39.04亿元,将主要用于产品研发与产业化 [7] - 具体募投项目包括:约24.59亿元用于新型高性能通用GPU研发及产业化,约4.53亿元投入新一代AI推理GPU研发,约9.91亿元投向前沿领域的高性能GPU技术 [8] - 公司2022至2024年营业收入从42.64万元大幅攀升至7.43亿元,三年复合增长率超过4000% [15] - 2025年第一季度营收同比继续保持强劲增长势头 [15] - 公司在2022至2024年三年间累计净亏损超过30亿元,主要源于高研发投入、人才激励及软件生态建设等前期布局 [15] 公司背景与团队构成 - 公司成立于2020年,总部位于上海,并在北京、南京、成都等多地设有研发中心或分支机构 [10] - 公司定位为“全栈GPU芯片及系统解决方案提供商”,覆盖GPU架构设计、IP、SoC设计、软件栈与系统级交付 [10] - 核心创始团队具有显著的“AMD背景”,几乎整个核心研发体系和管理层都来自AMD [18] - 创始人兼CEO陈维良在GPU领域有超过二十年经验,曾长期担任AMD上海研发中心高级总监与全球GPU设计负责人 [18] - 陈维良通过直接持股及控股平台合计控制公司约22.9%的股权,是公司的实际控制人 [19] - 联合创始人彭莉在AMD拥有超过十年工作经历,专注于GPU或相关高速计算架构研发,曾获“企业院士”称号 [20] - 联合创始人杨建同样在AMD工作超过十年,并可能拥有其他大型芯片设计公司的技术经验 [20] - 核心成员平均拥有近20年高性能GPU产品端到端研发经验,曾主导过十多款世界主流高性能GPU产品的研发及量产 [10] 产品与技术路线 - 公司采用“全栈”策略,以“通用GPU架构”为核心,逐步扩展到AI训练、推理与数据中心级计算 [10] - 已推出三大产品系列:曦思N系列GPU用于智算推理,曦云C系列GPU用于通用计算,以及曦彩G系列GPU用于图形渲染 [10] - 技术演进分为三个阶段:第一阶段(2020年)重点验证完整GPU架构的可行性;第二阶段系统性增强并行计算能力和内存带宽,产品定位转向“可部署GPU”;第三阶段(2024年起)技术重心明显向AI计算倾斜 [11][12][13] - 公司在架构上选择稳健的演进路径,在保持统一通用架构的前提下,通过模块化设计实现针对不同负载的优化 [12] - 公司最新一代产品曦云C600系列及下一代产品曦云C700系列,综合性能可以对标英伟达H100 [13] - 在软件与生态层面,公司持续强化编译器、驱动与运行时系统的适配能力,并采用“向前兼容”的设计思路 [13] 行业意义与股东结构 - 沐曦与摩尔线程先后冲刺上市,被业内视为国产GPU行业从“技术验证期”迈向“市场与资本检验期”的重要信号 [20][23] - 这意味着国产GPU的竞争正在从“谁能做出来”过渡到“谁能持续卖出去、活下去” [25] - 上市意味着公司必须对外清晰解释商业模式、成本结构和可持续能力,接受二级市场对产品出货、收入结构及研发投入回报的审视 [24] - 公司股东阵容强大,云集了红杉中国、经纬创投、和利资本等知名创投,以及葛卫东旗下混沌投资(累计持股约7.48%)和国家人工智能产业基金等政策性战略资本 [16]
Codex负责人打脸Cursor CEO“规范驱动开发论”!18天造Sora爆款,靠智能体24小时不停跑,曝OpenAI狂飙内幕
AI前线· 2025-12-16 09:40
文章核心观点 - OpenAI的编程智能体Codex实现了爆发式增长,其成功不仅源于模型能力的提升,更关键的是构建了一个由模型、API和框架三层紧密咬合的系统,使其能够处理长时、复杂的编程任务,并深刻改变了软件开发的流程与效率 [2][6][27] - Codex的定位正从“被动工具”向“主动队友”演进,其最终目标是参与软件开发的完整生命周期,而不仅仅是编写代码,这代表了人工智能智能体的未来发展方向 [17][29][33] - 当前人工智能生产力提升的最大瓶颈并非模型能力,而是人类自身的输入与审查速度,解除这一瓶颈是迈向通用人工智能(AGI)的关键一步 [7][11][74] Codex的增长表现与市场影响 - 自2024年8月GPT-5发布以来,Codex用户增长**20倍**,每周处理**数万亿**tokens,成为OpenAI最受欢迎的编码模型 [2][21] - 在业务实战中表现惊人,例如帮助Sora团队在**28天**内从零开发并上线安卓应用,并登顶App Store排行榜 [5][11][55] - 内部使用显著加速开发,例如Atlas浏览器项目中,过去需**2-3名工程师花费2-3周**完成的功能,现在**1名工程师1周**即可完成 [56] Codex的产品演进与关键调整 - 早期产品(Codex Cloud)因采用远程异步交互方式而“太过未来”,对新手不友好 [6][11] - 关键拐点是将Codex从云端迁回本地,使其直接在工程师的IDE中工作,此举引爆了增长 [6][11][24] - 目前Codex被比喻为“聪明但不会主动的实习生”,写代码速度很快,但尚不能完全自主工作 [6][17] 三层系统结构:技术突破的核心 - Codex的能力飞跃源于模型、API和框架三层的共同优化与紧密整合,而非单一模型改进 [2][27][33] - 为支持长时任务(如连续运行**24到60多个小时**),团队设计了“压缩”机制:模型负责提炼关键信息,API承接任务链路,框架负责稳定运行 [2][11][27] - 公司对Codex有明确的技术主张(如在沙盒环境中仅使用shell),这避免了模型行为冲突,实现了快速迭代 [27][30] OpenAI的组织文化与运作方式 - 公司文化以“速度”和“野心”著称,迭代速度“闻所未闻”,其模式被概括为“先射击,再瞄准”(即先发布再根据反馈优化) [6][13] - 组织架构高度自下而上,汇聚了世界顶尖人才,个人动力与自主性极强,这是其高速发展的关键 [6][14] - 公司内部深度实践“dogfooding”(自产自用),Codex在过去一年显著加速了公司自身的工程进程 [25][56] Codex对软件开发流程的重塑 - 改变了工程师的工作内容:从享受编写代码的创造性过程,转向花费更多时间审查AI生成的代码 [11][42] - 推动了“聊天驱动开发”等新模式,智能体未来将更自然地融入团队的日常沟通流,而不仅依赖正式规范 [44] - 使角色边界模糊化,例如OpenAI的设计师现在可以编写并发布自己的代码,工程师仅在复杂环节介入 [11][54] 人工智能智能体的未来愿景 - 终极形态是成为“情境化助手”和“超级助手”,能够默认提供帮助,每天提供数千次协助,而不仅响应几十次指令 [18][33][34] - 编写代码被认为是人工智能完成任务的“通用方式”和“最自然、最高效的行动方式”,未来几乎所有强大的智能体都将具备编码能力 [11][36] - 智能体将通过编写代码构建可组合、可复用的能力,形成能够随团队成长而不断累积的知识体系 [37] 对行业与从业者的影响 - 人工智能不会取代工程师,但会改变工作性质,系统设计、架构理解和团队协作等能力将变得更加重要 [41][70] - 产品开发速度的极大提升,使得“深刻理解特定客户问题”比“擅长产品开发”更具竞争优势,垂直领域AI初创公司前景看好 [11][60] - 学习编程依然重要,但理由从“打字写程序”转向理解系统结构、具备判断力以及配置与协作AI智能体的能力 [70] AGI发展的视角与预判 - 当前限制AGI发展的主要因素不是模型能力,而是人类的输入速度、审查速度等多任务处理能力 [7][74] - 预判第一批生产力出现“曲棍球棒式”陡增的用户将在明年出现,其后的变化会加速扩散 [8][75] - 当增长曲线变得异常陡峭时,可能意味着已经站在AGI的门口 [8]
别吹了,智能体Demo能跑通和能上线,是两码事!| 极客时间
AI前线· 2025-12-16 09:40
然而,下一波真正的浪潮已经涌现:智能体(Agent)时代。这里的"智能体",不是简单的聊天机器 人。它指的是 以大型语言模型为认知引擎,具备自主决策、目标导向和环境交互能力的 AI 系统。 从 ChatGPT 到 Claude,从文心一言到 DeepSeek,我们已习惯与各种 Copilot 协作。它们能力惊 人,但本质仍是 被动响应 的工具——我们发出指令,它们返回结果。 "我看到很多开发者卡在'只会调 API'的层面,这非常可惜。AI 智能体的底层,是一套精密的 系统工程。掌握它,意味着你能从'工具的使用者'转变为'智能系统的创造者'。这不仅是技能 的提升,更是思维模式的跃迁。" 想象一下: 这就是 Agentic AI ——未来最炙手可热的技术方向,也是拉开下一代 AI 应用差距的关键。 热潮之下,开发者真正的 挑战是什么? 智能体开发就像一座冰山。水面之上,是大家熟悉的"调 API、写 Prompt";水面之下,才是真正的 复杂性所在: 这些,才是考验开发者能否将炫酷概念转化为真实价值的核心能力。面对这片充满机遇但略显复杂的 海域,一位资深的技术"引路人"—— 王延飞老师 ,分享了他的观察。 作为一位 ...
评测也很酷,Data Agent 自动化评测的三层框架与实战
AI前线· 2025-12-16 09:40
文章核心观点 - 在大模型驱动的数据应用Agent领域,科学、准确地评估应用效果是行业面临的关键挑战,公司通过构建覆盖技术选型、研发迭代和业务效果的三层评测框架,并创新性地采用基于语义等价的自动化评测方法以及“用Agent评测Agent”等技术,以解决传统评测方法的局限,提升评估效率和准确性,最终驱动产品迭代与优化 [2][5][17][37] 大模型应用评测的通用挑战与方法 - 大模型评测复杂度高,核心挑战在于如何贴切评价应用实际效果以及如何在传统技术不足处进行创新 [5] - 评测需关注三个核心维度:效果(包括事实性、有用性、有害性)、性能与推理性能(如首Token时延、生成速度、资源消耗)、以及稳健性(容错、抗攻击能力) [8] - 当前常见评测方法包括人工评测、自动化评测(如客观题匹配、文本相似度比较、基于排序的评估)以及人机协同评测 [9] - 通用评测的痛点包括:静态评测与线上实际效果脱节、针对模型单一能力的评测无法反映综合业务能力、以及评测集难以跟上业务和用户行为的快速变化 [10] 数据应用Agent领域的垂直评测难点 - 领域特殊性带来挑战,例如早期大模型训练语料中SQL占比低,导致其SQL生成能力较弱,而数据领域的“正确性”要求极其关键 [14][15] - 数据Agent产品形态复杂,如“深度研究”涉及多维度分析,评估需从单一能力扩展到覆盖数据源差异、数据异构性等复杂因素 [15] - “效率”与“研发并发”非常关键,评测效率直接影响研发周期,快速判断方案优劣能带来显著差异 [16] 三层评测框架体系 - 公司为构建大模型Agent应用设计了三层评测体系:最下层是技术选型评测,用于筛选达标模型;中间层是研发迭代中的组件(子Agent)评测,类似“单元测试”;最上层是端到端的业务效果评测 [17][18] - 在基础能力评测层面,针对数据领域关注工具调用、数值计算、表格理解、数据幻觉控制、复杂指令遵循及Text-to-SQL等能力,并接入如ComplexFuncBench、HumanEval、SWE-Bench等开源Benchmark [20] - 在组件评测层面,将Agent工作流程拆解为召回、理解与规划、洞察分析与执行、结果总结等阶段进行独立评估,以定位问题根源 [20] - 在端到端效果评测层面,针对特定业务场景构建评测集,并设有“数据与飞轮”模块对接线上日志,用于案例研究、回归测试集沉淀和人工标注 [21] Data Agent评测技术创新与实践:Text-to-SQL - Text-to-SQL是数据Agent的核心任务,传统评测方法(如Spider、WikiSQL、BIRD-SQL数据集)在真实业务环境中存在适配性与可扩展性问题 [25][26] - 传统“执行正确性”比对易产生误判,因测试数据分布不完备可能导致“非等价SQL执行结果相同”;而基于文本相似度的比较则难以准确反映语义逻辑等价 [26][27] - 公司提出基于语义等价的评测方法,将SQL转化为抽象语法树(AST),并借助Apache Calcite下推为执行层语法表示(RelNode),以抹平写法差异,判断逻辑含义是否相同 [29] - 进一步采用图匹配网络(Graph-Matching Network, GMN)在语法树上进行局部匹配(RelPM),计算SQL相似度,该方法在效果上显著优于传统基于执行正确性、文本相似度或BERT模型的方法 [30] Data Agent评测技术创新与实践:深度研究 - “深度研究”类Data Agent的评测更为复杂,需评估报告对业务的有用性、推理思路的合理性、内容的完整性以及建议的有效性等多维度 [31][32] - 公司为此定义了一套评测体系,从分析与洞察的深度与准确性、报告展示的可读性与易读性、执行过程的稳定性与成功率等角度设定分层评估维度和关键指标 [33][34] - 在自动化评估技术上,创新性地采用“用Agent来评测Agent”的方法,其可行性基于三个前提:挑错比做对容易、可以复盘过程进行逐步审阅、以及能做定向优化 [37] - 实现技术包括自我反思(模型打分后检查逻辑完整性)和多Agent协作架构,让多个Agent从不同角度打分,并由“裁判长”统一审阅,同时结合ReAct让评测侧能写代码复算关键数据 [38][39] - 自动化评测在事实性错误上展现出高召回率与准确性,在案例中,机评对事实性错误的召回率超过88%,准确性达到86%,能有效用于研发迭代中的版本比较 [44] - 机评在定位数据错误(如SQL缺少GROUP BY导致结论无来源)和分析意图完成度评估(如自动计算完成比例并标注缺失项)等具体场景中效果显著 [41][44] 评测平台与工具支撑 - 公司搭建了面向数据评估的统一平台,覆盖数据集管理、自动化与人工评测、指标分析、结果归因等完整流程,并提供“数据飞轮”机制持续沉淀线上案例为评测集 [45] - 平台提供一系列常用评测算子(基于规则或大模型),业务方可自行编排这些“原子算子”实现自定义分析逻辑 [45] - 平台设计了“评估工作流”模块,支持以可视化方式快速搭建评估流程,高效复用算子,提升了评测效率 [45][46] 自动化评测的未来展望 - 未来需进一步完善评测维度和体系,加强多模态能力利用,优化数据集,并通过有效采样、时效性校验等手段解决线上与线下评测的一致性问题 [48] - 倡导“评估驱动开发”(EDD),将评估更好地分解到Agent架构的各个环节,建立最终业务指标与过程性指标的有效关联 [49] - 探索用自动化评测反向驱动模型训练流程(如SFT、强化学习),并与人类判断对齐 [49] - 目标是让自动化评估结果能更快、更高效地生成对应用改进的建议,直接服务于产品迭代,帮助业务方判断需求满足度,并支持开发者进行更高效的技术方案探索 [49]
阿里电影级视频模型万相2.6系列上线,功能比Sora2还全,人人都能当导演
AI前线· 2025-12-16 06:39
作者 | 木子 12 月 16 日,阿里发布了新一代 通义万相 2.6 系列模型 。 这次更新不是某一项能力的单点升级,而是 5 款新模型同时上线 ,包括: 文生视频、图生视频、参考生视频、图像生成,和文生图 ——覆盖从图像到 视频、从一次性生成到可复用创作的多个关键环节。 万相,是阿里"通义大模型家族"的一员(此外还有千问、百聆等)。初代万相于 2023 年 7 月上线,最早以图像生成能力为主,并率先面向企业用户开 放测试。 经过 2 年多的发展,今年 9 月阿里率先在国内发布音画同步的视频生成模型万相 2.5,极大提升视频创作的效率,在权威大模型评测集 LMArena 上, 万相图生视频位居国内第一。 如今的 万相 2.6 更是成为了 国内首个支持角色扮演功能的视频模型, 画质、音效、指令遵循等能力也进一步提升了,单次视频时长实现国内最高的 15s,还新增了角色扮演和分镜控制功能,不仅能一键完成单人、多人、人与物合拍的视频,还能自动实现多镜头切换等专业任务,满足专业影视级场 景需求。 另外,万相 2.6 也是全球功能最全的视频生成模型功能 ,比大名鼎鼎的 Sora2 还 多了一项"多音频驱动生视频"功能 ...
打破确定性魔咒!北航团队提出VBF++:用“不确定性建模”刷新多模态视频推荐 SOTA
AI前线· 2025-12-15 06:53
作者 | 刘瑞 审校 | 蔡芳芳 论文题目 : VBF++: Variational Bayesian Fusion with Context-Aware Priors and Recommendation-Guided Adversarial Refinement for Multimodal Video Recommendation 这种"点估计"的策略,在面对真实世界短视频生态中的三大"不确定性"时 [5-6],显得尤为脆弱 : 范式革新:VBF++ 将融合从 作者单位 : 北京航空航天大学 & 北京邮电大学 参考代码 : https://github.com/muhhpu/VBF 痛点:确定性融合的 "不确定性"危机 多模态视频推荐系统在捕捉用户兴趣时,需要高效整合视频的视觉、听觉和文本特征。然而,现有的主流方法(如基于注意力机制或图神经网络的 确定 性融合 方法 [2-3])面临着一个根本性的挑战:它们倾向于为给定的输入计算一个单一的、最优的权重向量,将多模态融合视为寻找"全局唯一最优解"的 优化问题 。 "点估计"升级为"分布建模" 近日,北京航空航天大学和北京邮电大学联合提出了一种全新的概率化框 ...