Workflow
大语言模型
icon
搜索文档
明天,围观学习ACL2025论文分享会,最后报名了
机器之心· 2025-07-18 03:14
AI领域发展动态 - 2025年AI领域持续高速发展,科技公司和机构发布大量研究成果,技术更新节奏极快,每隔几周甚至几天就有突破性进展出现[1][3][4] - DeepSeek和视频生成模型Veo 3等代表性技术推动行业进步,从业者需频繁跟踪arXiv、GitHub等平台以保持技术前沿性[2][5] ACL 2025会议概况 - ACL 2025总投稿数突破8000篇创历史新高,会议将于7月27日-8月1日在维也纳举行[6] - 国内配套活动7月19日在北京举办,包含Keynote演讲、论文分享、圆桌对话等环节,设置企业展位交流[6][7][14] 学术研究热点 - 上午Keynote聚焦ACL趋势与NLP研究热潮,车万翔教授将分析2025年研究重点与演化方向[18][20][21] - 下午Keynote由刘鹏飞教授主讲大模型强化学习与复杂推理,探讨认知工程范式转变及测试时扩展技术[22][24] - 论文分享涵盖大语言模型自校正、分布式长上下文推理加速、token回收等前沿课题[11][12][14] 行业专家阵容 - 圆桌讨论主题为"上下文工程价值",嘉宾来自阿里巴巴、腾讯、上海交大,涵盖大模型强化学习、游戏AI等方向[16][31][33][35] - 腾讯AI Lab专家研究员王琰曾获ACL 2021杰出论文奖,开发过Temp-Lora、Block-Attention等业界知名技术[35] 活动合作生态 - 活动由机器之心联合黄大年茶思屋科技网站举办,后者是聚焦前沿科技交流的开放平台[39][41] - 设置论文Poster展示环节,并通过双平台直播扩大影响力[37][41]
瑞穗银行:与软银启动金融大语言模型研发。
快讯· 2025-07-18 02:54
公司与行业合作 - 瑞穗银行与软银启动金融大语言模型研发项目 [1] 技术研发方向 - 合作聚焦于金融领域的大语言模型技术开发 [1]
中金 | AI十年展望(二十四):AI Agent元年已至,应用拐点或将到来
中金点睛· 2025-07-17 23:49
AI Agent行业核心观点 - 2025年被定位为AI Agent"元年",技术基础和产品路线逐步成熟,产业期待应用端拐点形成商业闭环[1][4] - 基础大模型能力决定Agent上限,Coding与Agentic能力成为厂商竞争焦点[12][21][23] - C端注重通用性,B端强调场景化,商业化路径呈现差异化特征[4][5][36] - 海外商业化进度领先国内,但国内需求拐点渐近[5][43][73] 技术架构与产品形态 - 形成底层大模型+工具+Agent Infra的三层架构,大模型提供核心推理能力,工具赋予场景能力[12] - Agent Infra包含环境、记忆、工具接口等组件,生态仍处早期阶段[13] - 主流开发框架包括AutoGen、Dify、LangChain等,降低开发者门槛[16] - 产品能力分级L1-L5,从规则执行到具备情感协作的通用智能体[18][19] 商业化进展 C端市场 - 大厂和创业公司主导,OpenAI、Google、字节、阿里等积极布局[4][37] - 产品形态包括通用型(Manus、Flowith)和垂直型(Cursor、Harvey)[61][62] - 海外单任务定价0.5-2美元,国内扣子空间低至0.008元/任务[67] B端市场 - 海外Microsoft、Salesforce等形成完整产品矩阵,Oracle、Workday等企业服务商推动落地[37][69] - 国内厂商在开放场景中灵活尝试,DeepSeek加速短期渗透[72][74] - 头部厂商2025年订单可达过亿元级别[74] 关键趋势 - 从Workflow Agent向端到端自主Agent演进[24] - 单Agent架构向多Agent协作系统升级[26][27][29] - 工程化优化降低Tokens消耗,提升性价比[30][32] - Agent任务长度呈现Scaling-Law指数增长,已达小时级[32][33] 区域差异 - 海外模型即应用趋势显著,OpenAI年化收入超100亿美元[52][53] - 国内付费意愿边际改善,产品化基因局部领先[73] - AI+代码成为最成熟场景,海外收入体量领先国内一个数量级[43][44]
微软AI CEO:曾在谷歌主导开发类ChatGPT,因公司顾虑错失先机
搜狐财经· 2025-07-17 12:26
谷歌DeepMind时期的大语言模型开发 - 微软AI部门CEO苏莱曼在谷歌DeepMind任职期间(2010-2022)主导开发了大语言模型LaMDA,但项目最终未能发布[3] - LaMDA被描述为"ChatGPT推出之前的ChatGPT",是第一个能真正进行对话的大语言模型,在谷歌内部获得广泛试用和认可[3] - 谷歌内部对LaMDA存在严重分歧:约50%员工担忧其安全性、虚假内容生成风险以及对现有搜索服务的潜在破坏[3] - 另一部分谷歌员工则认为该产品潜力巨大,可能代表搜索引擎的未来发展方向[3] Inflection AI的创立与发展 - 苏莱曼因LaMDA项目受阻离开谷歌,筹集15亿美元(约107.72亿元人民币)创立Inflection AI[5] - 公司建立了包含22,000块H100 GPU的超算集群,开发出"Pi(Personal Intelligence)"AI系统[5] - Inflection AI成立于2022年1月1日,比OpenAI发布ChatGPT早7个月,但产品Pi直到2023年1月才发布[5] 市场竞争与时机因素 - OpenAI在2022年11月推出ChatGPT,抢占了市场先机并获得爆发式增长[5] - 苏莱曼认为时机至关重要,若Inflection AI能更早发布Pi,可能成为行业讨论焦点[5]
全球产业趋势跟踪周报:Grok-4大模型正式发布,多行业聚焦整治“内卷式”竞争-20250717
招商证券· 2025-07-17 12:02
核心观点 本周产业趋势集中在大模型和AI芯片,政策端关注整治“内卷式”竞争及险企长周期考核新规,短期关注五大赛道,中长期关注新科技、国产替代、“双碳”周期及电动智能汽车趋势,全球股市涨多于跌[2][5]。 核心关注与投资建议 本周重要事项前瞻 无具体内容提及[9]。 市场交易热点 上周A股涨跌幅居前的重要主题指数为稀土、炒股软件、稀土永磁[11][12]。 主题与产业趋势变化 - Grok - 4大模型正式发布,xAI确立AI新标杆:当地时间7月9日发布,架构基于全新MoE系统,专家模型数量提升,推理能力提升10倍,在多项测试中超越竞品;采用多代理推理与算力飞跃技术,训练策略升级;性能表现亮眼,在多领域测试中刷新纪录;商业定价高,应用覆盖多领域,未来有望实现科学新发现,产品进化路线明确[15][23][32]。 - 英伟达、AMD芯片供应相继解禁,美方批准H20与MI308X芯片对华销售:7月15日英伟达H20芯片获批销往中国,16日AMD宣布重启对华出口AI芯片;回顾中美贸易争端缓和及技术封锁解除进程;海外AI及算力链带动国内CPO厂家上涨;此前美国限制销售使相关公司受损;H20、MI308芯片是应对出口管制产物,性能有管控限制[42][43][49]。 投资建议 7月关注固态电池、国产算力、非银金融、国防军工、创新药五大具备边际改善的赛道;中长期关注新科技周期下全社会智能化进展、国产替代周期下产业链自主可控、“双碳”周期下碳中和全产业链降本增效以及电动智能汽车渗透率增加[53]。 政策端 整治内卷式竞争 市场监管总局召开企业公平竞争座谈会,建筑行业发出“反内卷”倡议,炼焦行业达成提价共识并坚持预付款交易;回顾整治“内卷式”竞争相关表态及近期各行业举措[55][56][60]。 引导保险资金长期稳健投资 7月11日财政部发布通知,升级国有商业保险公司绩效评价标准,建立三年以上长周期考核机制,要求保险公司提高资产负债管理水平、注重稳健经营、增强投资管理能力[61]。 7.7 - 7.13重要政策梳理 涵盖重要会议、总量政策、资本市场、房地产、营商环境、产业政策、其他政策等多方面政策,包括循环经济促进法执法检查、北京提振消费方案、沪深股通投资者程序化交易报告等[64][66][67]。 全球观察 全球股市行业表现 上周全球股市整体涨多于跌,能源、工业、医疗保健和房地产表现较好,公共事业表现欠佳;美股、欧股、英股、日股、港股、A股各有涨跌表现[68]。 全球强势股与异动股简析 过去一周领涨的200亿美元以上市值公司中运输、半导体与半导体生产设备较多,领跌的公司中软件与服务最多;分析阳光电源异动上涨和FAIR ISAAC股价暴跌原因[74][75][77]。 重要资讯速递 国内重要资讯与产业政策 包括CPI与PPI数据、港股南向通政策、稳定币学习会、市场监管抽查、电子信息规划编制、电网充电设施通知、建筑“反内卷”倡议、绿电供应模式、医疗器械采购措施、软信业发展措施等[80][82][84]。 国外重要资讯与产业政策 涉及关税计划、关税反制、中美贸易磋商、美联储降息、美债收益率、铜关税、俄乌冲突、人工智能浏览器、绿色能源补贴、自动化医疗等[88][90][93]。 全球重点科技公司跟踪 涵盖互联网科技、消费电子、新能源汽车、半导体芯片、人工智能、传媒和游戏等领域公司动态,如苹果高管变动、三星折叠屏手机发布、特斯拉无人驾驶出租车服务扩展等[96][98][99]。
大语言模型离“数学证明高手”还有多远?斯坦福、伯克利、MIT 团队提出 IneqMath 评测标准
AI前线· 2025-07-17 04:47
大语言模型数学推理能力评估 - 不等式问题可作为检验AI数学推理能力的理想工具,因其结构简单且易暴露逻辑漏洞[1] - 形式化数学系统(如Lean/Coq)虽能验证证明严谨性,但存在门槛高、自动化程度低等局限性[1] - 大语言模型在自然语言环境下表现优于形式化证明,适合开展"非正式推理"研究[4] IneqMath创新研究方法 - 斯坦福等团队提出将不等式证明拆解为"界限估计"和"关系预测"两个可验证子任务[4] - 构建包含1,252道训练题+200道奥赛级测试题的IneqMath数据集,建立自然语言与形式逻辑的桥梁[8] - 采用自然语言+LaTeX表达方式,平衡可证明性与易用性,答案具有唯一可验证性[6][7] AI裁判系统性能 - 四维度评审器(Toy Case/Logical Gap/Numerical Approximation/Computation)实现F1=0.93的高准确率[15][16] - 系统可检测71.5%答案正确但仅6%过程严谨的案例(Grok 3 mini),揭示模型"蒙答案"现象[18] - 评审器类型中Logical Gap Judge表现最佳(F1=0.96),计算验证类相对较弱(F1=0.80)[17] 模型规模与推理能力关系 - 参数增加仅提升答案准确率,对推理严谨性无显著改善[20] - 延长推理token数量对质量提升有限,存在明显瓶颈效应[23][24] - Gemini 2.5 Pro通过自我批判机制提升5%准确率,定理提示方法最高可提升10%[25] 行业应用与展望 - IneqMath框架为AI数学推理能力提供标准化评估工具[4][8] - 研究证实单纯扩大模型规模无法解决推理严谨性问题,需结合反思机制与工具使用[21][25] - 该方向发展将推动AI从"答案生成"向"过程验证"的范式转变[28][29]
ICML 2025杰出论文出炉:8篇获奖,南大研究者榜上有名
自动驾驶之心· 2025-07-16 11:11
ICML 2025最佳论文奖项总结 - 本届ICML共评选出8篇获奖论文,包括6篇杰出论文奖和2篇杰出立场论文奖,南京大学研究者位列获奖名单[3] - 大会共收到12107篇有效投稿,接收3260篇,接收率26.9%,相比2024年9653篇投稿数量持续大幅增长[5] - ICML是全球人工智能领域三大顶会之一,与NeurIPS、ICLR并列,本届为第42届,在加拿大温哥华举行[3] 杰出论文奖主要研究成果 - 论文1提出自适应Token解码顺序策略,将掩码扩散模型在数独解题准确率从7%提升至90%,超越7倍参数量的自回归模型[8][10] - 论文2研究机器学习在政府项目中的应用,通过德国失业案例评估预测技术对福利分配的影响,为政策制定提供分析框架[11][13][14] - 论文3提出CollabLLM框架,通过多轮感知奖励增强人机协作,任务表现提升18.5%,用户满意度提高17.6%,减少10.4%用户时间[15][17][18][19] - 论文4分析语言模型创造性极限,证明多Token方法在生成多样性方面优于下一Token学习,提出噪声注入输入层的新方法[20][22][23] - 论文5从贝叶斯视角改进共形预测,提出基于贝叶斯求积的实用方案,提供更全面的损失范围表示[24][25][26][27] - 论文6调整分数匹配方法处理缺失数据,提出重要性加权和变分两种方法,分别在小样本低维和高维场景表现优异[28][30][31] 杰出立场论文奖核心观点 - 论文1建议改革AI会议评审系统,建立双向反馈机制和审稿人奖励系统,应对投稿量激增带来的评审质量挑战[35][36][39][40] - 论文2指出当前AI安全研究忽视对未来工作影响,主张建立以人为中心的全球治理框架,解决收入不平等和技术债务问题[41][44] 行业动态 - 自动驾驶领域技术社区已聚集近4000人,300+企业和科研机构参与,覆盖30+技术方向包括大模型、BEV感知、多传感器融合等[47] - 专业课程涵盖端到端自动驾驶、大模型应用、BEV模型部署、轨迹预测等前沿方向,提供系统学习路径[48][49]
7 周一款新产品,OpenAI 到底有多卷?离职员工长文复盘内部真实情况
Founder Park· 2025-07-16 07:07
公司文化 - OpenAI采用高度分散的集群式工作模式,由多个小团队并行推进项目,缺乏统一路线图,研究方向多为自下而上推动[2] - 研究人员被视作"迷你CEO",拥有极高自主权,项目推进依赖个人兴趣驱动的"技术激将法"[2][12] - 公司扩张速度极快,员工规模从1000人增至3000人仅用1年,导致资历满1年者即进入公司前30%元老行列[9] - 内部沟通几乎全部通过Slack完成,邮件使用量极少(约10封/任职期),形成独特的即时通讯协作文化[9] 研发机制 - 采用"行动优先"原则,允许相似项目并行开发(如曾同时存在3-4个Codex原型),后期再集中优势资源[12][27] - 研究推进呈现"渐进式探索"特征,季度计划常不存在,优秀想法可来自任何层级员工[11] - 决策链条极短,从Codex项目首行代码到产品上线仅用7周,包含容器运行时、Git操作处理等复杂功能开发[2][34] - 技术架构呈现Meta系风格,核心基础设施团队多来自Meta/Instagram,自建TAO类系统和边缘认证方案[24][25] 产品特性 - 消费级产品思维主导,Codex等开发者工具仍优先考虑个人用户体验而非团队协作[2][29] - ChatGPT的对话体系深度嵌入技术架构,新功能开发需适配现有会话消息结构[27] - 采用"限时掉落"商品分发模式,首次开放导致Shopify商店因抢购崩溃,引发内部技术破解热潮[19] - 模型训练形成连续谱工作流,从小规模实验逐步扩展至分布式系统级调试[29] 行业竞争 - 公司视AGI为终极目标,同时面临Meta、Google和Anthropic的三方技术竞赛[15][40] - 资源投入向GPU计算严重倾斜,小众功能的GPU成本即超过Segment全部基础设施支出[19] - Twitter舆情直接影响内部决策,产品团队高度关注社交媒体声量[20] - 当前形成OpenAI(消费产品)、Anthropic(企业服务)、Google(基础设施)的三足鼎立格局[40] 技术架构 - 采用Python主导的单体代码库(monorepo),包含FastAPI+Pydantic技术栈,但缺乏统一代码规范[22] - 全部服务部署于Azure,主要依赖AKS、CosmosDB和BlobStore三核心服务[24] - 工程实践呈现"重行动轻规划"特点,存在至少6套重复的队列管理/代理循环实现方案[27] - 持续集成流程面临挑战,主分支测试在GPU环境需30分钟,反映快速扩张带来的技术债[28] 人才管理 - 高管团队保持高度可见性,包括Sam Altman(sama)等多位领导者在Slack直接参与技术讨论[21] - 招聘呈现Meta人才流入趋势,基础架构团队多来自Meta/Instagram系[24][25] - 组织处于"相变期",大量引入外部高级管理者以补充管理基因[42] - 核心团队组建灵活,Codex发布时8名工程师+4名研究员+2设计师的精英组合实现高强度冲刺(日均工作16小时)[36]
持续释放民企活力,稳固经济向好态势
第一财经· 2025-07-16 01:10
中国经济表现 - 上半年GDP同比增长5.3%,CPI同比下降0.1%,6月CPI同比上涨0.1%,核心CPI同比上涨0.4%,超出市场预期 [1] - 高科技和装备制造业占比提升,创新药、泡泡玛特、大语言模型和人工智能等领域表现突出,展现民营经济生命力 [1] 政策与民营经济 - 北京和东莞等地简化审批流程,如文艺演出和外摆摊位无需消防审批,酒吧驻唱实施"应批尽批",释放经济自由空间 [2] - 改革开放经验表明,清除人财物流动桎梏(如迁徙自由、公平竞争)是经济繁荣的关键 [2] 经济刺激与需求 - 社融和M2高企推动GDP增长,但居民有效消费不足(社零增长5.0%,人均可支配收入名义增长5.3%),可能导致低效资产风险 [3] - 超长期特别国债需动态调整,优先用于缓解有效需求不足,如社保福利领域,以提升居民消费信心 [3][4] 民营经济活力 - 当前经济稳中向好,需通过简政放权、轻税薄赋进一步释放民营经济活力,避免过度干预 [4] - 泡泡玛特在韩国市场受热捧,但因门店秩序问题中止线下销售,反映其国际影响力 [6]
一财社论:持续释放民企活力,稳固经济向好态势
第一财经· 2025-07-15 12:51
经济表现 - 上半年GDP同比增长5.3%,CPI同比下降0.1%,6月份CPI同比上涨0.1%,核心CPI同比上涨0.4%,超出市场预期 [1] - 高科技、装备制造业在经济中占比提升,创新药、泡泡玛特、大语言模型和人工智能领域表现突出,展现民营经济生命力 [1] 政策与改革 - 北京取消文艺演出和外摆摊位审批,东莞实施商业性演出活动"应批尽批",简化审批流程 [2] - 改革围绕清除妨碍人财物自由流动的桎梏,如人的迁徙自由和公平竞争市场秩序 [2] - 建议通过全国统一大市场建设,根植法治化营商环境,避免过度干预经济内生力 [3] 消费与需求 - 上半年社零同比增长5.0%,居民人均可支配收入同比名义增长5.3%,但居民有效消费能力不足 [3] - 超长期特别国债应动态评判资金使用方向,舒缓有效需求不足,避免低效风险资产 [3] - 建议将部分超长期特别国债用于社保福利领域,提升居民消费信心和市场供需匹配能力 [4] 民营经济 - 民营经济展现顽强生命力,政策"松手"可释放其增长潜力 [2] - 简政放权、轻税薄赋是释放民营经济活力的关键 [4]