大语言模型
搜索文档
吴恩达Agentic AI新课:手把手教你搭建Agent工作流,GPT-3.5反杀GPT-4就顺手的事
量子位· 2025-10-12 04:07
Agentic AI核心概念与方法论 - Agentic AI通过多步骤任务分解、反思、执行与优化的循环工作流显著超越传统端到端Agent的性能表现[5][6][74] - 核心理念是让大语言模型以多步推理与分阶段执行的方式工作而非一次性生成结果这与人类解决复杂问题的方式高度契合[9][14] - 通过系统化的工作流设计甚至可以让GPT-3.5在编程任务中轻松超越GPT-4的性能表现[3][75] Agentic工作流四大核心设计模式 - **反思模式**:让大模型检视自身输出并思考改进可通过双模型协作、量化评分机制或引入外部反馈(如参考答案)来提升输出质量[18][21][24][27] - **工具调用模式**:由大语言模型自主决定调用外部功能(如网页搜索、编写代码)传统方式依赖开发者手动实现而MCP等统一协议将其标准化极大提升效率[28][29][38][43] - **规划模式**:使大模型能根据不同请求灵活调整工具序列执行顺序通过将步骤转化为JSON或代码形式实现任务离散化从而优化性能与资源使用[45][46][47] - **多智能体协作模式**:构建多个具备不同专长的智能体通过结构化分工协作(类似企业组织架构)提升复杂任务的处理效率与质量并可实现智能体间的嵌套调用[51][52] Agentic系统构建与优化流程 - 构建流程遵循"采样-评估-改进"的闭环迭代:先搭建工作流收集输出然后进行端到端或组件级评估定位错误最后针对性优化参数、工具或提示词[55][58][59] - 错误分析是关键通过追踪中间执行轨迹定位薄弱环节(如工具调用或识别模块问题)组件级评估能更快速精准地指导系统改进[61][63][64][67] - 模型选择与优化需多尝试不同模型参考他人提示词设计并将模型置于工作流中观察各步骤表现以持续提升系统可靠性[68][69][70] Agentic AI的行业意义与发展前景 - Agentic被定义为描述系统自主性程度的形容词而非二元分类这为开发者提供了更连续、准确的能力评估框架[72] - 与传统端到端Agent相比Agentic AI通过组件拆分和逐步优化使每个环节可迭代改进为开发者提供了可落地的系统优化路径而非仅依赖模型自身能力提升[76][77][78] - 除成熟代码Agent外基于步骤的Agentic AI在复杂多步骤工作流领域仍有广阔发展空间为行业探索更智能、可控的AI系统提供方法论支持[79][80]
冯帅章:部分院校的专业设置与实际需求脱节
经济观察报· 2025-10-11 09:15
当前就业市场整体形势 - 就业市场整体相对稳定,企业、应届毕业生、学校都在积极调整心态以适应新形势 [2][5] - 全国城镇16—24岁劳动力失业率为18.9%,相比7月上升1.1个百分点,为2023年12月以来的新高 [2] - 自2020年起年轻人就业压力越来越大,但在近几年的宏观经济背景下,就业市场没有出现大幅波动被视为好消息 [4][5] 应届毕业生就业现状与挑战 - 高校毕业生数量屡创历史新高,2025年预计达1222万人,较去年增加43万 [2][6] - 大学生就业问题需追本溯源至高等教育体系本身,现有院校专业设置与实际需求脱节,调整空间很大 [7] - 应届毕业生在求职时应考虑工作长远发展,大胆尝试不同行业和地域,而非仅看重短期待遇 [9] 高等教育体系的结构性问题 - 应谨慎对待高等教育扩招,需更注重质量而非数量 [1][7] - 高等教育扩张若师资、宿舍等资源未相应增长,会摊薄教育投入并降低人才培养质量 [7] - 研究生宿舍资源紧张、大班授课等扩招"后遗症"屡见不鲜,建议在质量和数量间取舍时优先保障培养质量 [8] 新型灵活就业的发展与挑战 - 2023年中国平台就业者总规模达2.47亿人,占当年劳动年龄人口的28.6% [2][18] - 平台就业者中全职为1.29亿人(占劳动年龄人口14.9%),兼职为1.18亿人 [18] - 新型灵活就业分为"基于云端"(如直播带货)和"基于位置"(如外卖、网约车)两大类 [12] 不同类型灵活就业的容量与前景 - 基于位置的新型灵活就业受当地市场需求限制,吸纳就业已趋于饱和 [12][13] - 基于云端的新型灵活就业面向全国乃至全球市场,就业吸纳能力更强,并能创造新需求和新业态 [13][14] - 平台就业达到峰值后,市场机制会通过调节从业者收入引导劳动力流向其他行业 [15] 灵活就业群体的社会保障问题 - 政策层需积极引导灵活就业向社保缴纳方向推进,但短期内需量力而行,综合考虑个人和平台的缴纳意愿与压力 [2][16] - 建议根据灵活就业者收入水平灵活调整社保缴纳金额,并鼓励甚至要求平台基于管理关系帮助劳动者参保 [17] - 社保缴纳与劳动关系不应绑定,政府应引导平台为长期稳定服务的全职司机等缴纳社保 [18]
北大 & 作业帮团队提出 Text-to-SQL 新框架 Interactive-T2S,攻克宽表处理与低资源对齐难题
AI前线· 2025-10-11 04:14
论文核心创新 - 提出Interactive-T2S框架,将大型语言模型塑造为能与数据库进行多轮、迭代式交互的智能代理,通过"思考-行动-观察"循环逐步构建SQL查询,突破传统方法将LLM视为一次性SQL翻译器的局限 [2] - 框架设计四大核心工具(SearchColumn、SearchValue、FindShortestPath、ExecuteSQL)将SQL生成拆解为"找列找值-表关联-执行验证"三步,避免LLM直接处理海量冗余信息 [6][7] - 采用统一交互流程(问题拆解→信息定位→表关联→SQL执行),每一步均要求LLM输出思考过程与工具行动,确保生成逻辑可追溯,同时仅需2个标注示例即可实现少样本学习 [10] 技术性能优势 - 在BIRD-Dev数据集上执行准确率达54.56%,较当前最优方法ExSL(51.69%)提升2.87个百分点,在金融去噪数据集BIRD-FinC上准确率49.06%,显著高于Zero-shot(31.13%)与DIN-SQL(47.17%) [14] - 在Spider-Dev与BIRD-Dev上的prompt token消耗仅为DIN-SQL的36%(4.6k vs 12.8k)与22%(4.7k vs 21.6k),效率提升源于动态获取必要信息的设计,无需输入全表列信息 [15] - 在仅使用2个示例的少样本设置下,Spider-Syn与Spider-Realistic数据集上的执行准确率分别达78.7%、80.7%,与依赖6-7个示例的基准方法性能接近,且在跨领域场景中泛化能力更优 [16] - 消融实验显示移除FindShortestPath工具后,在需4个及以上表关联的场景中,Spider-150与BIRD-150子集的执行准确率分别下降22个、12个百分点,证明该工具能有效降低LLM的多表关联推理负担 [17] 行业应用潜力 - 智能教育领域可适配"知识点-题库-学生答题记录"多表关联场景,教师通过自然语言查询(如"某知识点错题率Top3的班级")无需编写复杂SQL [18] - 企业数据分析场景能处理含数百列的业务宽表(如销售数据表),市场人员可快速查询"某季度某区域客单价变化",降低对数据分析师的依赖 [18] - 政务公开查询可简化数据查询流程,市民通过自然语言提问(如"查询某区2024年社保参保人数")即可获取精准结果 [18]
中康科技·天宫一号:完成对前沿大语言模型DeepSeek-V3.2-Exp的适配,持续深化开放的健康产业AI应用生态
格隆汇· 2025-10-11 02:03
公司战略与技术架构 - 公司核心战略为技术自主与生态开放并重 [1] - 公司技术体系基石为自主研发的“卓睦鸟”医疗大模型与“天宫一号”决策大模型构成的双核心驱动架构 [1] - 该双核心架构深度融合医学专业性与商业决策广域性,旨在确保在复杂多变的健康产业应用场景中的领先地位与专业壁垒 [1] 平台生态与模型适配 - 平台智能体生态采用“超市”与“工厂”相结合的模式 [2] - “超市”模式提供覆盖“医、药、患、管”全场景的标准化智能体产品,支持用户开箱即用以快速解决常见问题 [2] - “工厂”模式提供强大的智能体创作工具,支持客户根据自身独特业务流程自主编排,沉淀企业专属智能体资产,实现核心能力的长期锁定与持续进化 [2] - 完成对前沿大语言模型DeepSeek-V3.2-Exp的适配工作,此举极大地丰富了“工厂”模式下的“原材料”库 [1][2] - 企业构建专属智能体时,可根据具体任务的性能、成本和效率要求,自由组合调用“卓睦鸟”医疗大模型、“天宫一号”决策大模型以及DeepSeek等多种模型,以实现协同效应 [2]
开发智能康养机器人,「如身机器人」完成千万级天使++轮融资 | 早起看早期
36氪· 2025-10-10 23:57
打造通用型养老服务机器人 的窗口期已经到来。 文 | 海若镜 来源| 36氪(ID:wow36氪) 封面来源 | 企业官网 36氪获悉,康养具身智能公司"如身机器人"(RobotGym)近日获千万元级人民币天使++轮融资,由力合金融独家投资,资金主 要用于核心技术的持续迭代、产品工程化落地推进、养老场景规模化试点及市场前期布局。 当前,如身机器人已启动Pre-A轮融 资。 齐家Q1养老机器人 在养老院等机构,如身机器人团队发现,"能出门遛弯"是很多老人直接而强烈的需求之一,但因为护工配比不足,很多老人无法 自由外出。因此,具备自动导航、智能避障能力的移动辅助机器人,有望解放老人双腿,拓展其日常安全行动的半径。 同时,基于团队开发的多模态大模型,齐家养老机器人能与用户自然对话,为老人提供情感陪伴和生活助手,如提醒日常用药、 安排行程等。师云雷表示,作为一个新家庭终端,养老照护机器人可以成为一个平台,集成多种软件服务,比如帮助老人书写回 忆录;生成老人生活日报并发送给子女等家庭社交、健康管理功能。 如身机器人团队具备深厚的机器人研发与产业化背景,创始人及CEO师云雷师从德国国家工程院院士张建伟,核心团队成员来自 ...
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-10-10 23:32
自动驾驶VLA行业趋势 - 端到端技术之后,视觉语言动作模型成为学术界和工业界聚焦的核心方向,其提供类人思考能力并通过思维链形式展现车辆决策过程,以实现更可靠安全的自动驾驶能力[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案,主流自动驾驶企业及智驾方案供应商均在发力自研[4] 自动驾驶VLA技术核心 - 技术涉及视觉感知、大语言模型、Action建模、大模型部署及数据集制作等核心内容[6] - 最前沿算法包括思维链、混合专家模型、检索增强生成及强化学习等[6] - 模块化VLA强调多阶段流程,语言模型从被动场景描述演变为主动规划组件[16] - 一体化VLA直接连接动作解码器,实现感知到控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA趋势由解释转向长思维链推理、记忆和交互,新增推理模块并同步输出控制信号和自然语言解释[17] 行业应用与课程设计 - 课程由清华大学教研团队联合开展,包含自动驾驶VLA三个子领域前沿算法细致讲解及两个实战加一个课程大作业[6] - 课程大纲涵盖VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及大作业共六章[12][13][14][15][16][17][20] - 课程选取华科与小米提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等主流算法进行实战代码学习[16][19] - 课程进度安排自10月20日开始,预计两个半月结课,采用离线视频教学配合VIP群答疑及三次线上答疑模式[23]
用4.39亿方块在《我的世界》手搓一款ChatGPT?玩家又一次“整活”,还把游戏玩出了新高度!
猿大侠· 2025-10-10 04:11
项目概述 - 开发者在《我的世界》游戏中构建了一个名为CraftGPT的功能性语言模型,该项目在社交媒体引发广泛关注[1] - 该项目完全使用游戏内的红石电路搭建,未使用命令方块或数据包等辅助工具[14] - 整个建筑占地规模达长1020方块×高260方块×宽1656方块,总计使用约4.39亿个方块[9] 技术规格 - 模型参数量为5,087,280个,在TinyChat数据集上使用Python进行训练,内容为基础英语对话[15] - 模型架构包含6层网络,embedding维度为240,词汇表大小为1920个token[16] - 为节省计算资源,大部分权重被量化为8位,但embedding和LayerNorm的权重分别保留18位和24位精度[17] - 模型上下文窗口仅为64个token,处理能力有限[18] 运行性能 - 生成一次回复需要约两个小时,若在标准游戏环境中运行可能耗时10年以上[22] - 必须使用MCHPRS(Minecraft高性能红石服务器)才能实现合理运行速度[22] - 最低需要32GB内存的电脑,推荐64GB或更高配置[23] 行业意义 - 该项目展示了在游戏环境中实现复杂计算系统的技术可行性[25] - 此前《我的世界》社区已出现16位CPU、运行《毁灭战士》的IRIS电脑等红石创新项目[25][26] - 有玩家在游戏中构建完整CNN神经网络,还有用红石实现神经网络的项目[26][29] - 开发者曾用红石搭建1Hz CPU,本次项目进一步提升了创意天花板[33]
Nature子刊:山东大学张磊/赵国平团队开发AI大模型,用于发现抗菌肽,对抗多重耐药菌
生物世界· 2025-10-10 04:05
行业背景与核心问题 - 世界卫生组织(WHO)列出的最棘手、最常见的多重耐药菌(ESKAPE)名单中,耐碳青霉烯类鲍曼不动杆菌(CRAB)位居首位[2] - 碳青霉烯类抗生素是治疗失败时的“最后一道防线”,但极易受到抗生素耐药性影响[2] - 抗菌肽因其广谱活性、快速杀菌机制及诱导耐药性可能性较小,成为传统抗生素有前景的替代品[2] 研究突破与核心方法 - 山东大学研究团队于2025年10月3日在《Nature Microbiology》发表研究,提出了一种生成式人工智能方法用于发现针对多重耐药菌的新型抗菌肽[3][10] - 研究开发了一个预训练的蛋白质大语言模型——ProteoGPT,用于挖掘和生成新型抗菌肽[4] - 该模型通过迁移学习被赋予特定领域知识,能够对数亿种多肽序列进行快速筛选,确保强抗菌活性并最小化细胞毒性风险[7] - 该方法利用数据挖掘和文本生成策略,实现高效且安全的抗菌肽高通量发现[10] 技术原理与模型优势 - 通用大语言模型在处理科学数据(如蛋白质)时存在不足,针对科学领域定制的模型应运而生[6] - ProteoGPT被进一步开发成多个专业化子模型,构建了一个顺序流程,在统一框架内实现抗菌肽的高通量挖掘和生成[7] 实验验证与效果 - 在体外实验中,无论是挖掘筛选还是生成的抗菌肽,对从重症监护病房分离出的CRAB和耐甲氧西林金黄色葡萄球菌(MRSA)均表现出较低的耐药性发展易感性[8] - 在小鼠大腿感染的体内动物模型中,这些抗菌肽显示出与临床使用抗生素相当甚至更优的治疗效果[8] - 这些抗菌肽不会造成器官损伤和破坏肠道微生物群,其作用机制包括破坏细胞质膜和膜去极化[8]
用4.39亿方块在《我的世界》手搓一款ChatGPT?玩家又一次“整活”,还把游戏玩出了新高度
36氪· 2025-10-09 11:44
项目概述 - 开发者Sammyuri在《我的世界》游戏中构建了一个名为CraftGPT的功能性小型语言模型[4][5] - 该项目在游戏内占地面积巨大,长1020方块、高260方块、宽1656方块,总计使用了约4.39亿个方块[7] - 整个系统完全基于游戏内的红石电路搭建,未使用命令方块或数据包[13] 技术规格 - CraftGPT是一个拥有5,087,280个参数的小型语言模型[7][13] - 模型采用6层结构,embedding维度为240,词汇表大小为1920个token[13] - 大部分权重被量化为8位,但embedding和LayerNorm的权重分别保留了18位和24位的精度[14] - 模型使用Python在TinyChat数据集上训练,内容为基础英语对话[13] 系统组件 - 核心组件包括分词器、位置嵌入、词元嵌入、层归一化、240×240矩阵乘法器(4个)[12] - 其他关键部件包括多头注意力机制、键值缓存、960×240矩阵乘法器、修正线性单元[12] - 系统还包含240×960矩阵乘法器、第二层到第六层的循环处理、解嵌入矩阵乘法器等功能模块[12] 性能表现 - 模型上下文窗口非常小,仅能处理64个token的对话[14] - 生成一次回复需要等待数小时,在标准游戏设置下生成一次回复可能耗时10年以上[16] - 即使使用MCHPRS高性能红石服务器优化,生成一次回复仍可能需要几个小时[16] 运行要求 - 运行服务器至少需要32GB内存的电脑,推荐配置为64GB或更多[17] - 用户需要下载MCHPRS并设置plot scale为7,编译过程大约需要10分钟[17][18] - 运行时可使用-io参数启用优化编译,防止向玩家发送非输入/输出方块更新[17] 行业意义 - 该项目展示了在游戏环境中实现复杂计算系统的可能性,刷新了《我的世界》的创意天花板[20] - CraftGPT比GPT-1小约23倍,比GPT-3小175,000倍,但在有限资源下实现了AI功能[25] - 该项目被视为计算机领域令人佩服的成就,能力远超10年前开发的同类系统[25]
开发智能康养机器人,「如身机器人」完成千万级天使++轮融资 | 36氪首发
36氪· 2025-10-09 07:50
36氪获悉,康养具身智能公司「如身机器人」(RobotGym)近日获千万元级人民币天使++轮融资,由力合金融独家投资,资金主要用于核心技术的持续迭 代、产品工程化落地推进、养老场景规模化试点及市场前期布局。当前,如身机器人已启动Pre-A轮融资。 格物系列,主要面向居家康复场景,覆盖手部、上肢与下肢等全身康复训练;能够支持个性化康复训练计划,实时调节训练参数,查看训练报告等。该系列 产品相对轻量,已实现千台量产并出口至北美、欧洲、东南亚等市场。除了为公司带来持续现金流外,格物系列产品也是如身机器人深入康复场景、积累真 实世界数据和用户的触角。 数据积累,于具身智能的价值毋庸置疑。在师云雷看来,数据价值高度依赖于AI模型的架构,未来能够满足高级照护需求的AI模型,必然需要更多模态的 数据,比如触觉、力觉等现在尚未大规模采集的数据。因此如身机器人选择商业化先行,尽可能多地卖出产品,建立起能够快速、大规模采集多模态数据的 硬件网络,为未来技术迭代积累先机。 齐家系列,则直接切入当下养老刚需,尝试让智能机器人进入独居、半失能及失能老人的日常照护场景。基于深入调研,齐家Q1系列养老机器人的核心功 能被规划为三个层级模块 ...