大语言模型
搜索文档
吴恩达最新来信:是时候关注并行智能体了
量子位· 2025-08-29 11:37
并行智能体技术趋势 - 并行智能体通过多个agent协同处理任务提升AI效率 成为提升AI能力的新方向[1][3] - 传统AI能力提升依赖scaling law 通过更多数据和算力获得性能提升但输出结果时间长[4][6] - 并行agent方法在提升性能的同时减少用户等待时间 且因大语言模型token成本下降而更具可行性[8] 并行智能体应用场景 - 多个agent并行抓取分析网页可快速生成深度研究报告[7] - 多个agent协同处理代码库不同部分可加快编程任务完成速度[7] - 多个agent后台并行工作并由监督agent向用户反馈 实现并行异步控制[7] 技术实现与挑战 - 任务分解给多个智能体并行执行存在协调难度 类似人类复杂任务分配的挑战[9][10] - Code Monkeys论文通过并行生成多个轨迹生成多样化候选解决方案 提高编程问题解决效率[11][13] - Together Mixture Of Agents架构同时利用多个大语言模型提升性能 并可调整分层架构进一步优化[14][15] 发展前景 - 最优利用并行agent仍需大量研究与工程探索 高效并行工作的agent数量潜力巨大[18] - 技术发展具有历史延续性 2009年GPU并行计算已为深度学习时代奠定基础[19][20]
前OpenAI、DeepMind研究员领衔,50+位专家谈AI编程、Agent与具身智能,2025全球机器学习技术大会议程首发!
AI科技大本营· 2025-08-29 10:06
大会概况 - 2025全球机器学习技术大会将于10月16-17日在北京威斯汀酒店举行 汇聚50余位重量级嘉宾 聚焦AI从技术突破到产业落地的硬核攻坚战 [1][3] - 大会设置12大核心专题 包括大语言模型技术演进 智能体工程 多模态与世界模型 AI赋能软件研发 大模型应用开发 GenAI产品创新 具身智能 行业落地实践 开源模型与框架 大模型系统架构 AI基础设施及算力优化 [3] - 大会旨在穿透技术喧嚣 直击产业落地要害 提供AI全栈作战地图导航 [3][4] 智能体与多智能体系统 - 京东零售开源多智能体协作框架OxyGent 将工具 模型和智能体抽象为可插拔模块 支持开发者灵活组合构建高扩展性系统 具备全链路决策追溯能力 [37][38] - 智谱AI展示LLM Agent在软件工程领域的应用 使大语言模型能自主规划 调用工具并完成复杂任务 [55][57] 多模态大模型技术 - 理想汽车推出MindGPT-4o-Audio实时语音对话模型 实现全双工低延迟端到端交互 支持边听边说 语音知识问答 多角色高表现力生成及外部工具调用 [14] - 360人工智能研究院研发FG-CLIP模型 突破传统CLIP整体语义优先导致的细节缺失瓶颈 在保证高并发低延迟前提下显著提升图文对齐精度 [16][17][19] - 小红书应用多模态大模型于搜索业务 覆盖以图搜图 图片搜索 视频搜索及多模态AI搜索四大场景 并深入内容理解及RAG系统实践 [33] - 昆仑万维推出Skywork-r1v系列多模态思维链推理模型 实现文本推理能力向视觉任务迁移 r1v3模型推理速度提升6倍 MMMU达76.0 接近人类初级专家水平 [42] 大模型训练与部署优化 - 百度开源文心4.5系列大模型 分享ERNIEKit和FastDeploy在精调与高效推理中的技术突破 [25][27][29] - 清华大学研发端侧高效模型MiniCPM 通过稀疏注意力 UltraClean数据策略 BitCPM三值量化及CPM cu推理引擎 在端侧芯片实现5倍以上推理加速 [49] 计算机视觉与OCR技术 - 百度飞桨推出PaddleOCR 3.0系列 包括新一代通用文字识别模型PP-OCRv5 文档解析工具PP-StructureV3及OCR+LLM关键信息抽取方案PP-ChatOCRv4 [46] - 国星宇航分享AI视觉算法产品落地经验 涵盖从实验室原型到亿级用户产品的全周期研发 聚焦数据工程优化 模型轻量化部署及算法性能与用户体验平衡 [24] 自动驾驶与具身智能 - 驭势科技应用AI大模型突破L4级自动驾驶"99分困局" 推动多场景全天候真无人驾驶商业化落地 [61] - 网易伏羲机器人将具身智能技术应用于工程机械智能化 构建基于远控设备的具身智能数据闭环 开发端到端挖掘机自动装车模型 [53] AI安全与可靠性 - 中国电信研究院聚焦AI安全与治理 剖析大模型时代安全风险 伦理挑战及治理方案 [5][7][8][9] - 北京邮电大学研究不确定性建模 从校准方法 三类不确定性来源分析到消减策略 提升AI模型在复杂场景中的可靠性和安全性 [66][69] 嘉宾阵容 - 大会汇聚产学研顶尖力量 包括奇点智能研究院 清华大学 新浪微博 中国人民大学 群核科技 清程极智 哔哩哔哩 阿里淘天 腾讯混元 字节跳动 小红书 百度 智谱AI等机构专家 [73]
人工智能将为你预订假期,但暂时还不会帮你打扫厨房……
36氪· 2025-08-29 06:59
人工智能发展现状 - 尽管大语言模型已能自主对话和解决问题,但实现真实人类智能仍遥远 [1] - 过去五年AI领域进展显著,聊天机器人相互对话可开辟前所未有的商业前景 [1] - 当前AI仍难以精准复现基础人力工作,最先进模型也存在局限性 [1] 技术能力与局限 - AI通过对海量数据解析已能应对复杂问题并提供切实解决方案 [1] - 即便能数秒内解决博士级数学难题,仍无法完成最低时薪工人的基础劳动(如清理厨房) [4][6] - 技术演进存在悖论:功能飞速发展但质量参差不齐 [6] 商业应用机遇 - 生成式AI可节省工作时间并提升效率,尤其适用于创建演示文稿等基础任务 [3] - 大语言模型能挖掘企业非结构化数据价值(邮件/文档/会议记录等),使数据档案焕发新生 [3] - 三类AI助手具备阶梯式经济价值:客户服务助手(处理银行咨询)、自动化流程助手(度假方案预订)、协作型助手(优化申请流程) [4] 内容生成与创新潜力 - 大语言模型将催生全新内容,孵化难以想象的新业务与服务 [4] - 在创意工作领域可生成近乎无限的创意方案(如广告口号),虽质量不一但能激发人类创造力 [3] 实施关键要素 - 企业应用AI需确保高质量、连贯性且术语统一的输入数据 [4] - 需明确数据来源、呈现形式及跨部门输入标准一致性 [4] 潜在风险与缺陷 - 大语言模型常输出以假乱真的错误信息,因不了解事实真相而具有强误导性 [8] - 可能产生偏见与有害输出,难以识别看似无害但导致有害结果的请求 [8] - 训练数据引发版权与知识产权争议,暂无明确解决措施 [8] - 生成内容可能导致互联网内容污染,难以区分人类与机器生成内容 [8] - 存在隐私风险,需谨慎处理网上活动言论与训练数据的边界 [7] - 技术权力集中在少数科技巨头与政府机构,影响经济与民主健康运转 [8] 社会经济影响 - 生成式AI将替代可自动化的工作(写代码/重复性事务),造成就业困难 [8] - 下一代AI技术将毋庸置疑改变世界和工作方式,重点在于如何应用而非是否应用 [9]
传统SLAM的定位导航和具身目标导航有什么区别?
具身智能之心· 2025-08-29 00:03
目标驱动导航技术概述 - 具身导航的核心领域涉及语言理解、环境感知和路径规划三大技术支柱 [2] - 目标驱动导航是具身导航中最具代表性的方向 通过赋予机器人自主决策能力 [2] - 要求智能体在陌生三维环境中仅凭目标描述即可自主完成环境探索与路径规划 [2] 技术实现原理 - 系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁 [2] - 需自主完成语义解析 环境建模以及动态决策 [2] - 背后凝聚计算机视觉 强化学习与3D语义理解的交叉突破 [2] 产业化应用现状 - 在终端配送场景中与社交导航算法结合 使机器人具备应对动态环境和人际交互能力 [3] - 美团无人配送车通过动态路径重规划在复杂城市环境中执行递送任务 [3] - Starship Technologies的园区配送机器人已在欧美高校和社区部署 [3] - 医疗 酒店及餐饮场景中 嘉楠科技 云迹科技 擎朗智能的商用服务机器人已实现药品 文件和餐食的自主配送 [3] - 美国Aethon公司的TUG系列有效提升服务响应效率 [3] 人形机器人适配升级 - 宇树科技Unitree系列通过Habitat预训练完成基础导航任务 [3] - 智元机器人在工业场景中集成目标驱动导航模块 [3] - 特斯拉Optimus展示"取放电池"等端到端操作能力 [3] - 搭载目标驱动导航系统的人形机器人正加速向家庭服务 护理及工业物流领域渗透 [3] 技术发展历程 - 基于Habitat仿真的具身导航生态完整记录领域技术迭代轨迹 [4] - 自2020年CVPR提出点导航基准以来 评测体系逐步扩展至图像导航 目标导航及移动抓取任务 [4] - 形成覆盖空间认知到任务执行的闭环 [4] 关键技术突破 - 视觉预训练模型提升特征泛化能力 [4] - 分布式强化学习框架使PointNav任务SPL指标显著提升 [4] - 大语言模型通过跨模态对齐解决部分开放词汇导航难题 [4] 当前技术梯度 - PointNav和闭集ObjectNav接近人类表现 [4] - 开放词汇物体导航和动态障碍物场景仍面临重大挑战 [4] - Meta AI提出的Sim2Real迁移框架为仿真训练到真实部署提供方法论参考 [4] - CMU与Stanford等机构持续推动动态环境下的语义地图更新技术 [4] 第一代端到端方法 - 基于强化学习与模仿学习框架 [5] - 设计网络结构以对齐目标描述与实时观测 [5] - 优化奖励函数与监督信号设计加速模型收敛 [5] - 增强数据多样性以提升泛化能力 [5] - 在点导航与闭集图片导航任务中取得突破性进展 [5] - 部分方法的SPL指标已逼近人类表现 [5] 第二代模块化方法 - 通过显式构建语义地图将任务分解为自主探索与目标定位两个子任务 [7] - 探索阶段依赖先验导航规则生成候选路径 [7] - 匹配阶段利用预训练视觉语言模型实现跨模态语义对齐 [7] - 在零样本目标导航任务中展现显著优势 [7] - 在未见物体场景下成功率提升明显 [7] 第三代LLM/VLM融合方法 - 引入大语言模型的知识推理能力 [9] - 在探索阶段生成语义指导的探索策略 [9] - 通过视觉语言模型的跨模态对齐能力提升开放词汇目标匹配精度 [9] - 当前研究重点在于设计场景表征接口 [9] - 将3D环境特征转化为LLM可解析的上下文格式 [9] - 在开放词汇目标导航任务中实现对未知类别的有效识别 [9]
英伟达CEO:更先进AI模型将推动芯片与数据中心持续增长
搜狐财经· 2025-08-28 06:24
公司业绩与行业地位 - 英伟达上季度营收达到467亿美元 [2] - 公司是AI行业硬件供应商 被比喻为AI淘金热中的"锄头和铲子" [2] - 生成式AI行业呈现惊人增长且没有放缓迹象 [2] AI行业前景预测 - AI基础设施支出到本十年末可能达到3万亿至4万亿美元 [2] - 未来几年乃至整个十年都将看到非常重大的增长机会 [2] - 每一代AI技术的需求只会持续增长 [4] 技术发展与计算需求 - AI推理模型采用"长思考"技术 通过多网站研究 多次尝试和整合信息来提升答案质量 [3] - 推理模型可能需要比传统大语言模型多100倍或更多的计算能力 [3] - OpenAI将推理技术直接整合到GPT-5发布中 采用路由程序分配处理模型 [3] 基础设施需求与影响 - AI数据中心占用大量土地 消耗大量水和能源 [2] - 对周围社区产生重大影响 并对美国电网造成更大压力 [2] - 智能体系统和机器人模型进一步增加了对芯片 能源和数据中心土地的需求 [3]
理想汽车自研智驾芯片M100上车路测,部分计算性能超英伟达Thor-U!1颗M100所提供有效算力可对标3颗英伟达 Thor-U
格隆汇· 2025-08-28 05:17
自研芯片进展 - 理想汽车自研智驾芯片M100于今年一季度完成样片回片 迈过量产前关键阶段 [1] - M100在两周内完成功能测试和性能测试 并通过研发人员压力测试 [1] - 芯片已小批量上样车进行道路测试 目前处于实际应用验证阶段 [1] 芯片性能表现 - 处理大语言模型计算任务时 1颗M100有效算力相当于2颗英伟达Thor-U [1] - 处理卷积神经网络视觉任务时 1颗M100有效算力可对标3颗英伟达Thor-U [1] - 芯片在特定计算任务中展现出显著性能优势 尤其在传统图像识别领域 [1]
阿里巴巴和上汽热捧!这家独角兽要IPO了!
IPO日报· 2025-08-28 02:30
公司分拆与上市计划 - 阿里巴巴集团拟分拆旗下智能座舱解决方案提供商斑马网络并在香港联交所主板独立上市 [1] - 斑马网络已向港交所提交上市申请 拟通过全球发售方式进行 联合保荐人为德意志银行、中金公司、国泰君安国际 [1] - 分拆上市有助于更好反映斑马网络价值 提高运营及财务透明度 并使其能够独立进入资本市场融资 [18] 行业前景与市场规模 - 全球智能汽车销量预计从2024年5800万辆增长至2030年8650万辆 复合年增长率6.9% [5] - 中国智能汽车中大语言模型渗透率预计从2024年10%提升至2030年40% [5] - 中国智能座舱解决方案市场规模预计从2024年1290亿元增长至2030年3274亿元 复合年增长率16.8% [5] - 基于软件的座舱解决方案市场预计从2024年401亿元增至2030年1149亿元 复合年增长率19.2% [5] - 中国车载平台服务规模预计到2030年达147亿元 2024年至2030年复合增长率64.8% [5] 公司业务与技术优势 - 主要从事智能座舱解决方案开发 提供系统级OS解决方案、AI全栈端到端解决方案和车载平台服务 [4] - 按2024年收入计算是中国最大的以软件为核心的智能座舱解决方案供应商 按解决方案搭载量计算排名第一 [11] - 中国仅有的两家完全自研汽车操作系统的第三方供应商之一 [11] - 大语言模型能力在九家中国顶级汽车AI公司中排名第一 [11] - 车载平台服务涵盖180多个品类的座舱原生应用 覆盖范围在中国所有智能座舱提供商中最广 [12] 财务与运营数据 - 2022年至2024年营业收入分别为8.05亿元、8.72亿元和8.24亿元 2024年收入略有下滑 [6] - 2025年一季度实现营业收入1.36亿元 同比下滑19.53% [6] - 2022年至2024年净亏损8.78亿元、8.76亿元、8.47亿元 亏损幅度逐年收窄 [7] - 2025年一季度净亏损15.82亿元 同比增长6.75倍 [7] - 经营活动所用现金净额持续净流出 2022年至2024年分别为-5.85亿元、-4.17亿元、-4.87亿元 2025年一季度为-1.99亿元 [8] - 2022年至2024年研发费用分别为11.11亿元、11.23亿元和9.80亿元 占营收比例超过100% [13] - 截至2025年3月31日现金及现金等价物为3.22亿元 [14] 市场地位与成长性 - 搭载量从2022年83.5万台增长至2024年233.4万台 复合年增长率67.2% [11] - 截至2025年6月30日智能座舱解决方案已在60个主机厂的逾800万辆车上搭载 覆盖超过14个国家 [11] - 最新估值达220亿元 市销率约26.7倍 显著高于德赛西威的3倍和华阳集团的3.8倍 [14] 股东背景与客户关系 - 阿里巴巴通过多家子公司拥有斑马网络已发行股本总额约44.72%份额 控制40.17%投票权 [17] - 上汽集团通过上海赛为及嘉兴瑞佳拥有约34.34%份额和37.16%投票权 [17] - 2022年至2024年来自前五大客户收入占比始终在90%左右 [17] - 最大客户上汽带来的收入累计达12.38亿元 2022年至2024年占比分别为54.7%、47.4%、38.8% [17] - 阿里巴巴是最大供应商 报告期内累计采购额达7.7亿元 采购占比超50% [17] 融资历程与估值 - 2018年完成由阿里巴巴领投的16亿元融资 投后估值突破60亿元 [12] - 完成六轮融资累计融资额超过百亿元 [12] - 2023年9月最新一轮融资投后估值达220亿元(约30亿美元) [12] - 以220亿元估值位列《2025全球独角兽榜》全球第331位 [13]
理想汽车智驾方案MindVLA方案详解
自动驾驶之心· 2025-08-27 23:33
文章核心观点 - 理想汽车推出MindVLA自动驾驶框架 通过整合空间智能模块、语言智能模块、动作策略模块和强化学习模块 构建端到端自动驾驶系统 其核心技术包括自监督3D高斯编码器预训练、定制化大语言模型设计以及基于扩散模型和人类反馈的轨迹生成方案 显著提升自动驾驶系统的空间理解能力、交互博弈能力和人类偏好对齐能力[3][5][9] 空间智能模块 - 采用3D高斯编码器处理多模态传感器数据 提取时空特征并融合语义信息形成统一表征[5] - 传统BEV方法存在高度信息压缩导致细节丢失 稀疏查询可能忽略关键环境细节 密集体素表示计算开销大[8] - GaussianAD框架用均匀高斯序列初始化3D场景 通过4D稀疏卷积实现高斯交互 支持稀疏体素特征预测和目标检测[12][20] - 高斯表示通过多视角图像优化高斯参数 生成稀疏3D语义高斯集合 每个单元描述局部几何和语义属性 减少冗余计算同时保留细粒度结构[16] 语言智能模块 - 嵌入式部署大语言模型MindGP 支持空间与语言联合推理 实现语音指令和反馈的人车交互功能[5] - 基于互联网多模态数据训练的通用LLM缺乏3D空间理解能力 需从零开始预训练适合自动驾驶场景的基座模型[18] - 采用稀疏化设计减少模型容量 通过MoE+SparseAttention结构平衡参数量与推理速率 实现10HZ实时推理性能[27] - 训练数据配比重构 增加3D场景数据和自动驾驶图文数据比例 降低文史类数据占比[27] 动作策略模块 - 使用扩散模型生成车辆未来行为轨迹 引入噪声引导扩散过程以产生多样化动作规划[5] - 扩散策略将action token解码为自车、他车和行人轨迹 提升复杂交通环境下的博弈能力[22] - 采用多层DIT结构 基于ODE采样器加速生成过程 在2-3步内完成稳定轨迹生成[28] - 通过人类反馈驱动的强化学习微调 对齐专业驾驶员行为 提高安全驾驶下限[28] 强化学习模块 - 使用World Model模拟外部环境响应评估行为后果 奖励模型提供偏好或安全性评估 可能采用RLHF技术[5] - 通过闭环学习根据行为轨迹进行持续优化和泛化[5] - TrajHF框架结合扩散策略生成多样化候选轨迹 通过RLHF微调对齐人类偏好 同时用行为克隆损失保留基础驾驶能力[26][28] - 偏好数据自动构建通过人类接管数据识别六类驾驶风格 关键帧标注实现大规模自动注释[33] 技术实现细节 - 感知任务采用高斯编码器块 包含自编码模块促进高斯交互、图像交叉关注模块聚合视觉信息、细化模块微调高斯属性[17] - 预测与规划端到端训练 结合未来高斯流和占用情况优化轨迹 最小化碰撞风险与轨迹偏差[20] - 支持多任务监督包括3D检测、语义地图、运动预测和占用预测 通过损失函数联合优化[20] - 推理系统采用双模式:CoT生成加速使用小词表+投机推理 action token生成采用并行解码方式[27]
【私募调研记录】睿郡资产调研盈康生命、海通发展等3只个股(附名单)
证券之星· 2025-08-27 00:07
盈康生命调研要点 - 公司参与投资设立天津天开优达海河佰盈股权投资基金合伙企业[1] - 盈康一生旗下AI平台盈康大脑及数智化产品接入DeepSeek-R1大语言模型[1] - 结合AI诊断技术升级高端三维数字乳腺机图像处理技术并通过AI图像智能分析[1] 海通发展经营与财务表现 - 2025年上半年实现营收18亿元同比增长6.74%但归母净利润下滑64%至0.87亿元主要受市场运价下降及修船影响[1] - 有息负债12.21亿元有息负债率19.59%未来财务费用随业务增长温和上涨[1] - 当前阶段更多留存收益投入运力扩张未来提高现金分红比例[1] 海通发展战略与市场展望 - 计划到2028-2029年自有运力达100艘每年新增约15艘涵盖多种船型[1] - 对下半年及未来几年干散货市场保持乐观供需两端有利因素支持[1] - 公司看好重吊船市场需求提升运输货种多样性及竞争力[1] 五矿新能经营与技术进展 - 二季度盈利主要因市场商务环境改善及产品产能利用率提升[2] - 除部分特殊型号产品前驱体外购外其余前驱体均由子公司生产供应[2] - 与中科大马教授团队合作研发高镍材料与卤化物电池匹配的固态电池技术[2] 五矿新能产品与资本管理 - 磷酸铁锂产品以动力电池领域为主要应用方向并在储能领域开展技术布局[2] - 可转债转股事宜董事会将根据实际情况决策目前公司偿债能力良好[2]
理想汽车MoE+Sparse Attention高效结构解析
自动驾驶之心· 2025-08-26 23:32
理想汽车智驾技术架构 - 公司采用"MoE + Sparse Attention"高效结构解决大模型部署时的推理效率问题,通过混合专家架构实现模型容量扩容而不显著增加推理负担[3] - MindGPT大语言模型经过重新设计与预训练,具备3D空间理解和推理能力,但参数量增加导致端侧部署可能出现效率低下问题[3] - 该技术方案针对英伟达Thor-U智驾芯片优化,确保在车载计算平台上的实际应用性能[3] 稀疏注意力机制技术细节 - 采用局部窗口(Local Attention)与跳跃连接(Strided Attention)组合结构,每个token关注附近窗口内token(如前后2个位置)以及步长为s的远端token[9][10] - 注意力矩阵呈现对角线局部连接与分布条纹状跳跃连接相结合的模式,保证token能快速传播到远端同时保留局部建模能力[10][15][16] - 通过构建稀疏注意力mask实现计算优化,在不修改Transformer主体结构前提下限制注意力机制复杂度,仅关注关键输入部分[6][12][14] 混合专家架构实现方案 - 使用8个专家网络(E1-E8),由Router动态选择激活部分专家而非全部,仅在需要时调用相关子模型[6][22] - 采用Top-k路由策略(通常k=2),通过Gate模块计算输入样本对各个专家的偏好程度并选择最优专家[24][32] - 支持分布式部署模式,通过all_to_all通信机制实现跨GPU的专家网络数据交换与负载均衡[34][37] 计算复杂度优化 - 稀疏注意力机制显著降低计算复杂度,相比标准全连接Self-Attention大幅减少计算量[17] - MoE架构通过激活部分专家网络实现计算资源动态分配,在不增加推理成本前提下扩大模型容量[22][25] - 采用专家并行(Expert Parallelism)技术,支持多GPU分布式训练与推理,提升系统整体效率[28][31]