大语言模型

搜索文档
ChatGPT,救了我的命
虎嗅· 2025-06-28 05:51
ChatGPT在户外导航中的应用 - ChatGPT成功引导迷路的ATV骑行者安全返回,通过接收GPS坐标提供清晰的指南针指示、道路名称和地形信息 [2][3] - 多模态大语言模型(如ChatGPT 4o)能够解读户外场景图片并回答指路问题,例如通过识别地标和空间关系准确描述目标位置 [7][9] - 在GeoGuessr游戏中,AI仅凭图片细节推理就能实现准确的地点辨识,但存在被用户上下文信息误导的幻觉问题 [10][11] 技术优化与研究成果 - 通过设计提示词(如让模型回答"我不知道")可减少AI在导航任务中的幻觉现象,提高可靠性 [12] - 大语言模型结合语义地形成本网格和经典路径规划算法(如A*、RRT),能将路径规划效率提高66%到87% [18] - 发表在arXiv的研究表明,优化后的提示词可帮助大语言模型在复杂地形中生成更可靠的导航路径 [13][15] 技术局限性 - AI导航依赖大量训练数据和地图数据库,在无人区或数据不完备区域可能失效或产生错误判断 [16] - 真实复杂环境下AI的幻觉问题可能导致严重误判,需谨慎依赖 [17][19] - 当前技术仅支持简单的户外微型导航任务(如方向指引),无法完全替代专业导航工具 [15][19]
航空发动机用上大模型:解决复杂时序问题,性能超越ChatGPT-4o实现SOTA|上交创智复旦
量子位· 2025-06-28 04:42
核心观点 - ITFormer是一种高效、可迁移的时序-语言桥接架构,将专家诊断过程抽象为"理解、感知、推理、决策"四个认知层次,并首次系统性地定义为"时序问答"任务范式[3] - ITFormer以模块化设计实现了时序数据与大语言模型的高效融合,仅需训练不足1%的额外参数,便可在通用时序问答数据集上表现出优越的性能和良好的迁移能力[3] - ITFormer在EngineMT-QA数据集上预训练后性能大幅提升,在全部五项任务上均达到SOTA水平,其中"因果分析"准确率高达0.83[4] - ITFormer展现了卓越的"即插即用"特性,可无缝适配多种时序编码器和大语言模型[3][28] 技术难点 - 高维数据的语义提取:单个时序样本可包含数万个数值(如32通道×600时间步),如何从中提取出有效的语义特征是首要难题[6] - 抽象语义的对齐建模:时序信号的模式变化与物理系统的状态转换之间的对应关系高度抽象,难以直接建模[6] - 多尺度时间依赖的处理:时序数据中的关键信息可能分布在不同的时间尺度上,模型必须具备处理多尺度依赖的能力[7] ITFormer架构与关键模块 - 时间令牌位置编码(TPE):在时间步、通道和时序片段三个层次上进行位置编码,确保模型能区分不同时间点、不同传感器以及不同数据段的语义信息[12] - 可学习指令令牌(LIT):在文本查询前添加一组可学习的令牌,通过自注意力机制从自然语言查询中自动捕获并浓缩任务相关的语义信息[13] - 指令时间注意力(ITA):通过通道指令融合和时间指令注意力两阶段过程实现跨模态对齐,显著提升计算效率[14][16] - 时间令牌即语言(TAL):将ITA融合后的时序特征向量直接视为语言令牌,无缝嵌入到LLM的输入序列中[15] EngineMT-QA数据集设计 - 基于真实的工业应用场景设计,任务层次反映了专家处理时序数据的认知过程,包含理解、感知、推理、决策四个层次[19][20] - 数据规模:包含超过11万对高质量问答数据,源于NASA N-CMAPSS标准数据集[20] - 数据维度:覆盖32个传感器通道,每个样本包含600个时间步[20] 性能表现 - 在EngineMT-QA数据集上,ITFormer-7B在"推理"任务上的准确率达到88.69,在"决策"任务上的BLEU得分为38.68,全面超越ChatGPT-4o、Gemini等基线[22][23] - 消融实验表明,TPE对模型性能的提升最为关键,ITA与TPE的结合能够产生显著的协同效应[24][25] - 在TimeSeriesExam基准测试中,ITFormer在"因果分析"任务上的准确率达到0.83,优于GPT-4o和Gemini-Pro[29][30][31] 应用前景 - ITFormer及EngineMT-QA为时序AI社区提供了新的研究范式和宝贵资源,在工程和科学领域均具有广阔的应用前景[33] - ITFormer的架构设计兼顾了高性能与高效率,为大规模实时应用提供了可能[32]
DeepSeek-R2为什么还没发?
量子位· 2025-06-27 08:09
DeepSeek-R2项目延期原因 - 核心观点:DeepSeek-R2因CEO对模型表现不满及算力资源短缺导致多次延期[1][2] - 研发受阻主因包括:英伟达H20芯片供应不足(R1训练消耗3万块H20、1万块H800和1万块H100)[3][4] 技术迭代与市场预期 - V3-0324版本升级被实测证实性能显著提升,引发市场对R2的早期预期(2023年12月V3发布后即开始酝酿)[5][6][7] - R1模型基于V3-Base架构开发,强化了V3与R系列的技术关联性[8][9] - 4月DeepSeek联合清华发布SPCT论文,提出通过在线RL优化奖励模型的方法,但未直接推动R2发布[12][13][14] 时间线与关键事件 - 原预期节奏:参照R1在V3发布1个月后上线,市场推测R2将于2024年4月面世[11] - 实际进展:4月仅泄露参数(传1.2T参数、5.2PB数据),5月发布解决硬件瓶颈的论文及R1-0528版本(LiveCodeBench表现接近OpenAI o3-high)[17][20][21][23][24] 行业反馈与技术推测 - 用户对延期态度分化:部分认为"值得等待",部分推测需等待V4版本发布[28][30] - 当前技术瓶颈:V3可能已达性能极限,需新一代基础模型支撑R2开发[31][32]
今年大火的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-26 14:19
目标驱动导航技术概述 - 具身导航涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航是其最具代表性的方向,要求智能体在陌生环境中仅凭目标描述自主完成探索与路径规划[2] - 与传统视觉语言导航不同,目标驱动导航需实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁,涉及语义解析、环境建模和动态决策能力[2] 产业化落地现状 - 终端配送场景中,美团无人配送车通过动态路径重规划在复杂城市环境执行任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署[3] - 医疗/酒店/餐饮场景中,嘉楠科技、云迹科技、擎朗智能的商用服务机器人及美国Aethon的TUG系列实现药品、文件和餐食自主配送[3] - 人形机器人领域,宇树科技Unitree系列通过Habitat预训练完成基础导航,智元机器人集成目标导航模块,特斯拉Optimus展示端到端操作能力[3] 技术发展代际 - 第一代端到端方法:基于强化学习与模仿学习,在PointNav和闭集图片导航任务中SPL指标逼近人类表现[5] - 第二代模块化方法:通过显式构建语义地图分解任务,在零样本ObjectNav任务中未见物体场景成功率显著提升[5] - 第三代LLM/VLM融合方法:利用大语言模型生成语义指导策略,视觉语言模型提升开放词汇匹配精度,当前重点为设计场景表征接口[7] Habitat仿真生态 - 2020年CVPR提出PointNav基准后,评测体系扩展至ImageNav、ObjectNav及移动抓取任务,形成技术闭环[4] - 视觉预训练模型提升特征泛化能力,DDPPO框架使PointNav任务SPL指标显著提升,LLM解决部分开放词汇导航难题[4] - Meta AI的Sim2Real迁移框架为仿真到真实部署提供方法论,CMU与Stanford推动动态环境语义地图更新技术[4] 技术挑战与课程设计 - 学习路径需整合自然语言处理、计算机视觉、强化学习和场景图知识,面临论文碎片化与实战闭环缺失的挑战[9] - 课程覆盖三代技术演进路径(端到端/模块化/LLM融合),包含Habitat仿真生态解析及VLFM算法复现等实战环节[15][16][24] - 学员将掌握零样本导航、开放词汇识别等关键技术,理解Sim2Real部署流程,具备论文级算法改进能力[31]
张亚勤:未来电车品牌可能出现整合,2030年将有10%新车具备 L4 级自动驾驶能力
搜狐财经· 2025-06-26 10:04
自动驾驶技术进展 - 自动驾驶领域即将迎来"DeepSeek时刻",去年和今年具有里程碑意义,机器人出租车取得重大进展 [2] - 自动驾驶技术始于十年前,已吸引数百亿美元投资,机器人出租车在旧金山、洛杉矶、奥斯汀、东京等地进行商业化尝试 [2] - 百度Apollo Go系统在武汉试运营成功,超过一千辆车覆盖整个城市,文远知行等中国公司也在该领域发力 [2] - 预计到2025年底,自动驾驶技术将在武汉等复杂城市环境中展现成熟、安全且经过验证的运营能力 [2] 安全与经济效益 - 自动驾驶核心目标之一是提升安全性,目标是比人类驾驶安全十倍或减少90%事故,目前90%交通事故由人为错误导致 [3] - 另一核心目标是变革车辆经济性,人类驾驶员成本占自动出租车总成本约60%,去掉驾驶员后运行经济性有望提升至少两倍 [3] - 目前业务规模已扩展到约150亿美元投资 [3] 生成式AI与大模型的作用 - 生成式AI和大语言模型帮助自动驾驶解决海量数据处理与理解问题,可模拟罕见场景生成大量训练数据 [3] - 借助深度学习和大模型,可构建端到端决策模型,简化大部分规则,迭代速度大大加快,视觉模型和行动模型仍是挑战 [3] 未来预测与行业趋势 - 预计到2030年,新车出货量中10%将具备L4级自动驾驶能力,服务于自动驾驶出租车和消费者市场 [4] - 电动汽车生态系统逐步成熟,但仍需完善充电基础设施和竞争规则,未来电动汽车品牌可能出现整合 [4]
如何做到在手机上实时跑3D真人数字人?MNN-TaoAvatar开源了!
机器之心· 2025-06-25 00:46
技术概述 - TaoAvatar是阿里巴巴淘宝Meta技术团队研发的3D真人数字人技术,支持手机和XR设备上的实时渲染与AI对话[1] - 该技术基于3D高斯泼溅技术,能通过多视角视频输入快速生成高逼真度数字人形象,精准捕捉面部表情、手势动作及衣物细节[8] - 已在中国三维视觉大会上入选"最佳演示Demo候选",并宣布开源3D数字人应用MNN-TaoAvatar[2][9] 核心技术 - 采用3D高斯泼溅技术实现全身互动式数字人解决方案,显著降低建模成本并提高效率[8][9] - 集成语音识别(ASR)、大语言模型(LLM)、语音合成(TTS)和数字人渲染(NNR)等核心模块[11] - 支持端侧实时对话与渲染,ASR模型RTF优化至0.18,TTS模型RTF优化至0.58,A2BS模型RTF优化至0.34[16][17][18] - 自主研发NNR渲染器实现25万点云模型60FPS流畅渲染[18] 性能优势 - 在骁龙8 Elite芯片手机上实现端侧运行,ASR模型281.65M,LLM模型838.74M,TTS模型1.34GB[16] - MNN-LLM在骁龙8 Gen3芯片上预填充速度达165 tokens/s,解码速度41.16 tokens/s[16] - 相比云端方案,可在手机端完成所有算法处理,无需高端显卡支持[13][14] 架构优化 - 采用StyleUnet+MLP混合建模降低计算成本,动态高斯点云技术提升渲染稳定性[50] - 数据同步优化实现GPU内存直接读取,免去数据拷贝时间[40] - 调度优化引入"Dirty机制",仅处理变化数据,将部分模型运行频率降至20fps[41] - 模型量化技术将Qwen2.5-1.5B模型从5.58GB压缩至1.2GB[31] 应用部署 - 推荐配置为骁龙8 Gen3或同级CPU,8GB内存,5GB存储空间[51] - 单个数字人ID存储空间控制在100-200MB,25万高斯点云为最佳平衡点[46] - 支持Android和iOS平台,已开源在GitHub供开发者体验[2][52]
具身领域的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-24 14:09
目标驱动导航技术概述 - 具身导航是具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱,目标驱动导航通过赋予机器人自主决策能力成为最具代表性的方向[2] - 目标驱动导航要求智能体在陌生三维环境中仅凭目标描述(坐标、图片、自然语言)自主完成环境探索与路径规划,实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁[2] - 该技术已在终端配送、医疗、酒店及餐饮场景实现产业化落地,如美团无人配送车、Starship Technologies园区机器人、嘉楠科技服务机器人等[3] 技术发展历程 - 第一代端到端方法基于强化学习与模仿学习框架,在点导航与闭集图片导航任务中SPL指标逼近人类表现[5] - 第二代模块化方法通过显式构建语义地图,在零样本目标导航任务中展现显著优势,未见物体场景成功率提升明显[5] - 第三代LLM/VLM融合方法引入大语言模型知识推理能力,重点解决开放词汇目标导航中的未知类别识别难题[7][8] 产业应用现状 - 人形机器人领域加速渗透目标驱动导航技术,宇树科技Unitree系列、智元机器人、特斯拉Optimus均展示相关能力[3] - 医疗场景中美国Aethon公司TUG系列实现药品自主配送,云迹科技与擎朗智能的商用机器人提升服务响应效率[3] - 社交导航算法使配送机器人具备动态环境应对能力,美团无人车与Starship Technologies产品已在城市与园区部署[3] 技术生态与评测体系 - Habitat仿真生态完整记录领域技术迭代轨迹,评测体系从点导航扩展至图像导航、目标导航及移动抓取任务[4] - 视觉预训练模型提升特征泛化能力,分布式强化学习框架使PointNav任务SPL指标显著提升[4] - Meta AI提出的Sim2Real迁移框架为仿真训练到真实部署提供方法论参考[4] 技术挑战与突破 - 当前PointNav和闭集ObjectNav接近人类表现,但开放词汇物体导航和动态障碍物场景仍面临重大挑战[4] - CMU与Stanford等机构推动动态环境下的语义地图更新技术,领域研究正从仿真优化转向实际部署[4] - 大语言模型通过跨模态对齐解决部分开放词汇导航难题,3D特征编码方法持续优化[23]
一文读懂美国AI之战--“科技五巨头”与“AI三小龙”的战争
硬AI· 2025-06-24 12:28
美国AI军备竞赛格局 - 美国科技行业正经历前所未有的人工智能军备竞赛 传统科技巨头与新兴AI公司竞争格局重新洗牌 [2] - Meta展开疯狂人才争夺战 扎克伯格亲自联系数百名研究人员 单个人才薪酬高达1亿美元 [2] - 传统科技巨头与AI新贵博弈直接影响各自核心商业模式 谷歌搜索业务受威胁 苹果AI作为设备体验补充工具 [2] 苹果AI战略分析 - 苹果在AI领域表现令人失望 Apple Intelligence项目遭遇重大挫折 模型和产品未达前沿水平 [4] - 苹果核心业务未受AI直接威胁 消费者仍需在iPhone/Mac上使用第三方AI应用 [4] - 苹果应效仿微软策略 深化与OpenAI合作 专注于为AI时代构建最佳硬件 包括Apple Watch等AI驱动设备 [5] 谷歌AI优劣势 - 谷歌AI基础设施世界领先 实现从芯片到模型完全整合 Gemini模型在视频生成领域领先 [7] - 谷歌拥有数据优势 Veo视频生成工具可利用YouTube资源 大语言模型受益于网络索引领先地位 [7] - AI对谷歌核心搜索业务构成颠覆性威胁 公司正通过AI搜索概览改善体验 将AI转化为增强工具 [7] Meta战略定位 - Meta核心战略定位稳固 个性化内容和生成式广告可增强社交媒体业务 AI是VR/AR投资回报关键 [8] - Meta争夺稀缺注意力资源 大语言模型消耗大量注意力 对Meta威胁程度不亚于谷歌 [8] - Meta在AI方面缺乏明确方向 扎克伯格对生成式AI影响业务的思考不够成熟 [8] 微软竞争态势 - 微软与OpenAI关系紧张 OpenAI威胁提起反垄断投诉 但微软仍拥有Azure独家优势 [10] - 微软应加深与其他模型提供商关系 考虑投资xAI帮助其继续追求AI模型前沿发展 [10] 亚马逊后发优势 - AI对亚马逊所有业务均非颠覆性 AWS使用量增加 Amazon.com受益于AI产品推荐 [12] - AWS与Anthropic合作关系比微软-OpenAI更稳定 Anthropic缺乏强大消费者业务 [12] AI"三小龙"竞争策略 - OpenAI主导消费级AI市场 ChatGPT成功使其成为"意外消费科技公司" 与微软苹果存在根本冲突 [14] - Anthropic专注开发者群体 编程策略带来强大API收入流 与亚马逊合作关系更稳定 [14] - xAI处境最艰难 坚持自有基础设施成为负担 应积极寻求微软投资 [15]
夏季达沃斯论坛解读发展中国家发展之道
中国新闻网· 2025-06-24 12:08
发展中国家发展路径 - 工业化转型和技术创新是发展中国家谋求发展的关键,新兴经济体与发展中经济体GDP占全球份额达58 9% [1] - 工业化是发展中国家实现富裕的必经之路,但面临实践难题,越南等国难以完全效仿中国路径 [1] - 发展中国家需探索未经验证的方法,因全球化环境变化导致传统路径受阻 [1] 技术创新与工业化 - 工业化未来集中在创新技术领域,中国在该领域进行了大量投资 [2] - 中国大语言模型DeepSeek证明无需巨额资金即可研发,为中小型国家提供机会 [2] - 技术来源多元化是未来趋势,需通过国际交流学习运用外来技术 [2] 市场与技术合作 - 国家不应依赖单一进口市场,需与多地区建立联系以降低风险 [2] - 安哥拉案例显示,技术合作和人才培养对有效运用外来技术至关重要 [2]
赞同科技携金融科技成果亮相2025中国国际金融展
搜狐财经· 2025-06-24 09:20
展会概况 - 2025中国国际金融展在上海世博展览馆举办,主题为"开放创新,科技赋能,共创金融新未来",汇聚400余家国内外金融机构、科技企业及行业组织 [1] 赞同科技创新成果 - 公司与华为、中兴联合推出基于大语言模型驱动的多用途业务轻终端方案,支持平板与终端模式切换,覆盖网点全量业务范围,颠覆传统服务模式 [1] - 轻终端采用大语言模型技术,实现业务自主串接与辅助办理,提升处理效率和智能化水平,推出"赞同智言银行解决方案" [1] - 展示基于HarmonyOS 5.0的手机银行产品,融合鸿蒙原子服务等原生能力,支持用户通过自然语言指令完成业务办理 [3] 行业影响与评价 - 公司创新成果获业界高度评价,参观者对产品表现出浓厚兴趣,体验其便捷性与高效性 [4] - 公司计划持续推出自主知识产权的金融科技产品,推动行业技术发展,提升服务安全性、便捷性和智能化水平 [4]