大语言模型(LLM)

搜索文档
领域驱动的 RAG:基于分布式所有权构建精准的企业知识系统
搜狐财经· 2025-05-22 13:37
公司背景与挑战 - 公司在银行技术领域拥有超过30年行业经验,是领军供应商,通过战略性收购不断扩大业务 [1] - 公司面临庞大产品线中保持文档一致性与时效性的挑战,部分模块存在文档不清晰或内容过时的问题 [1] - 领域专家的宝贵专业知识分散且孤立,难以被系统地整合和获取 [1] RAG技术的探索与应用 - 公司探索使用检索增强生成(RAG)技术来提升事实查找的准确性和效率 [2] - RAG系统能够访问庞大的数据源,提供准确且高效的答案,支持多种语言 [2] - 目前基于大语言模型(LLM)的技术存在准确度低和模型容易出现"幻觉"的问题 [2] - 公司将AI定义为咨询工具,顾问负责过滤、验证和修改AI生成的输出 [3] 知识所有权与领域专家 - 公司重新分配销售工程团队对RAG实施的所有权,指定专门的领域所有者来负责监督RAG系统的集成和微调 [3] - 领域所有者的任务是确保RAG系统能够无缝对接其团队的独特需求,同时保证响应的准确性 [3] - 领域专家负责设计、测试和优化系统提示词,以确保RAG系统能够准确理解查询 [4] 元数据策略 - 公司采用基于元数据的方法来生成RAG文档,领域专家评审和编辑大模型的输出内容 [5][6] - 元数据包含领域常用的关键词,如三字母缩写、内部项目名称或旧名称 [6] - 元数据是RAG应用中组织和提供上下文信息的核心,帮助用户理解系统响应的范围和背景 [6] RAG系统的实现与架构 - 公司使用Flask构建了一个标准的Web应用,具备身份验证机制、错误处理能力和响应式用户界面 [10] - RAG应用基于分布式RAG系统,由各领域所有者管理专属的知识模型 [10] - 知识模型由四个核心组成部分构成:文档的向量存储、元数据、系统提示词和UML图 [10] 查询路径与UML增强 - 公司实现了三种查询路径:自动选择模式、手动选择模式和全部搜索模式 [13][14] - 公司整合了UML图可视化功能,用户可以通过交互式图表探索组件之间的关系 [16] - UML文件包含了描述性文本属性,成为大语言模型有价值的输入来源 [16] 性能评估与关键发现 - 分类器准确率为81.7%,响应精确度(分类模型)为97.4%,响应精确度(所有模型)为83.8% [22] - 专家引导的答案恢复率为63.4%,表明人类专家在复杂问答系统中的重要性 [23][26] - 专门模型优于全面查询,分类质量对答案质量有显著影响 [24] 结论与展望 - 提升分类器的准确性能够显著提高答案质量,建议采用混合策略 [28] - 公司通过分布式所有权模型、基于元数据的查询路由和增强的UML知识库,打造了一个高效的知识管理系统 [29] - 初步结果令人振奋,销售工程师和领域专家对系统的反馈积极 [29]
中金 | 大模型系列(3):主动投研LLM应用手册
中金点睛· 2025-05-15 23:32
核心观点 - 大语言模型(LLM)在主动投资领域具有变革性潜力,能够解决信息过载问题,提升投研效率和深度 [1][8] - LLM在信息获取与处理、深度分析与挖掘、策略生成与验证三个核心环节展现出强大应用价值 [3][4][5] - 人机协作是LLM在主动投资领域最现实且最具价值的应用模式,需要投研人员掌握Prompt Engineering等新技能 [9][10] 信息获取与处理 - LLM能够自动化市场信息跟踪,实时抓取多源数据并生成结构化摘要,提升信息处理效率 [3][13] - 在分析师报告聚合与对比方面,LLM可自动解析不同格式研报,提取关键信息并识别市场共识与分歧点 [3][29][30] - 对于上市公司业绩电话会纪要,LLM能快速处理会议内容,提取财务更新、战略重点等关键信息 [3][31][32] 深度分析与挖掘 - LLM能够量化文本情绪,识别细微情感变化,并绘制情绪变化曲线,为投资决策提供独特视角 [4][38] - 在组合分析与风险识别方面,LLM可提供基于实时事件和非结构化信息的风险分析,增强风险管理前瞻性 [4][39] - LLM能够分析组合持仓相关的重大新闻、行业动态等文本信息,为传统量化归因模型提供补充解释 [4] 策略生成与验证 - LLM在基本面因子挖掘方面具有思路广度、逻辑自洽和高度可定制化三大优势 [5][45] - LLM能显著降低策略回测门槛,将自然语言描述的投资策略自动转化为可执行代码 [5][46] - 通过自然语言到代码的转换,LLM加速了投资方法的验证与优化过程 [5] 应用前景 - LLM适合执行大规模数据处理和初步分析,而人类在目标设定、逻辑构建等方面具有优势 [6] - 构建高效的人机协作模式是LLM大规模成功应用的前提 [6] - 投研人员需要发展Prompt Engineering等新能力来充分利用LLM的潜力 [9][10]
一个极具争议的开源项目,「微信克隆人」火了!
菜鸟教程· 2025-05-15 08:33
WeClone项目核心功能 - 支持通过微信聊天记录微调大语言模型(LLM),捕捉用户语言习惯和表达方式,基于LoRA框架支持0.5B-7B规模模型如ChatGLM3-6B、Qwen2.5-7B等 [12] - 模型训练需约16GB显存,满足小样本低资源场景,训练效率高 [13] - 语音克隆模块通过0.5B参数模型和5秒语音样本实现95%相似度的声音克隆,基于Tacotron或WavLM模型 [15] - 支持多平台部署至微信/QQ/Telegram等,通过AstrBot框架实现实时对话 [16] 技术实现路径 - **数据预处理**:微信CSV/SQLite转为JSON格式,清洗敏感信息并保留时间戳,提供禁用词过滤功能 [20][27] - **模型微调**:采用ChatGLM3-6B基础模型,LoRA框架减少可训练参数,支持单机/多卡分布式训练 [20][21][36] - **部署方案**:FastAPI/Flask打包模型,支持GPU/CPU混合部署,自定义参数配置 [22][37] 应用场景 - 个人助理定制:自动回复消息、处理邮件等事务 [17] - 内容创作:生成特定风格文本如推文/脚本,支持多账号运营 [17] - 数字永生:创建个人或他人的永久数字分身 [18] 安装与训练流程 - 环境依赖Python 3.9,推荐使用uv管理环境,需安装16GB显存GPU [23][24] - 数据准备需通过PyWxDump解密微信数据库,导出CSV至指定目录 [26] - 训练参数可调整batch_size/epochs等,单卡训练示例loss值3.5(2万条数据) [34][36] - 推理支持浏览器demo或API接口测试,部署需配置AstrBot服务 [37][40] 模型获取 - 优先从Hugging Face下载ChatGLM3模型,备选魔搭社区需替换modeling_chatglm.py文件 [29][32]
高盛:中国数据中心 - 2025 年第一季度展望 - 增长前景不变;估值调整后仍建议买入万国数据(GDS)和网宿科技(VNET)
高盛· 2025-05-13 05:39
报告行业投资评级 - 维持对 GDS ADR/H 股的买入评级,12 个月目标价为 42 美元/41 港元,有 65%/61%的上涨空间;维持对 VNET 的买入评级,12 个月目标价为 13 美元,有 118%的上涨空间;对 Sinnet 维持卖出评级,12 个月目标价为 10.5 元人民币,有 28%的下跌空间 [1][8] 报告的核心观点 - 预计中国数据中心行业整体利用率将从 2024 年的约 60%提高到 2026 年的 70%以上,但供应紧张和供应过剩并存 [20] - 国内芯片和大语言模型/云的最新发展将在中期带来更可持续的批发数据中心需求,并在短期内扭转零售数据中心需求 [37] - GDS 和 VNET 的最新融资进展使其有足够现金满足 2025 年资本支出需求 [7] - 预计 GDS 和 VNET 一季度营收和 EBITDA 与市场共识数据基本一致,并维持全年营收、EBITDA 和资本支出指引不变 [1][59] 根据相关目录分别进行总结 1. 中国数据中心最新供需动态 - 预计行业整体利用率从 2024 年的约 60%提高到 2026 年的 70%以上,2024 - 2027 年需求复合年增长率为 21%,供应复合年增长率为 14% [20][22][23] - 供应紧张和供应过剩并存,包括低质量零售数据中心利用率低、AI 适用的批发数据中心供应有限、分散计算能力过剩以及国产芯片暂时未充分利用等问题 [36] 2. 人工智能最新发展对中国数据中心的影响 - 美国人工智能法规动态,对中国大陆数据中心无增量影响,对海外数据中心需关注新监管动态 [37] - 客户可能增加国产芯片采购以满足 AI 需求,国内芯片和基础设施的增加将满足云超大规模企业的 AI 投资需求并推动数据中心需求 [37][38] - 中国大语言模型发展迅速,AI 推理需求贡献大幅增加,将带来更可持续的批发数据中心需求和零售数据中心需求的潜在扭转 [41] 3. 最新融资进展及海外融资预期 - GDS 完成 ABS 发行并上市,公共 REIT 待进一步反馈,融资使其有 43 亿元人民币现金满足 2025 年资本支出需求 [51][50] - VNET 完成预 REIT 项目,私人 REIT(ABS)项目获批,发行 4.3 亿美元可转换优先票据,预计未来 1 - 2 年以国内银行贷款为主要融资方式,有 100 - 120 亿元人民币现金满足 2025 年资本支出需求 [55][50] 4. GDS/VNET 即将公布的 2025 年第一季度业绩关注点 - 预计 GDS 和 VNET 一季度营收和 EBITDA 与市场共识数据基本一致,并维持全年营收、EBITDA 和资本支出指引不变 [1][59] - 关注过去几个月的新订单获取情况、数据中心入驻率、管理层对需求、下游芯片供应/国产芯片能力和扩张计划的展望,以及 DayOne 的扩张进展 [2][59] 5. 各公司具体情况 GDS Holdings - 预计 2025 年第一季度营收同比增长 16%至 28 亿元人民币,调整后 EBITDA 同比增长 18%至 13 亿元人民币;全年营收 115 亿元人民币,调整后 EBITDA 57 亿元人民币 [60] - 上调 2025 - 2027 年营收和 EBITDA 预测,预计 2025 年利用率达到 76%,净债务/调整后 EBITDA 比率到 2028 年降至 5.2 倍 [65][70] - 12 个月目标价上调至 42 美元/41 港元,基于 SOTP 估值,维持买入评级 [66] VNET Group - 预计 2025 年第一季度营收同比增长 18%至 22 亿元人民币,调整后 EBITDA 同比增长 13%至 6.1 亿元人民币;全年营收 93 亿元人民币,调整后 EBITDA 28 亿元人民币 [61] - 维持营收/调整后 EBITDA 预测基本不变,12 个月目标价调整为 13 美元,基于 12 倍 2026 年 EBITDA 的目标 EV/EBITDA 倍数,维持买入评级 [83] Sinnet Technology - 2025 年第一季度营收同比下降 7%至 18.3 亿元人民币,净利润同比下降 58%至 5900 万元人民币 [62] - 下调 2025 - 2027 年营收和净利润预测,12 个月目标价下调至 10.5 元人民币,维持卖出评级 [89][90]
AI也需要"记笔记":Karpathy从Claude 1.6万字提示词中看到的未来
歸藏的AI工具箱· 2025-05-12 08:28
系统提示词对比分析 - Claude的系统提示词长达16,739个单词,远高于OpenAI的ChatGPT中o4-mini系统提示的2,218个单词(仅为Claude的13%)[2][3] - Claude的提示词包含大量非结构化修改痕迹,疑似针对热点事件或问题修复的临时补丁,维护复杂度高[5] - 提示词中工具定义占比最高,详细规定了14个MCP工具的使用规范(如谷歌Drive搜索说明超1700字),其次是用户偏好和风格指引[8] 大语言模型学习范式革新 - 当前LLM主要依赖预训练(获取广泛知识)和微调(优化行为习惯),均需调整模型参数[9] - Karpathy提出"系统提示学习"新范式:类比人类通过显式笔记总结经验,而非直接改写大脑参数[10] - 理想状态下模型应自动生成/优化提示词,但当前Claude提示词仍完全由人工编写,效率低下[10][18] 系统提示学习的潜在价值 - 优势包括:更高维的数据利用(通过显式复盘吸收反馈)、更强的任务泛化能力[19] - 可能解决LLM现存痛点:如《记忆碎片》式依赖参数记忆,缺乏外部备忘录机制[12] - 需攻克技术难点:自动编辑提示词算法、提示编辑系统的自学习机制、显式知识向参数习惯的转化[20] 提示工程实践启示 - 结构化指令效果更优:Claude提示词使用列表/格式/示例,明确工具调用规则和用户交互边界[8][15] - 精准指令胜于模糊表达,需具体说明需求与限制条件(如知识截止日期、诗歌创作规范)[8][14] - 提示工程本质是沟通技巧延伸,非高深技术,普通用户可通过学习Claude提示词提升效果[16][17] 行业资源链接 - Karpathy推文探讨系统提示学习[21] - 第三方网页解析Claude提示词内容与结构[21]
马来西亚,下一个全球数据中心霸主?
财富FORTUNE· 2025-05-09 13:03
马来西亚柔佛州即将建成的"探索新城"办公楼的内部设计效果图。图片来源:Courtesy of ZA 19世纪40年代,新加坡的华人先民横渡柔佛海峡(Johor Strait),在马来西亚柔佛州的原始丛林中披荆 斩棘,建立起绵延不绝的黑胡椒种植园。20世纪的英国殖民时期,这些胡椒农场逐渐被广袤的橡胶林与 油棕榈园所取代。如今,在同一片土地上,柔佛州正在悉心培育数字时代的新型经济作物——为缓解全 球算力饥渴而建设的人工智能数据中心群。 柔佛的数据中心建设狂潮,与当年改种胡椒的产业转型如出一辙,根源都在新加坡的资源瓶颈。这个城 邦国家虽然贵为东南亚的数字中枢,却连水电供给都依赖进口。2019年,因为庞然巨物般的数据中心不 仅消耗大量水资源,更消耗了新加坡7%的电力,政府不得不叫停新建项目。投资方与运营商旋即跨海 而来,在土地成本优势显著、能源供给充沛,以及矢志助推数字经济发展的马来西亚落子布局。 而柔佛跻身数据中心重镇的另一关键推力,在于全球算力争夺战的白热化。尽管新加坡在2022年1月已 经放开数据中心禁令,但岁末ChatGPT的震撼问世引爆全球人工智能基础设施需求,也在马来西亚掀起 新一轮的投资狂潮。房地产咨询 ...
苹果谷歌“闹分手”?iPhone搜索或转投AI,高管揭秘
36氪· 2025-05-08 23:59
苹果与谷歌合作裂痕 - 苹果正在积极考虑彻底改造Safari浏览器 重点转向AI驱动的搜索引擎 [1] - 苹果与谷歌持续二十年的战略合作关系出现裂痕 可能被迫解除价值约200亿美元/年的默认搜索引擎协议 [1][4] - 苹果互联网软件和服务部门高级副总裁埃迪·库在美国司法部起诉谷歌母公司Alphabet的案件中作证披露相关信息 [1] AI对传统搜索引擎的冲击 - Safari搜索量上月首次下滑 因AI工具吸引了部分用户 [2] - OpenAI Perplexity AI和Anthropic等AI搜索提供商可能取代谷歌搜索等传统搜索引擎 [2] - 苹果未来会将这些AI搜索选项引入Safari 已与Perplexity进行磋商 [2] - 2024年第四季度谷歌在全球搜索市场的份额自2015年以来首次跌破90% [10] - ChatGPT已有每周5亿活跃用户 25年3月网站访问量达39亿次 [10] 苹果的战略调整 - 苹果在iOS 18 Apple Intelligence组件中加入ChatGPT之前曾与谷歌进行竞标 但最终选择OpenAI [7] - 苹果目前已在Siri数字助理中提供ChatGPT选项 预计今年晚些时候加入谷歌Gemini [9] - 与OpenAI的协议允许苹果在操作系统中添加其他AI服务商 包括苹果自研产品 [9] - 苹果评估了Anthropic Perplexity 中国深度求索及马斯克xAI的Grok等AI服务商 [9] 财务影响 - Alphabet股价周三暴跌7.3% 创2月以来最大跌幅 苹果股价也下跌1.1% [4] - 苹果服务部门3月季度创下266亿美元收入纪录 但搜索合作破裂可能导致收入损失 [7] - 埃迪·库坦言因可能失去谷歌协议分成收入而失眠 认为当前协议仍是财务条件最优惠的安排 [7] 行业变革趋势 - 埃迪·库认为技术变革速度之快 可能几年后人们使用的设备都将不同 [8] - 十年后可能不再需要iPhone AI为新入局者创造机遇 [8] - AI公司需改进搜索索引才能提升竞争力 但其显著优越的其他功能会吸引用户转向 [9] - 搜索引擎的AI转向势不可挡 新入局者正以全新方式解决问题 [10]
GPT-4o医学知识覆盖率仅55%?腾讯优图团队发布大模型医疗能力“体检报告”
量子位· 2025-04-30 04:10
医疗大模型知识覆盖度评估框架MedKGEval - 腾讯优图实验室天衍研究中心提出MedKGEval框架,首次通过医疗知识图谱(KG)的多层级评估系统量化GPT-4o等主流模型的医学知识覆盖度,该研究被WWW 2025会议录用为口头报告[1][2] - 当前主流评估体系(如Prompt-CBLUE、Medbench)存在三大局限:罕见病症覆盖不足、难以量化知识储量、无法捕捉医学概念间复杂关联[5] - MedKGEval创新性设计三级评估体系:实体层(医学概念理解)、关系层(医学关联区分)、子图层(结构化推理),通过真伪判断和多选题形式实现任务导向与知识导向的双重评测[6][7][11] 评估任务架构设计 - 实体层面包含3项任务:实体类型标注(ET)、实体聚类(EC)、实体消歧(ED),验证模型对"糖尿病"等医学概念的分类与等价性判断能力[11] - 关系层面包含3项任务:关系类型标注(RT)、事实核验(FC)、关系预测(RP),检验模型对"并发症"等医学关联的认知[11] - 子图层面包含3项任务:错误识别(ER)、子图推理(R1/R2),评估模型在多跳关系(如"高血压→并发症→脑出血→影像检查→CT")中的结构化推理能力[11] 实验数据与模型表现 - 采用中文医疗知识图谱CPubMedKG和CMeKG作为基准,评估11个LLM(含开源通用模型、医疗垂类模型、闭源模型)[15][16] - GPT-4o以70.65%平均准确率领先,参数量翻倍可使同架构模型性能提升3-5%,通用模型整体表现优于医疗垂类模型[16] - 知识覆盖度方面,GPT-4o在CPubMedKG上覆盖65.66%实体、55.60%关系、62.31%三元组,Qwen2-7B和Baichuan2-13B分别达到61.95%和62.05%的三元组覆盖率[17][18] 关键发现与应用价值 - 模型对高关联度实体(如糖尿病)和高频关系(如鉴别诊断)表现更优,例如GPT-4o在"超声"实体相关问答中正确率达94.16%[19][24] - 框架可精准定位知识缺陷,如WiNGPT在"肺结核"实体、Baichuan2-13B在"相关(转换)"关系中存在明显短板,建议针对性补充专项数据优化[20][25] - 该研究为医疗领域LLM的可靠性验证提供量化依据,代码已开源(GitHub地址)[21][22][23]
评论 || 舱驾一体化下的几点思考
中国汽车报网· 2025-04-27 05:45
舱驾一体化趋势 - 汽车行业正从以驾驶员为核心的传统模式向以用户体验为中心的智能模式转型 [2] - 驾驶域与座舱功能域深度融合成为行业热点话题 [2] - 传统汽车控制系统存在功能模块分割明显、跨域协作困难的问题 [2] - 驾驶系统与座舱系统在架构和技术路径上差异大导致用户体验割裂 [2] 技术实现路径 - AI技术特别是大语言模型(LLM)推动驾驶与座舱域协同 [2] - 需构建以中央智能大脑为核心的整车架构实现跨域协作和数据共享 [2] - 中央智能大脑需具备空间理解能力和多维数据分析能力 [3] - 系统需实现毫秒级响应以平衡用户体验与驾驶安全 [3] 行业挑战 - 舱驾一体化需要对底层架构、数据融合、用户交互逻辑进行系统性重构 [3] - 产业生态面临用户画像构建、个性化推荐效果提升等现实问题 [3] - 需解决跨域协作中的信息延迟安全风险和各智能体模块协同挑战 [3] - 当前商业化进程未达标 多数功能处于技术验证或初步应用阶段 [4] 市场现状 - 车企存在过度营销舱驾一体化概念的现象 [4] - 行业宣传超前于实际技术成熟度 功能未达到无缝协同要求 [4] - 需更多关注技术稳定性、可行性和用户真实需求 [4] 发展核心 - 舱驾一体化的本质是为用户创造价值而非技术炫技 [4] - 需实现从功能堆叠向体验融合的跨越式升级 [4] - 最终目标是提升用户满意度和出行安全性 [4]
具身智能 “成长”的三大烦恼
21世纪经济报道· 2025-04-24 13:07
人形机器人产业化进展 - 人形机器人产业化进展飞速,从春晚表演到半程马拉松赛事引发广泛关注[1] - 具身智能技术突破是关键,大语言模型(LLM)、视觉语言模型(VLM)和视觉语言动作端到端模型(VLA)显著提升交互感知和泛化能力[1] - 行业面临数据采集、机器人形态应用和大小脑融合等挑战[1] 具身智能发展阶段 - 具身智能概念1950年提出,近年成为科技热点,被定义为能理解、推理并与物理世界互动的智能系统[2] - 当前具身智能模型已具备小范围场景行为复现能力,但力触动作和多指协同仍困难[3] - 泛化能力主要来自视觉语言模型,动作轨迹缺乏泛化性,依赖训练数据[3] 数据采集解决方案 - 行业面临三维数据采集难度大、周期长、成本高的问题[3] - 跨维智能采用3D生成式AI的Sim2Real仿真解决数据需求[4] - 智元机器人采用真机数据采集模式,年完成亿级数据采集,发布GO-1模型实现小样本泛化[4] 机器人形态发展 - 机器人发展经历工业自动化、大模型和端到端大模型三个阶段,不同架构各有优势[6] - 端到端大模型融合多模态输入与动作输出,提升决策效率,加速人形机器人发展[6] - 人形机器人不等于具身智能,但仍是最大需求者和挑战者[7] 非人形机器人应用 - 非人形机器人在垂直领域更具效率优势,如跨维智能DexVerse引擎在30余行业批量应用,精度超99.9%[8] - 中间态机器人(轮式、双臂等)可在工业、应急等场景承担任务,为具身智能公司提供营收[7] 大小脑融合技术 - 通用人形机器人本体分大脑、小脑和肢体三部分,独立系统导致通讯延迟[9] - 英特尔和东土科技提出大小脑融合方案,采用单一芯片架构降低成本[9][10] - 大小脑融合面临实时控制(1毫秒内完成99%任务)和动态计算负载等挑战[10] 技术路线融合趋势 - 厂商技术路线分化,有的聚焦大脑(场景化落地),有的专注小脑(高精度运动控制)[12] - 市场需求将推动两种技术路线融合,要求机器人兼具智能交互和灵活动作能力[12]