RAG

搜索文档
具身领域的大模型基础部分,都在这里了......
具身智能之心· 2025-09-20 16:03
随着具身和自驾领域的发展,基于大模型方案的各类算法层出不穷,占据了各大工作的头条。我们也收到 了很多具身领域同学的诉求,希望把大模型相关内容汇总学习下,学习大模型也是适应大趋势的必然。 『大模型之心Tech知识星球』目前集视频 + 图文 + 学习路线 + 问答 + 求职交流为一体,是一个综合类的大 模型社区。旨在为大家打造一个交流+技术分享的社区,是许多初学者和进阶的同学经常逛的地方。 国内最全的大模型技术栈社区:大模型之心Tech 社区创建的出发点是给大家提供一个大模型相关的技术交流平台,交流学术、应用和工程上的问题。星球 内部的嘉宾正在快速扩张中,我们邀请了来自国内外知名高校实验室、大模型/互联网相关的头部公司,其 中高校和科研机构包括但不限于:上交、清华、北京大学、上海人工智能实验室、港科大、港大等等!公 司包括但不限于阿里千问、美团LongCat、深度求索DeepSeek、字节豆包、百度文心一言、月之暗面Kimi等 等。未来我们会打造一个大模型的前沿技术聚集地~ 我们为大家汇总了大模型全栈学习路线图,包括但不限于: | RAG学习路线 | AI Agent学习路线 | 多模态大模型学习路线 | | - ...
但我还是想说:建议个人和小团队不要碰大模型训练!
自动驾驶之心· 2025-09-20 16:03
这个暴论需要叠加很多buff,但我想说的确实就是这个标题。也算是和大家对齐一下认知。 这个暴论自然引申出一个问题: 不训练大模型怎么办? 为什么不要微调?因为没有模型的原始数据配比,更有可能原始的训练数据都没有,微调之后极有可能损失掉大 部分的性能。 那如果开源模型在特定领域的效果非常差,怎么办? 如果是很垂类的领域模型,可以先试试RAG,不行就试试In-context Learning,在上下文中,教LLM一些领域知 识。能尝试的低成本方案都尝试后,再考虑垂类领域模型的微调训练! 一些实际使用过程中的经验,将最需要脑子的任务交给o1系列模型,比较需要脑子的任务,交给4o这一梯队的 模型。 除了付费的模型,还可以考虑国产的大模型,点名表扬DeepSeek、豆包、Qwen等等开源大模型。 这其实就是Agentic AI的思路。 如果你的业务在上面的方案中都跑不通,那么自己训练模型大概率也是白瞎。大模型时代,基础模型能力的每一 次提升,都算是一次地球Online的版本更新。 距离大厂基座模型团队之外的AI人,需要先了解现有LLM的性能边界,敏锐的分辨出现有模型能力和过去方案 的差异,能否给当前的业务带来新的变化, ...
真的花了好久才汇总的大模型技术路线......
具身智能之心· 2025-09-16 00:03
大模型技术发展趋势 - 大模型已成为推动社会生产的重要工具,广泛应用于日常办公、自动驾驶、具身智能和AIGC生成等领域 [2] - 大模型产业正经历技术普惠化、应用垂直化和生态开源化的深度变革 [2] - RAG和AI Agent技术成为AI从业者核心竞争力,相关岗位需求旺盛且算法岗位年薪领先行业 [2] 技术社区建设 - 创建了集视频、图文、学习路线、问答和求职交流为一体的综合型大模型社区 [2] - 社区已邀请40+来自国内外知名高校和头部企业的专家,包括上交、清华、北大、上海AI实验室、港科大、阿里、美团、深度求索、字节、百度和月之暗面等机构 [4][66] - 社区提供学术进展追踪、工业应用交流、求职对接和行业机会挖掘等服务 [7] RAG技术体系 - 提供完整的RAG学习路线,包括Graph RAG、Knowledge-Oriented RAG、Reasoning RAG等子领域 [4][9] - 汇总了最新综述、开源仓库和BenchMark,涵盖RAG在视觉理解和AIGC中的应用 [11][12][14][16][18][21][23] - 包含个性化RAG工作汇总和专业技术资料,适合从入门到进阶的系统性学习 [4][11] AI Agent技术体系 - 详细解析AI Agent核心技术,包括前沿综述、强化学习、多模态应用和通讯协议 [25][27][29][31][32] - 汇总基座Agent、自进化Agent和Multi-Agent的最新研究成果 [34][36][38] - 提供Agent评测框架和开源工具链,覆盖工业界与学术界需求 [4] 多模态大模型训练 - 涵盖多模态大模型(MLLM)和视觉语言模型(VLM)的训练方法,包括微调、RLHF和MoE技术 [40][44][45][47][49][50] - 汇总开源数据集和提示适配器学习方案,支持3D世界应用开发 [42][51][53] - 持续扩展强化学习与模型优化模块,满足科研和工业落地需求 [40] 模型量化与部署 - 提供大模型量化、推理和部署的完整技术方案 [55][56] - 涵盖参数优化、推理加速和部署实践,助力模型高效落地 [58][60][62] - 扩展社区内容至工程应用领域,满足开发者对模型部署的需求 [56] 社区发展计划 - 计划邀请国内外顶尖学术界和工业界专家进行直播分享,内容可回放 [64] - 持续扩展专家网络,打造大模型前沿技术聚集地 [66] - 提供独家岗位招聘信息,赋能社区成员职业发展 [67]
RAG 的概念很糟糕,让大家忽略了应用构建中最关键的问题
Founder Park· 2025-09-14 04:43
文章核心观点 - Chroma创始人Jeff Huber批判RAG概念 认为其将检索、生成、结合硬性拼接导致概念混淆 且市场过度简化RAG为向量搜索[5][6][7] - 提出Context Engineering是AI应用构建的核心 通过动态管理上下文窗口内容提升模型性能[4][7][8] - 指出LLM存在Context Rot现象:随着Token数量增加 模型注意力分散且推理能力下降[5][8][13] - 强调未来检索系统将向持续检索和Embedding空间内操作演进[5][41][48] Context Engineering定义与价值 - Context Engineering属于AI工程学子领域 核心任务是在每一步生成时动态决定上下文窗口内容[7] - 包含内外双循环机制:内循环单次生成选择内容 外循环随时间积累优化信息选择策略[7] - 被视作头部AI初创公司核心能力 在聊天、文档等静态场景中尤为重要[4][9] - 与Agent概念存在交叉但无需刻意区分 因Agent定义尚不明确[9][10][12] RAG概念批判 - RAG本质仅为检索 其概念包装导致开发者困惑[5][6][7] - 市场对RAG存在误解 简化为单一向量搜索操作[5][7] - Chroma团队主动避免使用RAG术语[6] Context Rot现象分析 - LLM性能随Token数量增加而衰减 模型遵循指令能力下降[8][13][16] - 在SWE-Bench等多轮交互数据集中发现Token膨胀导致指令遗漏[13] - 实验室常选择性宣传基准测试结果 回避模型缺陷披露[14][15] - 不同模型衰减程度差异显著:Sonnet 4表现最佳 Qwen3次之 GPT-4.1和Gemini Flash衰减更快[16] Context Engineering技术实践 - 当前主流做法仍将全部内容塞入上下文窗口[23] - 采用两阶段检索优化:首阶段通过向量/全文/元数据过滤将候选从数万缩减至数百 第二阶段用大模型重排选出最终30个片段[25] - 重排成本极低:100万输入Token成本约0.01美元 因使用轻量模型[25] - 大模型重排将成趋势 专用重排模型可能边缘化[26][27] 多工具协同检索 - 索引本质是写入性能与查询性能的权衡[29] - 代码搜索中85%-90%查询适用正则表达式 Embedding可额外提升5%-15%效果[37][38] - Chroma原生支持正则搜索并优化大数据量性能 新增forking功能实现毫秒级索引复制[30][31] - 工具选择取决于用户熟悉度:已知名称时全文搜索高效 语义模糊时需Embedding匹配[34][35][36] 未来检索系统演进 - 检索将持续停留在潜在空间 避免返回自然语言[40][41] - 从"检索-生成"单次交互转向生成过程实时检索[41] - 需解决技术约束:检索器冻结或语言模型无法更新导致体验差[42] - GPU内存分页等硬件优化是5-10年方向[48] 记忆与Context Engineering关联 - 记忆本质是Context Engineering的结果 核心是将合适信息放入上下文窗口[50][53] - 生成式记忆与提示式记忆依赖相同数据源和反馈信号[53] - 避免过度类比人类记忆类型 强调压缩技术实用性[56][58][59] - 离线处理与再索引有价值 可通过后台计算优化系统[59][61] 生成式基准测试方法论 - 构建黄金数据集(查询-片段对)可量化评估检索策略[61][62] - 大模型可自动生成查询-片段对 解决人工标注不一致问题[63] - 小规模高质量数据集(数百条)即产生高回报 无需百万级数据[64][65] - 建议团队通过标注派对快速构建基准数据[65][66] Chroma产品定位 - 核心为解决AI应用从Demo到生产的工程化难题[69][70] - 定位为现代AI搜索基础设施 专注检索引擎构建[72][74] - 云产品采用无服务器架构 实现30秒建库、按实际使用量计费[82][83][84][86] - 免费额度支持10万文档导入和10万次查询[86][87] 搜索系统特性演进 - 现代性体现在分布式架构:读写分离、存储计算分离、Rust编写、租户模式[74] - AI搜索四维差异:工具技术、工作负载、开发者群体、结果消费群体[76] - 语言模型可消化数量级多于人类的信息 直接影响系统设计[76] 创业理念与设计哲学 - 创业需聚焦热爱领域 与优秀团队服务目标客户[90] - 设计体现文化一致性 创始人需作为品味把关人防止品牌分裂[98][99][100] - 信奉"做事方式即一切方式"原则 保持全环节体验统一[98][99]
宇树科技官宣IPO后王兴兴首次发声:我最后悔的是以前没有学AI;甲骨文与OpenAI签署3000亿美元的算力协议丨AIGC日报
创业邦· 2025-09-12 00:12
腾讯优图实验室开源技术进展 - 腾讯优图实验室于9月11日开源全新图检索增强生成框架Youtu-GraphRAG 该框架采用大语言模型与RAG结合模式 通过知识图谱提升复杂问答任务精准度和可追溯性 适用于企业知识库 科研文档及私域管理等知识密集型场景 [2] 宇树科技AI与机器人融合战略 - 宇树科技创始人王兴兴在外滩大会表示AI在创作领域已超越99.99%人类 但实际应用仍处早期阶段 其透露2011年因AI冷门未深入钻研 现借大模型发展推动AI与机器人结合实现落地应用 [2] - 宇树科技近期宣布IPO计划 创始人首次公开探讨大模型时代机器人产业机遇与挑战 [2] 美国加州AI监管立法动态 - 加州众议院于9月10日通过SB 243法案 要求AI聊天机器人运营商实施安全协议 若未达标准将追究公司法律责任 该法案获两党支持 将于本周五参议院最终投票 预计2026年1月生效 成为全美首例相关立法 [3] 甲骨文与OpenAI算力合作 - OpenAI与甲骨文签署价值3000亿美元算力协议 合约期约五年 需4.5吉瓦电力容量 创云服务合同规模历史纪录 [4] 行业活动与数据资源 - 创业邦开启2025早期AI创新先锋50强招募 入选者可直面200余家投资机构 [2] - 睿兽分析会员提供AI 汽车 智能制造等行业日报 图谱及报告资源 覆盖17万+投资价值企业 5077家国家高新技术企业及10万+基金数据 [4][6] - AIGC垂直赛道产业日报可通过扫码订阅 含1400家独角兽企业及专精特新小巨人企业标签体系 [5][6]
0.3B,谷歌开源新模型,手机断网也能跑,0.2GB内存就够用
36氪· 2025-09-05 07:14
产品发布与核心特性 - 谷歌开源全新开放式嵌入模型EmbeddingGemma 拥有3.08亿个参数 专为端侧AI设计 支持在笔记本和手机等设备上部署检索增强生成(RAG)和语义搜索应用 [2] - 模型能生成隐私性良好的高质量嵌入向量 断网情况下可正常运行 性能接近尺寸翻倍的Qwen-Embedding-0.6B模型 [2] - 基于Gemma 3架构打造 针对100多种语言训练 量化后内存占用低于200MB [3] 技术性能与基准测试 - 在MTEB基准测试中 成为500MB以下开放式多语言文本嵌入模型中排名最高的模型 [3] - 在多项测试中全面超越同尺寸gte-multilingual-base模型:平均任务得分61.15(vs 58.24) 检索得分62.49(vs 56.50) 分类得分60.90(vs 57.17) 聚类得分51.17(vs 44.33) [10][11] - 性能接近595M参数的Qwen-Embedding-0.6B模型 后者平均任务得分64.34 检索得分64.65 分类得分66.83 聚类得分52.33 [10][11] 架构设计与优化技术 - 采用Matryoshka表征学习技术 支持输出768维、512维、256维和128维等多种嵌入尺寸 平衡质量与效率 [12] - 通过量化感知训练将RAM使用量降至200MB以下 在EdgeTPU上实现256个输入token的推理时间小于15毫秒 [12] - 模型参数包含约100M模型参数和200M嵌入参数 总参数量308M [12] 应用场景与集成生态 - 支持端侧RAG应用 能理解语言细微差别 提升检索相关文档的准确性 避免生成不准确答案 [6][8][9] - 与主流工具深度集成 包括sentence-transformers、llama.cpp、MLX、Ollama、LangChain等开发框架 [5] - 支持离线隐私保护应用:本地文件搜索、离线聊天机器人、移动智能体函数调用分类等 [13] 行业影响与发展前景 - 模型小巧高效 提供可自定义输出尺寸和2K令牌上下文窗口 为移动RAG管道和语义搜索解锁新用例 [5] - 标志着谷歌在小型化、多语言和端侧AI领域取得新突破 推动端侧智能普及 [15]
程序员的行情跌到谷底了。。
猿大侠· 2025-09-04 04:11
AI技术对程序员就业市场的影响 - 传统技术岗位要求发生显著变化 招聘方开始关注RAG Agent和微调等AI技能 [1] - AI技术冲击下 原有技术优势价值下降 但结合AI能力可提升竞争力 [1] - 电商后端开发人员通过接入大模型推荐系统实现30%薪资增长 [1] 大模型应用开发核心技能 - RAG技术适用于需要持续更新知识的场景 无需针对特定任务重新训练大模型 [6] - Function Call通过运行特定功能代码块增强处理能力 集成外部工具提升交互性 [6] - Agent技术是关键量变到质变指标 智能客服成为企业级项目首选应用场景 [4] 实战培训课程内容 - 课程涵盖技术原理 实战项目和就业指导三大模块 [2] - 2节直播课展示RAG和Fine-tuning技术改善大语言模型使用的实践方法 [3] - 解析从GPT到最火开源模型的技术架构 剖析AI技术应用场景 [3][4] 职业发展路径 - 掌握5个核心开发步骤:大模型原理→AI工具掌握→产品开发实操→前沿信息链接→实战演练 [8] - 通过金融行业支小助和知乎直答等热门产品拆解积累实战经验 [8] - 项目经验可直接写入简历 获得大厂内推机会直达面试官 [17][19] 市场机会与需求 - AI应用落地需求增加 掌握现有技术与AI结合能力者更具优势 [1] - 企业级Agent项目在互联网厂商内部率先尝试 智能客服成为重点领域 [4] - 课程限50人免费参加 提供大厂内推 面试资料和知识图谱等福利 [2][24]
开放几个大模型技术交流群(RAG/Agent/通用大模型等)
自动驾驶之心· 2025-09-04 03:35
技术交流群成立 - 大模型之心Tech技术交流群正式成立 专注于大模型相关技术交流 [1] - 交流内容涵盖大模型RAG AI Agent 多模态大模型 大模型部署等方向 [1] - 感兴趣者可添加小助理微信AIDriver005申请加入 需备注昵称和大模型加群 [2]
AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能
机器之心· 2025-09-02 03:44
谷歌URL Context功能技术特点 - 使Gemini模型能够直接访问并处理来自URL的内容 包括网页 PDF和图像[1] - 深度解析PDF 能理解表格 文本结构甚至脚注[7] - 多模态理解 能处理PNG JPEG等图片并理解其中图表和图示[7] - 支持多种网页文件格式 HTML JSON CSV等[7] - 单次请求最多处理20个URL 单个URL内容上限为34MB[5][29] 与传统AI处理URL方式的差异 - 传统方式通过通用浏览工具或搜索引擎插件读取网页摘要或部分文本[5] - URL Context通过API指令Gemini将URL全部内容作为权威上下文进行深度完整解析[5] - 专门为开发者设计的编程接口 可实现更精准的信息提取效果[5][14] 对RAG技术的潜在影响 - 被评价为"RAG的又一颗棺材钉" 提供处理公开网络内容的简单替代方案[8][13] - 无需传统RAG流程中的文本提取 分块 矢量化 存储等复杂步骤[13] - 开发者只需几行代码就能实现更精准效果 无需搭建复杂管道[13][14] 实际应用表现 - 准确提取特斯拉50页财报PDF第4页表格中的总资产$93,941百万和总负债$39,446百万数据[14][17] - 能识别PDF末尾员工遣散信中被星号屏蔽的离职日期及脚注中的解释说明[20][22] - 采用两步检索流程 优先从内部索引缓存获取内容 未命中则进行实时抓取[25] 技术限制与行业趋势 - 无法处理需要登录或付费的"付费墙"内容[29] - 不处理YouTube视频 Google Docs等有专门API的内容[29] - 按处理内容Token数量计费 引导开发者进行高效应用设计[27] - 反映基础模型正将外部能力内置化 底层模型服务吸收原应用层数据处理工作[27]
一年成爆款,狂斩 49.1k Star、200 万下载:Cline 不是开源 Cursor,却更胜一筹?!
AI前线· 2025-08-20 09:34
AI编程助手行业现状 - AI编程助手行业普遍面临盈利困境 毛利率极低甚至为负 每新增用户会扩大亏损[2] - 市场形成三层竞争格局:模型层(如OpenAI) 基础设施层 工具层 Cursor等公司试图捆绑三层但商业模式不可持续[2] - 典型产品如Cursor每月用户订阅费20-200美元 但实际推理成本高达1000美元 依赖风险投资补贴维持运营[2][3] Cline商业模式创新 - 采用开源策略 软件对个人开发者免费 通过企业增值服务(团队管理/安全保障)变现 类似Linux成功路径[5][6] - 不参与"推理套利"游戏 用户自带API密钥连接各类LLM 公司不从中赚取差价[6][50] - 一年内快速增长至270万开发者社区 GitHub获49.1k星 六个月下载量近200万次[7][10] - 完成3200万美元种子轮+A轮融资 企业客户成为主要收入来源[10][52][53] 技术架构与产品设计 - 首创"计划+行动"双模式交互:计划模式探索需求 行动模式自动执行 降低用户学习门槛[12][13] - 深度集成VS Code扩展形态 避免维护分叉版本的高成本 兼容主流IDE环境[17][18][19] - 构建MCP(Machine Control Protocol)生态系统 已支持150+种MCP服务器 实现跨服务自然语言交互[24][25][26] - 放弃RAG和Fast Apply等优化技术 直接利用大模型长上下文能力 编辑失败率降至4%[45][46][47] 行业发展趋势 - 编程成为大模型最具经济价值的应用场景 但推理本身难以独立成为商业模式[21][57][58] - 模型能力提升改变工作分配:初级编码任务由AI完成 工程师转向架构设计等高阶工作[39][40] - 开源生态加速创新 Cline衍生6000+分叉项目 形成活跃开发者社区[42][43][44] - 记忆系统和上下文工程成为技术前沿 智能体需保持叙事完整性处理复杂任务[63][64][66] 企业级市场拓展 - 强调数据隐私与控制 企业可自主选择API提供商 避免敏感数据外流[52][53] - 开发企业级功能模块:安全护栏 治理洞察 预算管理等 满足组织管理需求[54] - 通过投资回报量化工具 帮助企业证明AI编程助手的经济价值[55][56] - 团队计划从20人扩张至100人 聚焦智能体基础设施研发[68][69][70]