Workflow
大语言模型(LLM)
icon
搜索文档
我悟了如何与AI说话!谷歌 69 页官方提示词秘籍全解析,中文版免费下载
AI科技大本营· 2025-04-22 10:26
核心观点 - Google发布69页Prompt Engineering白皮书,系统性梳理AI沟通方法论和最佳实践[1][6] - 提示工程是精确引导AI输出的关键技能,可解决AI输出不稳定、偏离预期等问题[3][4][9] - 白皮书提供分层方法论:从理解LLM原理到参数调节再到高级提示技巧[8][11][24] AI工作原理 - 大语言模型本质是预测引擎,通过提示词引导其预测方向[8] - 模型根据输入提示预测下一个token,循环生成输出内容[8] - 提示词质量直接影响输出效果,明确指令可提升预测准确性[9] 关键参数调节 - 温度(Temperature)控制输出随机性:0.1-0.3适合严谨任务,0.8-1.0适合创意任务[14][15][23] - Top-K限制候选词数量,Top-P动态调整候选词概率范围[23] - 推荐初始参数组合:Temp=0.2, Top-P=0.95, Top-K=30[23] 提示技巧 基础技巧 - 零样本提示:直接给出指令不含示例[25] - 少样本提示:提供3-5个高质量示例引导输出格式[26][28] 高级技巧 - 分层指令:系统提示定角色+上下文提示给背景+角色提示定风格[29] - 退步思考:先解决抽象问题再处理具体任务[29] - 思维树:生成多条推理路径投票选择最优解[33][37][40] - ReAct框架:思考-行动-观察循环,可调用外部工具[41] 最佳实践 - 保持提示简洁明确,指定输出格式要求[44] - 使用模板变量提高重复任务效率[44] - 建立实验记录文档追踪优化过程[44] - 不同模型/任务需重新调试参数和提示[41]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:02
技术原理 - 强化学习(RL)是用于解决多步决策问题的算法框架,与传统机器学习不同,无标准答案但有反馈机制评判结果[3][7] - 大语言模型(LLM)本质是预测下一个词,存在不遵从指令的缺陷,通过与 RL 结合解决该问题[8][9][10] 行业应用 - RL+LLM 应用广泛,海外 OpenAI 的 RL 已从纯推理进化到 Agent 范式,实现多轮交互和上网互动[21] - 国内豆包和 DeepSeek 等团队在探索 RL+LLM 的新可能性,不同公司在该路径上出现编程、Agent、通用泛化能力等分支[21][26][27][28] 发展趋势 - 预训练的规模法则收益变小,但仍有数据和模型小型化两个发展方向;RL 的规模法则处于初始阶段,决策能力将持续提升[26] 人才与基建 - RL 人才稀缺,因门槛高、工业界应用少、对工程要求高;开源工作可降低使用门槛,如 AReaL - boba 框架[33][34][35][36] 训练与评估 - RL 训练中基建最重要,其次是数据和算法;评估可看准确率和多轮交互体验[29] 组织架构 - 大模型团队最好将 LLM 和 RL 两条线融合,至少设预训练和后训练团队,再按目标细分[31]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:01AI Processing
文章核心观点 文章围绕强化学习(RL)展开,介绍其与传统机器学习的区别、与大语言模型(LLM)的结合应用、行业发展现状与方向,还提及人才稀缺原因及人生与RL的关联等内容 强化学习概念 - RL是机器学习下用于解决多步决策问题的算法框架,与传统机器学习不同,无标准答案,有反馈机制评判结果,逻辑接近真实生活解决问题方式 [2][7] - 传统机器学习本质是记住大量标注过正确答案的数据对,用于解决单一步骤、有明确标准答案的分类问题,如人脸识别等 [3][4] RL与LLM结合 - 最初RL和LLM无关联,LLM本质是预测下一个词,存在不遵从指令缺陷,OpenAI在InstructGPT中将二者结合解决该问题 [8][9][11] - 为定义模型输出与指令需求的一致性,用人为定义数据训练出奖励模型,衍生出RLHF概念,其主要价值是让LLM好用,与RL不同,RL可让LLM更聪明 [11][12][13] - OpenAI发现让LLM“多吐点字”实现“慢思考”可使其更聪明,该过程叫推理时间缩放,训练时用有标准答案问题训练推理能力,还需用文科训练平衡模型 [13][16][19] 行业发展现状与方向 - 国内部分团队如豆包和DeepSeek在探索新可能,海外团队有不同理念,OpenAI的RL已进化到Agent范式,实现多轮交互和与虚拟世界互动 [21][22] - RL和LLM缺一不可,二者结合实现智能,目前最好的Agent模型按此整合,但范式和算法有发展空间 [25][29] - 预训练的规模定律收益变小,发展方向包括合成高质量图文混合数据和蒸馏小规模但能力同等的模型 [29][30] - RL的规模定律处于初始阶段,决策能力会提升,不同大模型公司在RL+LLM路径上会分化,主要分支有编程、Agent、通用泛化能力 [31][32][33] 用户感知与训练过程 - 用户可通过准确率和多轮交互体验判断强化学习效果,准确率可通过基准测试或体感验证,多轮交互体验好的模型如Claude [34] - 强化学习训练中基建最重要,决定迭代效率,其次是数据,最后是算法,训练效果受多种因素耦合影响,存在不确定性 [34][35] 组织架构与人才问题 - 大模型团队组织架构中预训练和后训练团队最好不分开,成员需有破圈意识,可按目标分工,如多模态、RLHF分支等 [36] - RL人才稀缺因门槛高、工业界应用少、对工程要求高,吴翼回国做开源工作,联合蚂蚁研究院发布开源框架AReaL - boba [39][40][42] - 公司招或培养RL人才,建议注重“动手能力”和“不给自己设限” [45] 人生与RL关联 - 人生类似强化学习过程,需探索自己的奖励函数,很多人可能找错奖励函数,应追求“熵值最大化”生活方式,勇敢试错 [8][47][48] - 传统RL难中途改变奖励函数,但在多智能体强化学习和人机交互中,AI需主动探索正确奖励函数,人生也需主动探索找到自己的奖励函数 [48][49][50]
一堂「强化学习」大师课 | 42章经
42章经· 2025-04-13 12:01
强化学习(RL)基础概念 - 强化学习是机器学习中解决多步决策问题的算法框架 其特点在于没有标准答案 通过最终反馈机制评判结果好坏[6] - 与传统监督学习不同 RL不需要标注数据 而是通过环境交互获得奖励信号 更接近人类解决问题的逻辑[6][7] - 典型应用场景包括游戏(如乒乓球)和复杂任务(如行程规划) 每个决策步骤会影响最终结果[6] RL与LLM的结合发展 - OpenAI首次在InstructGPT中将RL与LLM结合 解决大模型指令遵从问题 衍生出RLHF技术[10][11] - RLHF通过人工标注数据训练奖励模型 使LLM输出更符合人类需求 但本质是对齐而非增强模型能力[12][13] - RL实现"慢思考"机制 通过延长推理过程(token量增加)提升LLM准确性 形成inference time scaling范式[14][15] 行业技术路径分化 - OpenAI聚焦Agent范式 实现多轮交互和虚拟世界操作 完成从单轮到多轮的跃迁[20][21] - Anthropic专注编程能力 在简单问题快速响应与复杂问题深度思考间取得平衡[17][30] - DeepSeek探索通用泛化能力 通过理科训练与文科调校结合实现平衡输出[18][31] 技术实现关键要素 - 基建框架决定迭代效率 7B模型训练周期从7天缩短至2天可提升3倍试错机会[33] - 数据质量比数量更重要 针对性训练数据可显著提升模型性能[33] - 理解能力依赖LLM预训练 决策能力依赖RL 二者形成乘法效应缺一不可[23][24] 行业应用与人才现状 - RL人才稀缺源于技术门槛高 论文引用量比NLP/CV少一个数量级 工业级应用场景有限[39][40] - 开源框架AReaL-boba实现7B模型SOTA性能 推动RL技术普及[43] - 创业公司需把握技术窗口期 在终局到来前快速验证产品 而非追求长期技术优势[37][38] 企业组织架构建议 - 预训练与后训练团队需紧密协作 成员需具备跨领域知识避免能力盲区[36] - 按目标划分专业团队(多模态/RLHF等) 同时保持技术路线的灵活性[36] - Agent公司需储备RL人才 尽管当前技术门槛较高但未来可能成为标配能力[37]
阿里的理想,腾讯的现实
创业邦· 2025-03-25 03:09
以下文章来源于20社 ,作者贾阳 20社 . 关注年轻人的钱包、工作和生活。 来源丨20社(ID:quancaijing_20she) 作者丨贾阳 图源丨电影《无间道》 去年观察中国互联网公司,最重要的指标是"回购"。 Capex视角下 阿里腾讯作风大不同 腾讯本周发布了2024年Q4财报,万众瞩目的Capex终于出炉。 腾讯"计划在2025年进一步增加资本支出,并预计资本支出将占收入的低两位数百分比。"也就是说,腾讯今年的Capex将达到 千亿级别。 在内外都缺乏新故事可讲的时候,各个公司在"成长性"上令人失望,那么回馈股东成了负责任公众公司的一致选择。 今年则大不相同。经历了连续数年的低迷周期后,巨头们纷纷进入投资周期,加入AI军备竞赛。Capex(Capital Expenditure),也就是资本开支,成为了最受关注的指标。 腾讯的Capex去年Q4开始飙升 不过,各家公司对AI Capex的力度、态度又有一些微妙差别。 阿里高歌猛进,一鼓作气。腾讯则相对更步履款款。字节砸钱力度同样大。美团试探而克制…… 将这些结合起来,我们可以大致看到中国AI产业的独特图景了。 腾讯的投资从去年就开始加速,Q4资本 ...
杨立昆“砸场”英伟达:不太认同黄仁勋,目前大模型的推理方式根本是错的,token 不是表示物理世界的正确方式|GTC 2025
AI科技大本营· 2025-03-21 06:35
英伟达GTC 2025大会核心观点 - 杨立昆从视觉派角度否定当前主流语言派AI技术路线 认为token不是表示物理世界的正确方式 [8][9] - 杨立昆提出联合嵌入预测架构(JEPA)作为替代方案 强调需要在抽象表示空间而非像素层面进行预测 [14][15] - 杨立昆预测高级机器智能(AMI)可能在十年内实现 但当前大模型扩展路线是错误的 [19][20] AI技术发展方向 - 当前大语言模型已进入产业优化阶段 未来重点应转向机器理解物理世界、持久记忆、推理规划四大方向 [10][11][12] - 世界模型概念被提出 认为人类通过内部物理世界模型处理现实 未来AI需要完全不同架构 [13] - 系统1(快思考)与系统2(慢思考)的区别被强调 当前大模型仅实现系统1水平 [36][37] 硬件与计算技术 - 神经形态硬件和光学计算近期难有突破 量子计算应用前景受质疑 [39][43] - 内存计算技术在边缘设备如智能眼镜上有应用潜力 [40][41] - 视网膜处理机制被作为高效感知系统的生物参考 [43] 开源与创新生态 - Llama系列模型下载量超10亿次 开源模式推动行业创新 [30] - 全球分布式训练开源基础模型被认为是未来趋势 [32] - 中国科学家贡献被肯定 DeepSeek和ResNet案例显示创新可来自任何地方 [8][27] AI应用前景 - AI在医疗影像、自动驾驶等感知领域已产生实际价值 [20] - 科学研究和药物设计是AI最具潜力的应用方向 [20] - AI助手多样化发展需要开源平台支持 未来人机关系将转向管理者-虚拟员工模式 [32][58] 技术挑战与突破 - 残差连接等工程技巧对深度学习发展至关重要 [51] - 为JEPA架构寻找有效"配方"是当前主要挑战 [56] - 视频预测任务显示联合嵌入架构相比重建方法更具优势 [45]
GenAI 的存储解决方案 第 7 部分:解决方案梳理
Counterpoint Research· 2025-03-18 09:14
GenAI解决方案的关键考量因素 - GenAI解决方案需平衡带宽和容量优势与功耗、占用面积和价格等成本因素 [1] - 存储器作为依赖CPU的被动组件 其配置会随处理器变化而调整 [1] - ARM近期战略调整可能影响未来架构和解决方案设计 [1] - 基于MoE的大语言模型(LLM)的潜在变化或推动架构革新 [1] 数据来源与联系方式 - 行业数据来源于Counterpoint Research [2] - 业务咨询联系人: Rick Cui 客户服务总监 [3] - 媒体采访联系人: Haylee Xu 市场专员 [3]
GenAI 的存储解决方案 第 7 部分:解决方案梳理
Counterpoint Research· 2025-03-18 09:14
GenAI解决方案考量因素 - 带宽和容量等性能优势对GenAI解决方案至关重要但非唯一考量因素 [2] - 功耗 占用面积和价格等成本因素同样需要重点评估 [2] - 存储器作为CPU依赖的被动组件 其配置会随处理器变化而调整 [2] 行业技术发展趋势 - ARM近期战略调整可能推动未来架构和解决方案变革 [2] - 基于MoE架构的大语言模型发展可能引发技术路线变化 [2]
彭博数据洞察 | 透过AI看新闻,投资信号抓得准
彭博Bloomberg· 2025-03-14 03:08
AI驱动的新闻摘要功能 - 彭博旗舰产品"新闻标题与正文"覆盖全球上万个主题领域,遍及所有地区及主流企业,并配有丰富的标签体系,可标注话题、证券代码及人物信息 [3] - 利用大语言模型(LLM)和文本嵌入技术可计算不同新闻标题之间的相似度,有效识别重复信息,同一主题下的新闻报道数量可反映事件的市场影响力 [4] - 通过提示工程可提取关键特征如"WTI原油市场是否受影响"或"事件是否导致石油供应中断",这些特征值可生成市场信号与波动率预测 [6] 供应链数据与生物多样性风险 - 自然相关财务信息披露工作组(TNFD)发布建议帮助企业评估并披露自然资源依赖度、环境影响、风险与机遇,特别强调对上下游价值链的全面评估 [7] - 通过整合供应链数据与生物多样性数据库,可精确定位供应商在高水资源压力区域或生物多样性完整度区域的资产分布 [8] - 明治控股供应商位于高/极高水资源压力区域及生物多样性完整度区域的实体资产占比数据可供分析 [9] 欧洲汽车行业分析 - 欧洲汽车行业销售动能持续衰减,供应商业绩分析显示这一颓势早在市场普遍察觉之前便已现端倪 [12] - 分析覆盖欧洲汽车板块1500+供应商,遍布53个国家,结合标准化财务数据支持多维度关联分析 [12] - 欧洲汽车供应商的需求疲软迹象精准预示了行业拐点,印证财务数据与供应链信息整合对行业趋势预判的价值 [12]
DeepSeek对英伟达长期股价的潜在影响
致富证券· 2025-03-12 06:38
报告行业投资评级 未提及 报告的核心观点 - DeepSeek在训练和推理成本上有显著优势,引发科技股大幅波动,短期内冲击英伟达股价,但长远看随着AI技术普及和商业化加速,英伟达芯片需求可能进一步增长,AI产业将迈向新阶段 [2][3][16] 根据相关目录分别进行总结 DeepSeek引发市场波动 - 1月27日,DeepSeek在中国区和美国区苹果App Store免费榜登顶,美国科技股市场大幅下跌,费城半导体指数下跌9.2%,英伟达股价下跌近17%,市值蒸发近6000亿美元,WTI原油价格盘中一度下跌3% [2] DeepSeek成本优势 - 训练成本方面,DeepSeek使用约2000张H800 GPU训练,V3模型训练成本不超过600万美元,预训练阶段每万亿Token训练用2048个H800 GPU集群,180K个GPU小时(约3.7天)完成,总耗时约2788K GPU小时 [5][6] - 推理成本方面,OpenAI的o1模型每百万输入和输出Token分别收费15美元和60美元,DeepSeek的R1模型相同输入和输出价格仅为OpenAI的3%,DeepSeek推理成本API报价每百万Token输入成本仅1元 [3][7] DeepSeek低成本训练实现方式 - DeepSeek团队创新训练策略,在监督微调环节优化,最初尝试跳过SFT步骤仅用强化学习训练,引入少量冷启动数据提升稳定性和推理能力,R1系列模型摒弃RLHF中的人类反馈部分 [9] - 为解决纯强化学习训练文本中英混杂问题,用数千条链式思考数据微调V3 - Base模型,再启动强化学习流程生成样本数据微调得到R1模型,降低成本同时提升推理和语言生成质量 [10] DeepSeek对AI产业影响 - 对依赖自研大模型构建商业模式的公司影响更显著,如引发Meta内部AI团队担忧,Meta成立小组分析其技术原理并计划用于Llama模型优化 [12] - 美国大型科技企业以保持技术领先为首要目标,虽可能借鉴DeepSeek方法优化成本,但不会作为核心战略,现阶段大语言模型发展需大量算力,未来其他机器学习模型也可能有巨大算力需求 [13] - 英伟达认为DeepSeek成果会增加市场对其芯片需求,依据杰文斯悖论,技术进步降低资源使用成本会使市场对资源总体需求上升 [14] - DeepSeek降低大语言模型开发门槛,促使更多中小型企业和个人训练私有模型,若引发推理需求“第二波”增长,增量需求将远超AI巨头减少的GPU采购量,且商业化后推理环节算力消耗更大 [15]