Workflow
AGI(通用人工智能)
icon
搜索文档
别再空谈“模型即产品”了,AI 已经把产品经理逼到了悬崖边
AI科技大本营· 2025-08-12 09:25
行业现状与挑战 - AI产品领域存在宏大叙事与落地现实之间的巨大鸿沟,表现为技术理想与用户留存率低下的矛盾[1] - 行业呈现两极分化:部分从业者聚焦AGI终极形态,另一部分则面临不稳定API和用户高期待的实际挑战[2] - 当前AI浪潮类比"淘金热",多数参与者难以找到可持续商业模式,部分产品如AI Pin和Rabbit R1已遭遇市场困境[3] 行业活动与解决方案 - 全球产品经理大会将于8月15-16日在北京举行,汇集12大专题分享,覆盖互联网大厂和AI创业公司实战经验[14][16] - 活动将发布可能影响行业格局的重要产品,并通过深度探展和街采捕捉从业者真实困惑[8] - 多位行业领袖将分享实战经验,包括久痕科技CEO汪源、YouMind创始人王保平等,内容涵盖技术路径与商业化方法论[4][5] 产品经理职业转型 - 传统产品技能如原型设计正被AI快速替代,未来需具备战略判断、人机协作编排和用户心理洞察等复合能力[9] - 行业处于关键转折点,从业者需重新定位核心价值,把握技术浪潮方向与情感需求挖掘的双重机遇[9][10] 行业趋势与机会 - 技术演进迅速,GPT-5、Kimi K2长文本处理、Genie 3等多模态生成技术不断突破现实边界[1] - 商业模式探索从"提示词工程"向"上下文工程"进化,部分已验证路径可为行业提供参考[3] - 直播活动将揭示最新行业动态,包括腾讯混元大模型、百度秒哒等头部企业的应用实践[4][5]
3B模型性能小钢炮,“AI下半场应该训练+验证两条腿跑步”丨上海AI Lab&澳门大学
量子位· 2025-08-08 07:23
AI验证能力发展现状 - 大模型训练能力突飞猛进但验证答案能力成为发展短板[1] - AI在规则明确领域超越人类但在需要主观鉴赏的领域进展缓慢[11] - 当前大模型验证领域缺乏合理的迭代体系[15] AI发展范式转变 - AI下半场将从解决问题转向定义问题 评估变得比训练更重要[6] - 训练AI解决任务的难易程度与任务可验证性成正比[8] - AI进化边界被结果验证的速度和客观性锁定[9] 验证技术瓶颈 - 传统方法依赖人工定制规则 面对多步骤问题和复杂公式时容易失效[18] - 使用通用大模型作为验证器存在幻觉问题 不同模型判罚尺度不一致[18] - 社区缺乏针对可验证答案的标准化高难度基准[30] CompassVerifier技术方案 - 基于OpenCompass框架从50多个大模型在15个数据集上的100余万份回复中筛选数据[21] - 采用多模型投票机制筛选简单样本 借助DeepSeek-V3进行多提示词验证[22] - 通过错误驱动对抗性增强 复杂公式增强和泛化性增强三种方式提升验证能力[23][24][25][27] 模型性能表现 - CompassVerifier-32B在VerifierBench上平均准确率达90.8% F1分数87.7%[35] - 3B轻量版本超越大规模通用模型 展现极高参数效率[36] - 在数学推理任务中作为奖励模型使Qwen3-4B-Base在AIME24数据集性能提升18.5分[40] 应用前景 - 为数学 知识问答 科学推理等多领域强化学习训练提供技术支撑[44] - 未来可能实现模型自我验证和自我改进的循环迭代[45] - 验证器能力直接影响大模型发展速度 是AGI道路上的关键环节[14]
GPT-5王者降临,免费博士级AI全面屠榜,百万程序员不眠之夜,7亿人沸腾
36氪· 2025-08-08 07:16
GPT-5,震撼登场!距离22年11月的ChatGPT,再到23年3月的GPT-4,GPT-5竟隔了两年半之久。这次的深夜直播,国内有数万吃瓜群众在线 观看。至少按OpenAI的说法,他们离AGI又近了一步。 全球用户瞩目中,GPT-5终于震撼登场了! OpenAI用一个多小时的超长发布会,全方位展示了GPT-5的炸裂性能。 奥特曼领衔,出场人数众多,华人依旧耀眼 正值每周7亿人使用ChatGPT之际,GPT-5重磅发布了。它是对GPT-4的一次重大升级,更是标志着OpenAI在实现AGI道路上的一个重要里程碑。 OpenAI介绍说,这是我们迄今为止最优秀的AI系统,智能远超之前的所有模型,在编码、数学、写作、健康、视觉感知上都性能卓越。 这个统一的系统,包含一个能够解答大多数问题的智能高效模型、一个能够解决更复杂问题的更深层次的推理模型(GPT-5 Thinking),以及一个实时路 由器。 而GPT-5、GPT-5-mini、GPT-5-nano等多版本的分层推出,意味着OpenAI正在主动构建一个以GPT-5为底层核心的通用智能操作系统。 从现在开始,GPT-5将成为ChatGPT中的默认模型,GPT- ...
【对谈"硅谷精神之父"凯文凯利】问了凯文·凯利17个问题,我终于悟了!
老徐抓AI趋势· 2025-08-07 01:05
教育 - AI时代下未来工作岗位可能尚未出现 难以用现有职业规划孩子未来发展方向 [6] - 培养底层能力比知识积累更重要 包括好奇心 批判性思维 自驱力和学习能力 [6] - 差异化竞争是关键 成为"唯一"比成为"第一"更具抗AI替代性 [7] 人工智能 - AGI实现难度极高 几十年内难以达成 AI将长期保持专业领域分工形态 [8] - 现有技术架构存在瓶颈 投入成本与收益呈递减关系 从1亿刀到100亿刀突破有限 [9] - AlphaEvolve仅优化特定算法 无法全领域突破 AI本质是工具而非主宰 [11] 医疗健康 - 药物研发最大瓶颈在于临床实验流程 而非药物发现环节 AI难以短期内改变现状 [11] - 基因编辑和脑机接口将率先被富人采用 但技术成熟后普及速度极快 [12] - 科技普惠性特征明显 历史表明高端技术最终会降低使用门槛 如大哥大到智能手机 [13] 自动驾驶与机器人 - 技术落地进度慢于预期 马斯克等企业家的乐观预测常与现实存在偏差 [17] - 需持续观察技术拐点 盲目All-in风险高 动态调整策略更有效 [17] 中国AI发展 - 数据优势显著 互联网人口基数大 电子支付 短视频等场景产生海量训练数据 [18] - 人才储备占优 全球50%AI研究员现居中国 算法创新能力突出 [18] - 基础设施完善 医疗健康 基因测序等领域具备世界级样本体量 [18] 未来方法论 - 技术演进具有不确定性 预测不如应对 需保持观察力与快速反应能力 [19] - 底层能力构建是关键 包括好奇心 学习力和适应变化的能力 [19] - 细分领域差异化机会增多 社会分工将随技术发展进一步细化 [7]
京东成为2025世界机器人大会“独家全球战略合作伙伴”,科技大厂积极布局机器人产业
每日经济新闻· 2025-08-06 03:04
港股市场表现 - 8月6日早盘港股三大指数集体低开 科网股跌多涨少 苹果概念股局部活跃 [1] - 恒生科技指数ETF(513180)震荡 比亚迪电子、地平线机器人、舜宇光学科技领涨 理想汽车、美团、金蝶国际、比亚迪股份领跌 [1] 京东机器人产业布局 - 京东成为2025世界机器人大会独家全球战略合作伙伴 将携手宇树科技、智元、天工等全球顶尖机器人品牌打造沉浸式黑科技展区 [1] - 京东将发布推动机器人产业发展的重大战略计划 公布行业扶持政策 深化与智能机器人品牌的战略合作 [1] - 京东已投资三家具身智能领域头部企业 加速布局具身智能产业链 [1] 人形机器人产业发展 - 人形机器人成为AGI落地核心应用场景 产业化进入技术突破与生态协同加速阶段 [1] - 中国在硬件制造与软件算法方面产业链完整 下游应用场景丰富 具备率先推动商业化落地的基础 [1] - 人形机器人有望在未来数年内实现规模化商业化 成为AGI落地重要增量方向 [1] 恒生科技指数ETF投资价值 - 恒生科技指数ETF(513180)跟踪恒生科技指数 指数成分股腾讯、阿里、小米、小鹏、京东均通过投资或自研布局机器人产业 [2] - 该ETF可一键布局中国AI核心资产 场外联接代码为013402/013403 [2]
北美教授:未来三至五年是中国发展人形机器人的黄金窗口期
南方都市报· 2025-08-05 12:54
行业竞争格局 - 具身智能机器人成为中美AI竞赛新战线 中国凭借低成本高性能产业链和供应链优势抢占发展窗口[1] - 中国人形机器人零部件出口市场空间大于整机 因发达国家担忧整机安全风险[1] - 中国具身智能初创公司数量和政策扶持力度显著多于其他国家 摩根士丹利预测中国将逐步拉开与美国的差距[1] 产业发展阶段 - 未来三至五年是中国抢占人形机器人赛道的黄金窗口期 当前市场热潮可提供资金人才和经验积累[1] - 行业处于发展初期阶段 泡沫程度远未饱和 即使破灭也可能像互联网浪潮一样诞生行业巨头[1] 全球供应链影响 - 机器人技术与制造业融合将推动发达国家制造业回流 打破传统全球供应链格局[2] - 发展中国家面临双重劣势:难以竞争机器人驱动的制造业且缺乏资金自主投资技术 可能加剧全球发展不平衡和贸易摩擦[2] 社会就业影响 - 机器人替代重复性/危险性/高精度任务将导致部分岗位消失 失业风险预计在10-20年后技术成熟阶段出现[3] - 建议通过向自动化受益企业征收专项税建立社会保障制度 用于失业人群技能再培训[3] 安全与伦理挑战 - 机器人配备传感器摄像头麦克风会收集大量数据 引发数据安全隐私保护和心理不适担忧[4] - AI决策需确保透明度和建立问责机制 阿西莫夫三定律要求机器人不伤害人类服从命令并保护自身[4][5] - 李向明提出人际共存五项准则:具同理心 行为透明 赋能人类生活 保护生态环境 进化需经人类允许[4][5] - 伦理设计应内嵌于开发流程而非事后考虑 宇树科技案例显示近距离交互中伦理安全问题比技术问题更复杂[3][5]
拥抱 AGI 时代的中间层⼒量:AI 中间件的机遇与挑战
36氪· 2025-08-05 09:52
大模型发展趋势 - 模型能力持续跃迁 从文本生成到多模态理解与推理 语言能力显著增强 GPT-4在复杂问题处理和文本生成方面远超GPT-3[1] 多模态能力突破 GPT-4o支持文本、音频、图像和视频的任意组合输入输出[2] 推理能力深化 o1模型通过强化学习生成内部思维链 在编程和数学推理领域表现出色[2] 工具使用能力拓展 o3模型具备自主调用和整合外部工具的能力[2] - 其他领先模型展现强大能力 Google的Gemini模型在多模态推理和复杂编码方面表现出色 Anthropic的Claude Sonnet 4在编程和推理方面表现优异[3] - 模型生态日益开放 开源模型兴起 Meta发布LLaMA系列 国内外团队推出QWen、DeepSeek、Kimi、Mistral等高质量开源模型[4] 开源模型能力赶超 部分开源模型在特定任务上逼近或超越专有模型 如DeepSeek R1和Kimi K2在推理和代码生成方面表现突出[4] AI应用演进路径 - 应用形态变革 从聊天机器人到组织级智能体 分为五个层级 Level 1具备对话语言能力 如早期ChatGPT[5] Level 2具备人类水平问题解决能力 如DeepSeek R1[5] Level 3能够代表用户采取行动 如Manus、Claude Code[6] Level 4能够辅助发明和发现[6] Level 5能够执行整个组织工作[6] - AI Agent爆发式增长 通用Agent如Manus、Genspark、ChatGPT Agent 通过集成工具提供一站式服务[8] 专业Agent如Claude Code、Gemini CLI、Qwen Code等Coding Agent 以及Cursor、Trae、Kiro等AI Coding IDE 提升开发效率[9] - 通用Agent与垂直Agent并存互补 垂直Agent需要深度集成领域知识、专有数据和特定工具 如企业智能客服需精准理解产品手册和服务条款[10] 基础模型无法快速适应业务变化 垂直Agent成为必然选择[11] AI中间件机遇 - Agent研发提效 提供一站式研发框架 抽象封装底层LLM 支持ReAct模板 集成RAG、记忆库和外部工具插件[13] 引入无服务器架构作为运行时 弹性扩展且降低运维成本[14] 提供Agent评估框架 模拟环境验证决策和输出质量[14] - 上下文工程 提供上下文模板和编排工具 自动拼接最优提示组合[15] 结合模型注意力机制特点 对上下文进行缓存和裁剪优化 如保持Prompt前缀稳定利用KV-Cache提速[15] 实现上下文压缩策略 如对话摘要、索引引用和分层内存[18] - 记忆管理 提供短期和长期记忆功能 短期记忆如多轮对话内容和工具结果 长期记忆如用户偏好和业务知识库[19] 统一管理不同层次记忆 提供API读写外部数据 实现记忆压缩和更新策略[19] - 工具使用与扩展 建立标准化工具接入机制 如Model Context Protocol (MCP) 封装外部数据源或API[20] 提供工具聚合产品 按需调用行业常用工具[20] 引入工具调度优化算法 提升工具使用准确率[21] - 沙箱环境与安全 提供受控的沙箱运行环境 隔离代码执行和网络访问[22] 制定工具权限和调用限制 设置人工审批流程[22] 支持强化学习微调[23] - 多智能体协作 提供多Agent管理和编排功能 提升任务并行处理能力和专业性[24] 设计通信协议和共享内存 避免重复或冲突操作[24] - 多模态支持 集成图像识别、语音合成、OCR、视频理解等模块[25] 提供多模态数据处理管道 实现流式、多模态的人机交互[25] AI中间件挑战 - 复杂上下文构建与优化 管理不断膨胀的上下文 制定合理的组装策略[27] 实现上下文裁剪和压缩机制 平衡准确性和效率[28] - 持久记忆更新与利用 持续更新记忆并确保正确利用 如用户资料变化[29] 攻克记忆组织索引、演化和冲突消解难题[29] - RAG效果优化 提升检索质量和速度 避免错误信息误导[30] 支持大规模知识库的快速语义搜索[30] - Agent行为评估测试 缺乏成熟测试方法 输出具有概率性和多样性[31] 构建模拟环境或沙盒测试框架 判断决策对错[32] - 工具使用风险与管控 提供权限控制 设定工具权限边界[34] 记录详细日志供审计和追溯[35] 设置人类复核流程 确保符合法律规范[35] - 沙箱环境性能与成本权衡 部署沙箱带来性能开销和成本负担[37] 权衡任务执行方式 采用轻量隔离技术[37] 解决跨平台支持问题[38] 未来发展方向 - 短期使命 解决AI应用规模化的最后一公里问题 提供高层次抽象、自动化优化和托管平台[39] - 长期潜力 成为组织智能的神经中枢 连接模型、数据和业务系统[39] - 技术范式更替 从聊天机器人到组织级智能体 工程化与规模化落地成为核心挑战[40]
深度|Cursor CEO最新访谈:编程会消失,未来IDE不再是工具,而是一个会写、会跑、会自我优化的智能体
搜狐财经· 2025-08-05 08:05
AI编程革命 - Cursor将编程从技术操作转变为与AI合作的创作过程 程序员转型为任务设计师 主导AI代理完成复杂构建工作 [4] - 未来编程语言可能演变为高阶抽象的人机对话语言 直接与AI交互 突破传统低级语言限制 [4] - AI在编程领域的进步关键在于逐步融入工作场景 提升效率同时保持人类创造力和判断力 [4] Cursor产品特性 - 提供预测型协助和虚拟对桌程序员两种工作模式 前者实时预测未来20分钟操作 后者可委派子任务独立完成 [9] - 底层模型每天执行超10亿次推理调用 成为全球写生产级代码最多的语言模型之一 已迭代至第4-5代 [18] - 自研super autocomplete模块 与同类工具形成差异化优势 用户产生"用了就回不去"的依赖感 [18][19] 技术演进路径 - 编程场景特别适合AI发展 因其文本基础、海量开源数据、结果可验证等特性 形成快速反馈闭环 [20] - 当前技术瓶颈在于模型持续学习能力 扩展上下文窗口和训练模型两种方法均存在局限性 [25][26] - 多模态能力将成为关键突破点 需结合可视化调试等非文本交互 才能处理复杂开发流程 [26] 行业影响 - 专业程序员仍为核心用户群 但非技术人员轻量级贡献(vibe coding)呈现增长趋势 [23] - AI使过去8小时工作缩短至5-6小时 但代码库复杂度抵消部分效率红利 总工时未显著减少 [22] - 未来1-2年内 20-25%编程工作可由AI独立完成 但完全替代仍需突破架构设计和长流程执行等障碍 [24][27] 公司运营 - 团队规模150人 采取小而精策略 计划验证2000人以下打造深远影响科技公司的可能性 [30][31] - 创始团队专注技术与研发 工程人员配置远超行业平均 保持产品绝对优先的文化 [32][33] - 采用决策透明机制 按影响程度分级处理 高影响可逆决策快速推进 高影响不可逆决策谨慎评估 [37] 商业模式 - 定价机制从按调用次数改为按计算资源消耗 反映AI使用强度差异 Top5%用户消耗量达中位用户数十倍 [46][51] - 编程场景AI调用强度显著高于对话类产品 成本结构更接近AWS而非传统SaaS模式 [48][49] - 需平衡重度用户需求与普通用户体验 未来将强化资源消耗可视化 改善沟通策略 [47] 长期愿景 - 两年目标实现多AI代理并行处理复杂任务 构建新型软件协作体验 人类仅介入关键决策点 [60] - 推动编程语言进化 发展高阶抽象表达 形成兼具自然语言亲和力与系统精确控制的新界面 [61][63] - 不追求纯对话框式编程 而是重构人机交互底层 使逻辑可视化和精细操作成为可能 [62][63]
模型与「壳」的价值同时被低估?真格基金戴雨森 2025 AI 中场万字复盘
Founder Park· 2025-08-02 01:09
核心观点 - 2025年AI行业迎来多个"李世石时刻",OpenAI通用大语言模型首次达到IMO金牌水准,标志着AI推理能力质的飞跃 [5][7][10] - AI应用和"套壳"价值被低估,Context Engineering成为关键竞争壁垒 [21][23][37] - Agent技术进入早期采用阶段,模型能力与产品设计协同推动生产力革命 [30][32][69] - 模型能力进化速度超预期,推理/编程/工具使用三大主线快速突破 [53][54][64] - 中国团队在AI应用层展现突出竞争力,Kimi等产品实现技术逆袭 [38][46][51] AI技术突破 OpenAI数学推理里程碑 - OpenAI通用大语言模型在2025年IMO竞赛中完成6题5对的成绩,达到金牌水平,且未针对数学专门优化 [5] - 该成绩获奥赛组委会官方认证,相比2024年Google专门设计的AlphaGeometry(银牌水平)更具泛化能力 [7] - 模型采用与GPT-4o相同底层架构,主要优化来自post-training和inference阶段 [9] - 数学证明属于"hard to verify"问题,突破意味着AI具备接近人类顶尖水平的逻辑推理能力 [8][13] 多模态与工具使用进展 - 图像生成从玩具级进化成生产力工具,ChatGPT图像生成可准确理解用户意图 [32] - Veo3模型实现虚拟世界真假难辨的生成效果,首次跨越恐怖谷效应 [33] - 工具使用形成API调用和视觉模拟两条技术路线,MCP生态初步建立 [64][65] 产品与应用演进 Agent技术发展 - ChatGPT Agent发布标志着行业共识形成,但产品体验仍有提升空间 [16][18] - Agent产品token用量相比Chatbot显著增长,Manus等产品进入Early Adopter阶段 [32][73] - 优秀Agent产品需为未来6-12个月的模型能力设计,当前任务完成率约20%,预期年底达70-80% [40][93] - 应用层通过Context Engineering构建三层壁垒:会话级/个性化/硬件增强上下文 [23][59][60] 中国团队突破 - Kimi K2开源模型在coding/Agent工作流/中文写作方面超越Claude,OpenRouter调用量快速攀升 [38] - 中国团队在长文本技术方向的前瞻布局得到验证,产品设计能力突出 [47][48] - 套壳应用展现持久价值,Manus等产品在特定场景表现优于ChatGPT Agent [19][21] 行业竞争格局 模型厂商动态 - Google Gemini 2.5实现技术反超,与OpenAI形成三强竞争格局 [55][56] - DeepSeek采取选择性突破策略,资源聚焦模型智能而非多模态 [42][43] - 模型benchmark出现钝化现象,实际用户体验差异成为新评估标准 [84] 人才与资本趋势 - 硅谷爆发acqui-hire抢人大战,顶尖人才薪资达disruptive级别 [80][82] - 推理算力需求爆发式增长,云服务商迎来新增长周期 [41][74] - 投资逻辑从"模型颠覆应用"转向"人机协作价值创造" [37][38] 未来演进方向 技术前沿展望 - 推理能力从7分到10分的质量提升,小模型开始具备强推理能力 [53][54] - 编程场景context长度与自我纠错能力持续优化,复杂代码一次通过率提升 [55] - 原生多模态、在线学习、高级Agent能力或成下一代模型突破点 [39][94] 社会影响预判 - 生产力提升带来"超级个体",3人团队可能实现独角兽级产出 [85] - 组织管理复杂度突破新量级,美团等企业将管理数百万AI协同体 [86] - 智能边界衡量成为新挑战,人类需建立评估超人智能的新标准 [84][87]
Gemini能与第三方App交互,谷歌盯上了用户的数据
36氪· 2025-07-29 12:38
谷歌Gemini AI策略更新 - Android系统将允许Gemini访问第三方应用 无论用户是否开启或关闭Gemini应用活动[3] - 谷歌通过邮件通知用户此项调整 Gemini可访问WhatsApp等应用[3] - 人工审核员会阅读、注释和处理Gemini访问的数据 但未提供彻底移除Gemini集成的方式[3] 数据隐私与安全风险 - 谷歌宣称关闭应用活动时聊天不会被审查或用于改进AI模型[6] - 用户对Gemini如何处理与第三方应用交互数据存在疑虑 因谷歌仅表示不会保存72小时前的活动记录[3] - 谷歌因非法收集美国加州1400万Android用户移动数据 被判支付3.146亿美元赔偿金[12] 技术方案对比 - 荣耀MagicOS 9.0采用纯视觉方案实现AI自主操控第三方应用 无需应用适配[6] - 谷歌采用智能体路线 通过API调用第三方应用 避免每一步感知决策执行的效率问题[6] - 纯视觉方案效率远低于MCP协议 AI直接调用API存在数据泄露风险[9] 行业数据收集趋势 - Meta重拾人脸识别技术 通过智能眼镜采集数据[11] - 亚马逊Echo智能音箱强制语音记录上传云端 禁用本地保存功能[11] - 苹果和英伟达未经授权使用YouTube视频训练AI Anthropic使用盗版图书库构建大模型[11] AI应用场景与用户接受度 - Gemini交互第三方应用可实现点咖啡、订餐厅、发红包、拨打微信电话等复杂操作[16] - 三星"即圈即搜"通过视觉模型识别内容并调用谷歌搜索API 体现AI便捷性[14][16] - 用户可能以隐私换取便利 因AI能力从简单操作升级为复杂指令处理[14][16] 市场竞争动态 - 国内Android厂商率先探索AI自主操控第三方应用 谷歌随后跟进[1] - 谷歌此次策略被形容为"Copy from China" 反映中国企业在AI应用创新上的领先[16]