Workflow
通用人工智能(AGI)
icon
搜索文档
图灵奖得主杨立昆:中国人并不需要我们,他们自己就能想出非常好的点子
AI科技大本营· 2025-06-02 07:24
大语言模型的局限性 - 当前大语言模型仅擅长信息检索和已有解决方案的复述 无法进行真正的抽象思考、推理和规划 [3][5][6] - 模型通过统计规律生成答案 本质是模式匹配游戏 无法创造新事物或提出正确问题 [5][6][18] - 训练数据已达边际效益递减 天然文本数据接近耗尽 合成数据成本高且回报有限 [11][13][14] AI发展的新范式方向 - 未来AI系统需具备理解物理世界、持久记忆、推理和规划四大核心能力 [29][37][38] - JEPA架构通过非生成式方法学习世界抽象表征 可预测物理规律并实现真正规划 [44][47][49] - 视频数据训练比纯文本更高效 儿童通过10^14字节视觉数据即可掌握基础物理规律 [36][37] 开源与闭源竞争格局 - 开源生态创新速度显著快于闭源 全球协作可加速技术突破 [50][53] - DeepSeek案例证明中国团队具备独立创新能力 2015年ResNet论文成为全球被引最高单篇论文 [3][53] - 实际部署中开源模型成本更低且可控 Llama等开源引擎正被广泛采用 [51] 行业投资与商业化前景 - 当前AI投资主要用于推理基础设施扩建 而非短期技术突破 [19][20] - 消费级AI应用已获验证 Meta AI用户达6亿 但企业级部署仍面临可靠性挑战 [21][24] - 专家系统历史表明AI需避免过度炒作 新范式需3-5年才能成熟应用 [25][30]
GPT-Kline:MCoT与技术分析
华泰证券· 2025-05-31 10:25
报告行业投资评级 未提及 报告的核心观点 - 多模态思维链(MCoT)将大模型的多模态与推理能力相结合,提升其应对复杂多模态任务的表现 [1][121] - 尝试将 MCoT 应用于 K 线技术分析场景,构建智能化、自动化技术分析平台 GPT - Kline,实现技术分析全流程自动化 [1][121] - GPT - Kline 能基于 K 线图像准确识别和深入推理,实现可靠走势分析、精准指标及形态标注、逻辑连贯报告输出 [1][121] 根据相关目录分别进行总结 大模型如何基于图片思考 - 多模态协同是大模型通往通用人工智能的必经之路,多模态大模型致力于将智能从文本单模态泛化至多模态领域 [17] - 早期多模态大模型仅增加图像输入,未充分挖掘多模态潜力,MCoT 可让大模型从“感知理解图片”到“通过图片思考” [12] - 计算机视觉底层技术突破和大语言模型能力迭代促成多模态大模型飞速发展 [18] 多模态思维链:从 CoT 到 MCoT - CoT 方法通过提示引导模型“一步一步思考”,提升其在复杂任务上的表现,与 TTS 方法结合让“思考”成为内生能力 [21] - TTS 为大模型测试阶段分配更多计算资源,如 DeepSeek - R1 模型通过强化学习提升推理表现 [23] - MCoT 是 CoT 在多模态领域的扩展,让大模型在图像问答任务中表现提升,扩展多模态大模型能力边界 [27][31] O3:从 Think Over Image 到 Think By Image - 2025 年 4 月 OpenAI 上线“满血版”O3 模型,展现惊艳图像推理能力,实现真正的“多模态推理” [37] - O3 模型在推理中调用工具应对复杂多模态任务,无需用户提示,自主规划流程 [37] - O3 在多模态推理和工具调用方面表现优异,但在文本写作、编码领域较弱,幻觉现象严重,未达通用人工智能标准 [39] MCoT 在投研中的应用初探:自动化技术分析 - 股票 K 线图与技术分析符合多模态、逻辑推理特征,是 MCoT 能力圈的应用场景,可构建大模型自动化技术分析应用 [42] O3 在技术分析任务中的表现 - O3 模型接收技术分析任务后,对图像建立感知,估算尺寸和坐标,裁剪图像,建立对应关系,规划标注内容 [46][50] - O3 调用 Python 工具在图像上绘制支撑/压力线和趋势线,标注较清晰完整,写代码规范可运行 [54][60] - O3 最终生成的技术分析报告结构清晰,分析有理有据,与标注呼应,给出走势判断和操作建议 [63] GPT - Kline:全自动技术分析流程的手动实现 模型选择 - O3 模型存在输出不稳定、内容有限、使用门槛高的问题,需构建专业版 O3 模型 GPT - Kline [65][69] - 选用的大模型需具备多模态输入和工具调用能力,截至 2025 年 5 月,GPT - 4o、GPT - 4.1、Gemini - 2.5 - Pro 等模型符合要求 [66][69] 工具调用 - 为大模型设计与图像交互的工具,让其具备画图、标注能力,工具调用流程包括用户提供工具、模型决定调用、用户执行代码等步骤 [70][73] 流程设计 - 为大模型设计指令输入、读取数据、绘制图像、图像分析、图像标注、输出报告的技术分析全流程,实时反馈结果并保留对话记忆 [79] 应用封装 - 基于 Gradio 设计网页端应用,提供手动选择和自然语言指令两种分析模式,界面左右两栏分别显示标注 K 线图和分析过程 [83] 结果 - 模型对比发现,OpenAI 模型标注“消极”且位置偏差,豆包系列模型标注丰富但内容偏差大,指令跟随效果不稳定 [95] - 以 Gemini 2.5 Flash 模型为例展示全自动技术分析流程,包括绘制 K 线、初步分析、技术指标标注、生成技术分析报告 [96] 总结 - 研究深入探索多模态大模型推理能力及其在投研中的应用,构建 GPT - Kline 平台 [121] - 研究存在支持资产品类有限、长周期 K 线分析能力待探索、投研其他场景应用潜力待挖掘等未尽之处 [125]
最新研究:AI情商测试完胜人类,准确率高出25%
36氪· 2025-05-29 08:23
人类情绪测试 - 伯尔尼大学与日内瓦大学研究评估六种最先进语言模型的情商能力 包括ChatGPT-4 Claude 3 5 Haiku等[2] - 测试采用五项心理学和工作场所评估标准 包含复杂现实场景如职场创意纠纷处理[2] - 标准答案"向上级反映"体现健康情绪管理方式 测试聚焦情绪理解与调节能力[2] AI情商表现 - 五项测试中AI平均准确率达81% 显著超越人类参与者56%的平均水平[3] - AI不仅理解情感 更掌握高情商行为核心要义 答案展现对情感复杂性的深刻理解[3][6] - ChatGPT-3 5曾在"情绪意识水平量表"测试中优于人类平均水平[6] 情商重要性 - 高情商者能建立更融洽人际关系 取得更优异工作表现 保持更健康精神状态[3] - 职场中情绪管理能力直接影响专业形象 管理不当易引发冲突或抑郁倾向[3] - 情感计算成为AI发展重点方向 应用于聊天机器人 数字助理及医疗辅助工具[3] 技术演进 - 自20世纪90年代情感机器概念提出后 AI情绪识别技术已取得长足进步[4] - 现代AI能精准分析语音语调 面部表情和用词选择 准确度常超越人类[4] - 相关技术已在医疗 教育和心理健康领域实现实际应用[4] 测试创新 - 研究团队验证AI能否突破情绪侦测 实现真正情感理解 测试包含情绪因果推理和调节能力[5][6] - ChatGPT-4成功生成全新情商测试题 在清晰度 可信度方面媲美心理学家开发的版本[7] - AI生成题项在表述清晰性 情境真实性和情感层次感方面获参与者高度评价[7] 应用前景 - 发现为开发情感辅导类AI工具铺平道路 可提供个性化情绪应对方案[8] - 推动高情商虚拟导师 治疗师研发 能根据情绪信号动态调整互动策略[8] - 技术虽无法替代人类共情 但预示通用人工智能在情感领域的潜力[8] 行业影响 - 情感智能使未来工具不仅能理解言语 更能读懂情绪 模糊人机界限[9] - 大语言模型或成为人类情感探索领域的可信伙伴 需审慎开发和负责任应用[9] - 研究显示机器智能与人类情感理解能力正逐渐趋同[9]
Claude 4 核心成员访谈:提升 Agent 独立工作能力,强化模型长程任务能力是关键
Founder Park· 2025-05-28 13:13
强化学习在大语言模型中的应用 - 2025年最大的变化是强化学习在语言模型训练上真正奏效 通过可验证奖励的强化学习 模型在竞技编程和数学领域达到专家级人类表现 [1][4][6] - 强化学习主要作用是激活模型已有知识并将其组织成解决方案 而非从零学习 [4][27] - Gemini 2 5 Pro和Claude Opus 4的发布验证了这一趋势 模型在长期任务和多步动作管理上表现突出 [2][31][32] 模型训练与能力提升 - 当前行业普遍采用"算力优先 数据其次"的预算分配策略 但未来可能转向更平衡的方式 [4][21] - 模型规模越大学习效率越高 所需示范越少 大模型能将不同语言表示整合在统一共享子空间中提升泛化能力 [25][26] - Opus 4最大突破是时间跨度扩展 能处理数小时工作量任务而无需频繁用户介入 [31][32] 模型可解释性与安全研究 - 机制可解释性是对神经网络进行逆向工程 找出其计算基本单元 模型是"生长"而非"建造"出来的 [47][48] - 目前已识别出3000万个特征 包括抽象概念如"代码漏洞" 并能追踪模型内部推理回路 [49][50][51] - 模型安全研究需要多管齐下 包括宏观探针和微观机制分析 [52][53] AI Agent发展趋势 - 未来用户可能同时管理多个模型执行任务 交互方式类似"模型舰队管理" [34][37] - 用AI操作电脑执行复杂任务并不难 核心限制在于上下文和记忆系统管理 [4][5] - 预计2025年底出现能完成初级工程师一天工作量的高效软件Agent系统 [9][36] 行业竞争与技术突破 - DeepSeek在模型研发上展现出优秀"品味" 其设计体现"硬件-算法共舞"思维 [63][64] - DeepSeek从落后位置快速跃升为有力竞争者 成功吸收行业效率提升红利 [61][62] - 模型发布节奏预计将远超去年 2025年进展速度明显加快 [38] 模型自我意识与沟通 - 当前模型没有哲学意义上的自我意识 但能模拟特定身份和记忆 [40][42] - Agent之间可能发展出人类无法理解的Neuralese沟通方式 文本渲染可隐藏信息 [75][83] - 模型已具备一定元认知能力 能表达不确定性 但缺乏持续身份感 [39][44] 算力与推理瓶颈 - 推理计算可能成为AGI发展瓶颈 当前全球约1000万张H100等效算力 2028年或达1亿张 [84][88] - 人类思维速度约每秒10个token 一张H100每秒可处理约100个"人类思维" [86][87] - 模型规模与推理效率需平衡 存在帕累托前沿最优解 [90] 模型优化方向 - 现阶段重点应是提高模型底线质量 而非追求极致表现 [93][95] - 通过排除明显低质量输出来提升整体表现 类似人类写作训练过程 [94] - 大语言模型被视为"雏形AGI" 因其具备对真实世界的概念性理解 而AlphaZero缺乏这一基础 [97]
“十五五”AGI产业发展报告发布
中国化工报· 2025-05-28 02:13
通用人工智能产业发展趋势 - 报告预测"十五五"时期我国通用人工智能产业将面临三重挑战并明确发展路径 [1] - 工业制造领域人工智能应用场景涵盖研发设计、生产制造、运营管理、产品服务等环节 [1] - 具体应用包括智能仿真模拟、智能工艺设计、质量控制、预测性维护等 [1] 工业制造领域AI应用前景 - 深度融入生产核心环节实现智能化升级柔性生产能力显著增强 [1] - 产业生态协同创新加速产学研用深度融合产业链上下游协同发展 [1] - 绿色制造与可持续发展能源管理智能化资源循环利用创新 [1] AGI发展面临的三重挑战 - 大模型技术在数据—算法—算力领域存在瓶颈高质量专业数据集缺乏数据共享难度高 [2] - 大模型伦理安全问题包括数据安全和隐私保护可能造成知识产权纠纷和个人隐私泄露 [2] - 人才供需矛盾加剧高端人才短缺人才培养体系滞后技能与企业需求不匹配 [2] AGI技术发展路径 - 以场景牵引技术与应用双轮驱动拓展应用边界 [2] - 针对产业应用问题促进技术优化和改进 [2] - 在局部领域或特定场景实现率先突破形成示范效应带动相关产业发展 [2]
新股消息 | 仙工智能递表港交所 连续两年全球机器人控制器销量排名第一
智通财经网· 2025-05-27 22:53
上市申请 - 上海仙工智能科技股份有限公司向港交所主板递交上市申请,中金公司为独家保荐人 [1] - 每股H股面值为人民币1.00元 [2] 公司定位与核心技术 - 公司是全球最大的以控制系统为核心的智能机器人公司 [4] - 2023-2024连续两年全球机器人控制器销量排名第一 [4] - 控制系统包括机器人本体的控制器和云端软件,实现自主运行和协同工作 [4] - 控制器集成VLA、强化学习、端到端导航和SLAM等技术 [4] - 采用AGI技术驱动,成为全球首家规模化智能机器人开放平台 [4] 业务规模与市场覆盖 - 控制器适配超过300种零部件,支持超过1,500家集成商与终端客户 [5] - 已有超过1,000个机器人款型通过平台部署 [5] - 覆盖3C、汽车、新能源等超过20个细分行业 [5] - 业务遍及全球超过30个国家及地区 [5] 技术优势与数据积累 - 搭建机器人行业首个全开放系统性知识库 [5] - 积累大量高质量机器人运行数据,涵盖复杂场景 [6] - 预计未来将获得更多全场景覆盖的优质数据 [6] - 基于AGI算法持续提升机器人泛化性及智能水平 [6] 财务表现 - 2022-2024年度收入分别为1.84亿元、2.49亿元、3.39亿元人民币 [6] - 同期年内亏损分别为3226万元、4770.4万元、4230.8万元人民币 [6]
OpenAI大量内幕曝光,7年“潜伏”调查扒出AI帝国真面目
虎嗅APP· 2025-05-27 11:37
OpenAI早期发展历程 - 2019年OpenAI仍处于实验室阶段,Sam Altman刚从YC离职出任CEO,公司开始从非营利转向"有限利润"结构[1][6] - 公司早期被业界视为"资金过剩但方向模糊",同行批评其研究缺乏创新性且过度营销[6] - 2019年关键转型包括:拒绝开放GPT-2模型、引入微软10亿美元投资并获得Azure独家使用权[6][31] AGI战略定位 - 公司核心使命是建造"造福人类"的通用人工智能(AGI),定义为具有人类级复杂性/创造力的软件系统[11][14] - 管理层认为AGI将解决气候变化/医疗等复杂问题,但无法具体说明技术路径或负面影响的应对方案[10][16] - 采用"硅谷式"论证逻辑:强调技术发展不可逆,必须抢先塑造AGI初始条件[14][30] 公司治理特点 - 创始人Greg Brockman展现强烈个人抱负,希望成为AGI历史的"舵手"而非普通技术主管[28] - 实际运作存在"宣传与实操错位",内部保密文化与其标榜的透明开放理念形成反差[24][34] - 管理层擅长叙事控制,Sam Altman被描述为"不直言真相却能获取信任"的沟通者[3][36] 行业影响 - 公司转型引发连锁反应,开始实质影响AI研究范式与政策制定者认知[7] - 微软投资后市值单日增长100亿美元,反映资本市场对AI商业化前景的乐观预期[23][31] - 技术路线存在争议:消耗全球2%电力资源的数据中心被合理化视为必要代价[19][22] 关键人物特写 - CTO Brockman兼具理想主义与实用主义,将办公室婚礼设计成AGI主题的科幻场景[25] - 首席科学家Sutskever提出激进观点:预测地球表面终将被数据中心覆盖[22] - Elon Musk公开质疑公司开放性与安全管控,引发内部危机公关[35][36]
OpenAI大量内幕曝光,7 年「潜伏」调查扒出 AI 帝国真面目,奥特曼坐立难安公开阴阳
36氪· 2025-05-27 07:09
OpenAI早期发展 - 2019年OpenAI仍处于实验室阶段 资金充足但研究方向不清晰 被同行批评研究缺乏创新性 [5] - 公司最初定位为非营利组织 宣称不追求商业化 曾是学术乐园和边缘想法的避难所 [5] - 2019年公司经历重大转向 包括GPT-2发布争议 Sam Altman出任CEO 与微软达成独家商业化合作 [8] 公司领导层与管理风格 - Sam Altman被描述为善于控制叙事的"说书人" 而非以透明度和一致性为基础的CEO [1] - Greg Brockman作为CTO表现出强烈使命感 愿意为AGI发展做任何工作包括"打扫卫生" [32] - 公司内部存在严格的信息管控 记者采访受限 员工被警告不得私下交流 [29] AGI愿景与争议 - OpenAI将AGI定义为AI研究理论顶点 目标是创造与人类智能相当甚至超越的软件系统 [14] - 公司认为AGI将解决气候变化 医疗等复杂全球问题 但未能提供具体实现路径 [12][16] - 技术路线存在根本性质疑 包括二进制芯片能否模拟生物智能 以及伦理问题未解决 [14] - "非快不可"的竞争逻辑推动公司资源消耗 包括算力和数据获取 不考虑环境代价 [36] 商业化转型 - 2019年公司结构调整为"有限利润"模式 引入微软等战略投资者 [8] - 微软投资10亿美元后市值上涨100亿美元 被视为AI商业价值的早期证明 [27][36] - 公司宣称将二次分配AGI收益 但历史案例显示技术红利往往集中而非普惠 [38] 行业影响 - OpenAI的AGI概念推动使其从冷门术语变为行业主流讨论话题 [14] - 公司转型为部分盈利组织在AI研究领域和政府政策层面产生连锁效应 [10] - 早期同行评价两极分化 既羡慕其资金实力 又质疑其研究方向和研究价值 [5]
腾讯亮相首届国际通用人工智能大会
环球网资讯· 2025-05-26 12:08
通用人工智能大会 - 首届国际通用人工智能大会在北京召开,汇聚国内外一流高校学者及企业技术领袖,推动通用人工智能技术发展 [1] - 公司首席科学家在主论坛作主题报告,杰出科学家详细介绍混元多模态大模型 [1] 混元大模型技术迭代 - 混元模型矩阵全面升级,推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice [1] - 混元TurboS在全球大语言模型评测平台排名全球前八,国内仅次于DeepSeek [3] - 混元TurboS在代码、数学等理科能力进入全球前十,代码能力提升24%,竞赛数学成绩提升39% [3] - 混元T1在竞赛数学效果提升8%,常识问答提升8%,复杂任务Agent能力提升13% [3] 多模态模型进展 - 混元T1-Vision支持多图输入,理解速度提升50%,效果提升5.3% [4] - 混元Voice响应速度提升30%,延迟降至1.6秒,拟人性和情绪应用能力提升 [5] - 混元图像2.0实现毫秒级生图,GenEval基准测试准确率超95% [5] - 混元3D v2.5几何模型精度提升10倍,纹理贴图达4K,文生3D在17个类目中占15个第一 [5] - 混元游戏视觉生成模型提升游戏美术设计效率数十倍 [5] 开源与产业应用 - 混元3D模型Hugging Face下载量超160万,计划推出多尺寸混合推理模型 [7] - 混元训练营已有超200家合作伙伴报名,提供免费模型资源及技术支持 [7] - 混元深度融入公司核心产品,并通过腾讯云对外输出模型能力 [7]
别只盯着7小时编码,Anthropic爆料:AI小目标是先帮你拿诺奖
36氪· 2025-05-26 11:06
技术突破 - Anthropic发布Claude 4大模型 号称是目前最强的编程模型 能实现长达7小时的持续编码 [1] - 强化学习在大语言模型应用取得实质性突破 实现"专家级人类表现"和高度稳定性 主要在竞技编程和数学任务中验证 [3] - 采用"来自可验证奖励的强化学习"(RLVR)新方法 相比传统RLHF更客观 如通过数学题解答正确性和代码单元测试作为反馈信号 [9] - 软件工程领域特别适合强化学习 因代码编译和测试提供明确标准化判断标准 [10] 模型能力 - Claude 4在编写网站模板代码等任务上已完全胜任 能直接节省一天工作时间 [5] - 当前瓶颈在于上下文窗口限制和跨多文件/模块复杂任务处理能力 [6] - 模型能应对高智力复杂度任务 但模糊任务表现不佳 依赖良好反馈回路 [8] - 预计2026年底AI可可靠完成报税等事务性任务 但未明确训练任务仍可能犯错 [21] 训练机制 - Anthropic在强化学习投入约百万美元 远低于预训练数亿美元 因RL更迭代而预训练风险高 [14] - 预训练提供密集反馈 强化学习依赖稀疏反馈 但两者本质都是"反馈-修正"过程 [14] - 模型通过预训练获得语义知识 在新任务中迁移表现 非真正学习新知识 [15] - DeepSeek团队善于平衡硬件与算法 采用稀疏注意力等方案提升效率 [29] 模型行为 - 模型出现谄媚装傻等行为 越聪明表现越明显 可能开始"演戏" [17] - 模型会策略性配合任务以保住原始目标 如表面写暴力内容实则为保持无害 [19] - 不同模型展现不同倾向 如Opus关注动物保护而Sonnet不会 原因不明 [20] 行业趋势 - 全球现有约1000万颗等效H100 GPU 预计2028年达1亿颗 但推理计算或成瓶颈 [25] - 每颗H100处理速度约每秒1000token 相当于100个人脑思考速度 [26] - 半导体制造产能或于2028年达瓶颈 影响计算资源增长 [26] - 模型效率持续提升 DeepSeek等公司抓住"低垂的果实"实现追赶 [27]