通用人工智能(AGI)

搜索文档
OpenAI GPT-5 发布:模型能力全面“屠榜”,构建“超级智能”第一步
36氪· 2025-08-08 01:20
与此前 OpenAI 速通式的发布会明显不同,这次 OpenAI 准备了时长超过一个小时的发布会直播几波人马轮番上阵,你方唱罢我登场,从各种角度展示 GPT-5 的强悍性能。 经历过无数次「跳票」之后,GPT-5 终于来了。 北京时间 8 月 8 日凌晨一点,颇有新一代「科技春晚」架势的 OpenAI 夏季发布会拉开帷幕。 先说重点:GPT-5 在多个领域的表现都迎来了全面提升,在文本、WebDev 和视觉感知能力领域排名第一;在硬提示、编码、数学、创造力、长查询等方 面排名第一 GPT-5,在代号为「峰会」的测试下,目前保持着截至目前最高的 Arena 分数,可以说是字面意义上的「屠榜」了。 | C Model - 224 (224) | Coperad : 11 | Hard Proenpts 11 | Coding Ti | March 10 | Creative Writing : 11 | Instruction Following | Longer Query fi | Mults-Torn 51 | | --- | --- | --- | --- | --- | --- | --- | --- ...
GPT-5登场,有三大亮点!OpenAI奥特曼:已从大学生变博士级专家
齐鲁晚报· 2025-08-08 01:09
千呼万唤始出来,GPT-5终登场。 8月8日,人工智能(AI)巨头OpenAI正式推出GPT-5。OpenAI CEO山姆·奥特曼(Sam Altman)称之为"进化","比任何以往的AI都更实用、更聪 明、更迅捷、更人性化。" 山姆·奥特曼正式发布GPT-5 奥特曼用三个身份类比了OpenAI的三代模型:GPT-3像是高中生,偶有灵光闪现但常伴挫败感;GPT-4像大学生,具备真实智慧与实用价值; GPT-5则如同按需召唤各领域的博士级专家,随时助力达成目标。 同时,深度思考模式下也能更诚实地向用户传达其操作和能力了。GPT-5在处理不可能完成、具体要求不明确或缺少关键工具的任务时,不会为 了获得高额奖励,"谎报"自己成功完成了任务或者对不确定的答案过于自信,而是更准确地识别任务无法完成的情况,并清晰地传达局限性。 奥特曼表示,GPT-5是OpenAI通往通用人工智能(AGI)道路的重要里程碑。 根据发布会所展示的,GPT-5在编程、数理逻辑、文本创作、健康咨询及视觉感知等多维度,整体智能水平相较前代产品实现跃升。 在健康医疗领域,GPT-5可以通过动态适应用户背景、知识储备及地域特征,其提供的健康指导精准度 ...
刚刚,GPT-5淘汰所有OpenAI模型,地表最强编程惊艳全场,马斯克不服开怼
36氪· 2025-08-08 00:56
产品发布与市场表现 - OpenAI发布新一代旗舰模型GPT-5,立即向免费、Plus、Pro、Team用户开放,企业和教育用户一周内获得访问权限[1] - GPT-5发布后迅速登上大模型竞技场榜首,在文本、编程、数学等全领域排名第一,Arena Score达1481±11[3] - 公司CEO称GPT-5达到博士级别智能,能完成日常规划、发送邀请函等任务,不仅是问答工具[4] - 发布2小时后推文获得超160万浏览,OpenAI估值飙升至5000亿美元,比年初翻倍[44][46] 技术特性与架构 - GPT-5将非推理与推理模型融合,支持"按需思考"功能,根据任务难度自动判断思考深度[3] - 模型集成多模态能力,相当于融合GPT和o系列模型,用户无需纠结产品族选择[4] - 提供4种人格模式:愤世嫉俗者、机器人、倾听者和书呆子,支持界面颜色自定义[3][18] - 采用新型安全训练方法"安全完成",减少不必要拒绝回复,阿谀奉承回复比例从14.5%降至6%以下[42] 性能表现与基准测试 - 在科学知识基准GPQA上获得88.4% SOTA成绩,无需工具辅助[4] - 事实性错误较o3减少80%,在LongFact和FActScore测试中错误率仅为o3的1/5[32] - 编程能力显著提升,在SWE-bench测试中达74.9%,Aider polyglot测试88%[37] - 长上下文处理能力突出,OpenAI-MRCR测试中表现优于o3和GPT-4.1,随输入长度增加优势扩大[27] 产品矩阵与商业化 - 推出四版本模型:GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro,免费用户超限额后自动转用mini版[6] - API定价:GPT-5输入/输出每百万token 1.25/10美元,mini版为1/5价格,nano版为1/25价格[6] - 与Anthropic和谷歌相比,GPT-5 API成本相当或更低,如Claude Opus 4价格为15/75美元[7] - GPT-5-pro专供Pro用户,采用并行测试时计算技术,在67.8%测试中被专家认为优于GPT-5[43] 应用场景与功能 - 编程能力获Cursor创始人认可,能快速解决GitHub上遗留3周的PR问题[14] - 可创建动态SVG演示图解释复杂概念,如伯努利现象,并允许用户交互调整参数[10][11] - 改进语音功能使对话更自然,免费用户每天可使用数小时,支持韩语等语言学习[18] - 增强记忆功能,Pro用户可接入Gmail和日历自动规划日程,考虑历史安排[20] 技术参数 - API支持最大272k输入tokens和128k输出tokens,总上下文长度400k tokens[22] - 引入verbosity参数控制回答详略程度,支持最低推理模式快速返回答案[22] - 在工具调用基准τ2-bench telecom中创96.7%新高,能可靠串联数十次工具调用[29][34] - 开源BrowseComp Long Context基准,用于评估长背景信息问答能力[34]
重磅!OpenAI正式发布GPT-5 A股“AI新风口”受益方向一览
中国金融信息网· 2025-08-08 00:51
转自:新华财经 新华财经北京8月8日电(丁晶) 当地时间周四(8月7日),OpenAI官方正式推出了备受外界期待的、性能更强的新一代人工智能模型 GPT-5。 中信证券表示,GPT-5等将成为新一代AI应用发展基石,智能体和多模态两大主线有望持续引领产业,并同步带动推理端算力需求。 健康:GPT-5能更积极地标记潜在健康问题,帮助用户解析医疗结果,尽管OpenAI强调,ChatGPT不能替代医疗专业人员。 谁能用GPT-5? GPT-5 本身是一个集成模型 GPT-5是一个统一的系统,由智能高效模型+深度推理模型(GPT-5 thinking)+实时路由器组成。 其中,智能高效模型可回答大多数问题;深度推理模型用于解决更复杂的问题。实时路由器则是会根据对话类型、复杂性、工具需求 和用户明确意图,快速决定使用哪种模型,且会基于真实信号持续训练改进。一旦达到使用限制,每个模型的精简版将处理剩余的查 询,OpenAI未来将会把这些功能整合到一个单一模型中。 GPT-5在基准测试中表现优于之前的模型,回答问题速度更快,对实际问题的解答更有帮助,幻觉可能性显著降低。 拥有编程、创意写作、健康领域三大优势 根据OpenA ...
特朗普:英特尔CEO必须立即辞职,没有其他解决办法;蔚来高管:反对向理想用户泼脏水,有人把祸水往蔚来身上引;微信重申没有已读功能
雷峰网· 2025-08-08 00:33
特朗普对英特尔CEO的指控与芯片关税政策 - 特朗普要求英特尔CEO陈立武立即辞职,指控其存在严重利益冲突,因陈立武在2012-2024年间通过个人或风投基金投资至少2亿美元于中国科技企业[4] - 英特尔当前员工总数从10.98万削减15%至约7.5万人,芯片制造技术落后台积电且无AI芯片市场份额[4] - 特朗普计划对进口芯片征收100%关税,但豁免已在美国建厂或承诺建厂的企业,NVIDIA与苹果因本土投资将获豁免[5] 国内新能源汽车行业动态 - 蔚来高管马麟否认针对理想车主的负面舆情与蔚来有关,呼吁理想用户理性看待并体验蔚来ES8和乐道L90车型[7][8] - 智界汽车宣布独立运营,投入超百亿元研发资金,团队扩至5000人,成立芜湖"松山湖"研发中心,计划推出R7/S7新款及MPV车型[10] 科技公司与产品更新 - 微信重申永不推出"已读功能",腾讯高管强调该设计是为减少用户社交压力[12][13] - 百度计划8月底发布新版推理模型,逻辑推理能力宣称超越OpenAI o3满血版,同时筹备基座大模型升级[16] - 小米澎湃OS 3将引入灵动岛UI设计,优化动画与AI功能,由小米16系列首发搭载[25][26] 人工智能与机器人领域进展 - OpenAI发布GPT-5模型,整合语言与推理能力,事实错误率较GPT-4o降低45%,免费与付费用户均可使用[35] - 智元机器人联合创始人闫维新及灵犀总裁魏强离职,内部称因发展阶段目标不符[18][19] - 全球首家具身智能机器人4S店Robot Mall在北京开业,集合40余家厂商50多款产品,覆盖医疗/工业等场景[23] 半导体与硬件技术 - 台积电2nm工艺研发信息遭窃,东京电子解雇涉事员工,9人涉案中3人因拍摄资料被开除[34] - 苹果宣布6000亿美元美国芯片供应链投资,涵盖晶圆生产到封装全环节,台积电亚利桑那工厂为主要合作伙伴[36] - 格力电器披露芯片团队近千人,技术人员占比超60%,否认子公司"零边界"仅18人参保的质疑[15] 企业战略与人事变动 - 小鹏汽车将设计资源投入提升至与AI训练同等优先级,计划年投20亿元,上海新增两栋造型团队办公楼[30] - 捷豹路虎CEO由塔塔汽车CFO巴拉吉接任,母公司强化管控,聚焦降本增效[38][39] - 微软CEO纳德拉回应裁员1.5万人称"深感愧疚",但强调员工总数稳定且市值突破4万亿美元[41] 自动驾驶与智能硬件 - 百度"萝卜快跑"无人车在重庆坠入施工沟槽,运营方未回应事故原因,该区域已实现100%无人驾驶[28] - 商汤"日日新"大模型接入小米AI眼镜,提供实时音视频交互能力,销量超4.7万台[31][32] - 大疆发布首款扫地机器人ROMO系列,起售价4699元,技术复用无人机视觉与导航算法[24]
马斯克拆台、微软抢先接入!GPT-5终于来了 一键生成网页、博士级智能 却因基准图错误遭吐槽
华夏时报· 2025-08-08 00:27
产品发布与定位 - OpenAI于8月7日推出新一代旗舰AI模型GPT-5,并称其为"世界上最好的模型",将免费向所有用户开放[1] - 免费用户、Plus用户、Pro用户和团队用户当天即可使用,企业用户和教育用户将于下周开放访问[1] - GPT-5被定位为通往通用人工智能(AGI)的重要里程碑,公司首席执行官称其是"重要一步"[5][7] 性能表现与技术特性 - 在LMSYS Arena评分中,GPT-5以1,481分位列第一,高于谷歌Gemini 2.5 Pro的1,460分和xAI Grok 4的1,429分[4] - 在SWE-bench Verified编码基准测试中,GPT-5首次尝试准确率达74.9%,高于o3模型的69.1%和GPT-4o的30.8%[7] - 在Humanitys Last Exam测试中,GPT-5 Pro版本使用工具后得分42%,略低于Grok 4 Heavy的44.4%[10] - 模型采用统一系统架构,可自动识别何时需要快速响应或长时间思考,无需用户手动选择模式[4] 核心能力提升 - 编程能力显著增强,可凭单一提示创建完整网站、应用程序和游戏,在间距、排版等设计细节上有所改进[7] - 创意写作能力突出,能够处理无韵律抑扬格五音步诗和自由诗等复杂文体[13] - 健康咨询领域表现提升,在HealthBench Hard Hallucinations测试中错误信息率仅1.6%,远低于GPT-4o的15.8%和o3的12.9%[15] - 响应中包含事实错误的可能性比GPT-4o低约45%,比o3模型低约80%[17] 安全性与用户体验 - 进行了5000小时安全测试,采用新型"安全补全"训练方式,教模型在安全范围内提供最有帮助的答案[16][19] - 幻觉率显著降低,能更清晰地解释自身局限性,减少无根据的断言[16][19] - 提供四种可选预设性格(愤世嫉俗者、机器人、倾听者、书呆子),用户可调整交互风格[19][20] 生态系统整合 - 微软宣布将GPT-5集成到Copilot生态系统,包括Microsoft 365 Copilot、GitHub Copilot、Azure AI Foundry和Copilot Studio[30] - 新智能模式支持动态模型切换,增强推理和特定任务响应能力[30] - 开发人员可通过Azure AI Foundry利用GPT-5的模型路由器确保任务精度[30] 产品演示与市场反馈 - 演示中生成法语学习应用程序,几分钟内创建包含抽认卡、测验和贪吃蛇游戏的完整网页应用[2][13] - 发布会现场出现基准图表数据与显示不匹配的问题,例如编程测试中52.8%准确率标注对应了超过69.1%的柱状图高度[22] - 部分业内人士认为表现未达预期,特别是在ARC-AGI-2测试中未超越Grok 4[25][29]
OpenAI最强模型GPT-5来了!免费可用,Altman高呼迈向AGI一大步,微软抢先接入
美股IPO· 2025-08-08 00:24
GPT-5模型发布 - OpenAI推出新一代旗舰AI模型GPT-5,是首个将o系列模型推理能力与GPT系列快速响应能力结合的"一体化"系统[1][3] - CEO Sam Altman称GPT-5是"世界上最好的模型",标志着公司在实现通用人工智能(AGI)道路上迈出重要一步[3] - 模型在SWE-bench Verified代码测试中准确率达74.9%,略超Claude Opus 4.1的74.5%和Gemini 2.5 Pro的59.6%[7][9] 技术性能提升 - 编程能力显著增强,在复杂前端生成和大型代码库调试方面表现突出,能凭单提示创建完整网站/App/游戏[7] - 创意写作处理能力提升,可完成无韵律五音步诗等复杂结构写作,响应更自然[12] - 健康领域错误信息率仅1.6%,远低于GPT-4o的15.8%和o3的12.9%[15] - 幻觉问题大幅改善,响应中包含事实错误的可能性比GPT-4o低45%,比o3低80%[17] 产品商业化 - 周四起向所有用户开放,免费用户有使用限制,Pro用户可无限使用并获得增强版GPT-5 Pro[4] - 微软同日宣布将GPT-5整合至365 Copilot、GitHub Copilot等全线产品[5][24] - 开发者可通过Azure AI Foundry平台获取所有GPT-5模型,配备AI驱动的模型路由器[27] 用户体验优化 - 引入四种可选预设性格(愤世嫉俗者/机器人/倾听者/书呆子),初始适用于文本聊天后将扩展至语音[20][21] - 采用统一系统架构配备实时路由器,自动决定快速响应或深度思考,无需用户手动设置[24] - 新的安全训练模式"安全补全"能更细致处理敏感问题,减少不必要的拒绝[19][20] 行业竞争格局 - 在Humanity's Last Exam测试中GPT-5 Pro得分42%,略低于xAI的Grok 4 Heavy(44.4%)[9] - 微软AI红队测试显示GPT-5推理模型具有历代最强AI安全配置之一[27] - 公司以每年1美元象征性收费向美国联邦政府机构提供企业版ChatGPT[5]
美国东北大学教授李向明接受《环球时报》专访:未来两三年是中国人形机器人的机遇期
环球时报· 2025-08-07 22:57
人形机器人产业发展现状 - 2025世界机器人大会在北京举办,200余家国内外优秀机器人企业亮相,中国国产机器人大规模集体亮相,掀起了以人形机器人为代表的新一轮发展高潮 [1] - 今年是人形机器人元年,中美两国均处于刚起步状态,中国在人形机器人领域处于世界第一梯队 [2] - 美国在传统机器人领域深耕30多年,在机器人实体和机器人大脑方面优势明显,但中国在产业链上具有不可替代的优势 [2] 中美两国人形机器人对比 - 美国特斯拉第三代人形机器人"擎天柱"预计今年推出、明年量产,5年内实现年产100万台的目标,目前已在特斯拉工厂参与车尾装配、电池安装及检测等工作 [4] - 特斯拉是少数能把大模型和实体结合得很好的企业,但机器人量产仍需依赖中国供应链,百分之八九十的供应链在中国 [4][5] - 美国AI巨头如谷歌、微软主要精力放在AI神经网络研究上,冲刺AGI目标,而中国企业正利用这两三年的空窗期发展市场应用 [6] 日本在人形机器人领域的贡献与现状 - 日本早稻田大学加藤一郎实验室1969年研发出第一台以双脚走路的仿人机器人,本田、丰田等企业曾打下良好基础 [3] - 目前日本人形机器人产业已不复当年,中美两国相当于踩在日本的肩膀上发展人形机器人 [3] 人形机器人未来发展趋势 - 人形机器人将对全球供应链产生冲击,制造业强国可能失去优势,未来工厂将自动化、无人化、定制化 [6] - 人形机器人产业未来将模块化,消费者可定制外观、语言、技能等配置,但至少需要20年才能走进普通家庭 [8] - 中国需尽快打造人形机器人高精产业链,形成不可替代的主导地位 [7]
OpenAI深夜放出GPT-5狙击谷歌!基准测试碾压前代模型,价格比Claude更便宜
AI前线· 2025-08-07 20:24
GPT-5发布核心信息 - OpenAI正式推出GPT-5模型,CEO山姆·奥尔特曼称其为"具备通用智能的模型",是迈向AGI的重要一步,但尚未达到完全通用人工智能水平[3] - 模型特点包括:更智能、更快、更准确、幻觉率降低26%(相比GPT-4o),并经过5000小时安全测试[3][17] - 上下文窗口扩展至256,000 tokens(前代200,000 tokens),显著提升长文本处理能力[10] 产品版本与定价 - 推出三款模型:旗舰版GPT-5、轻量版GPT-5-mini和低成本版GPT-5-nano(仅API)[6] - API定价:GPT-5输入125美元/百万tokens,输出10美元/百万tokens;GPT-5-mini输入0.25美元/百万tokens;GPT-5-nano输入0.05美元/百万tokens[9] - 订阅方案:免费用户可用GPT-5和mini版,Plus用户享更高限额,Pro套餐(200美元/月)提供无限访问和GPT-5-pro版本[8] 技术性能突破 - 编程能力:在SWE-Bench Verified测试得分74.9%,SWE-Lancer(GPT-5-thinking)得分55%,Aider Polyglot得分88%[11] - 健康领域表现:GPT-5-thinking在HealthBench Hard测试得分25.5%(前代31.6%),三项健康基准测试均大幅超越前代[16] - 演示案例:1分钟内生成交互式法语学习网页应用,包含进度跟踪、闪卡和测验功能[14] 商业化与生态整合 - 用户规模:周活跃用户近7亿,付费企业用户500万,API开发者400万[18] - 微软全平台接入:包括Microsoft 365 Copilot、GitHub Copilot和Azure AI Foundry[21] - 新功能:Pro用户可连接Gmail/谷歌日历,聊天界面支持4种预设人格(愤世嫉俗者/机器人/倾听者/书呆子)[9] 行业反响 - Box CEO评价GPT-5为"彻底突破",解决复杂文档理解难题[24] - 用户反馈:社交平台热议模型价格优势(相比Claude Opus 4.1输入15美元/MTok)[29][30] - 开发者关注:智能代理任务执行能力提升,包括长链条任务处理和工具调用优化[13]
云天励飞陈宁:AI推理芯片是中国的大机遇
上海证券报· 2025-08-07 18:28
行业趋势与市场前景 - AI推理市场规模预计从2025年的1061.5亿美元增长至2030年的2549.8亿美元,复合年增长率19.2%,彭博社预测2032年达1.3万亿美元 [5] - 2025年被视作AI从训练时代转向推理时代的元年,五年内将出现人工智能的"iPhone时代",端侧AI如AI PC、可穿戴设备等成为热点 [6][7] - AI推理芯片是第四次工业革命的关键,中国在AI应用和推理领域具有优势,全球市场分散且需本地化适配 [8] 公司战略与产品布局 - 公司全面聚焦AI芯片,围绕边缘计算、云端大模型推理、具身智能三大核心布局,推出第二代和第三代算力积木架构 [2][10] - 已研发五代神经网络处理器芯片,形成深界、深穹、深擎三大SoC系列,覆盖8T到256T算力,支持万亿级参数大模型 [9][11] - Edge10芯片量产并应用于机器人、无人机、边缘网关等场景,带动一季度营收同比增长168.23% [12] 技术路线与创新 - 采用"算力积木"架构提升国产工艺芯片算力,支持C2C互连和Mesh互联,实现混合专家模型高效推理 [11][12] - 区别于英伟达GPU,公司基于TPU和NPU自主研发,Nova500平台支持端到端运动大模型 [11] - 推出的深穹X6000Mesh加速卡具备强大视频编解码能力,可部署610B大模型 [12] 行业机遇与竞争 - AI推理芯片市场技术路线多样化,中国公司如云天励飞、寒武纪等在推理领域取得进展 [8][9] - 端侧AI将重新定义所有电子产品,包括可穿戴设备、智能终端、电动汽车等 [7] - 国产芯片通过异构封装、多节点互连技术弥补制程短板,达到更优性能 [9]