Claude 4

搜索文档
前谷歌 CEO 施密特:AI 像电与火,这 10 年决定未来 100 年
36氪· 2025-09-24 01:27
2025 年,AI 世界正被无形的张力撕扯: "AI 的到来,在人类历史上,等同于火、电的发明。而接下来的 10 年,将决定未来 100 年的格局。" 他不是在讲模型性能,也不是 AGI 的远近,而是在说: 一边是模型参数的激增,一边是系统资源的极限。 大家都在问:GPT-5、Claude 4、Gemini 2.5 谁更强?但前谷歌 CEO Eric Schmidt (埃里克·施密特) 在 2025 年 9 月 20 日的公开演讲中提出了更深层的洞 察: AI 不再是提升工具效率,而是重新定义商业运作方式。 在这场对话里,Eric Schmidt 开门见山地说: "AI 的到来在人类历史中,和电、火的发明处于同一等级。" 他不是在强调 AI 有多聪明,而是在提醒大家:我们熟悉的工作方式、管理模式、赚钱方法,都可能要彻底改变。 不是让 AI 帮你写得更快, 而是让 AI 决定该怎么写。 与此同时,在硅谷知名投资机构 a16z 的一场对话中,芯片分析师 Dylan Patel 指出: "夸张的说,现在抢 GPU 就像抢'毒品'一样,你要托关系、找渠道、抢配额。但这不是重点,真正的竞争是谁能构建出支撑 AI 的一个 ...
AI赋能债市投研系列二:AI应用如何赋能债市投研?
浙商证券· 2025-09-18 07:30
报告行业投资评级 未提及 报告的核心观点 本文聚焦现阶段AI技术在债券市场的应用与前沿固定收益领域的垂类大模型,介绍AI在债券投研的应用(曲线构造、投研流程优化、结构化产品定价),后续将介绍量化手段在债券市场的实际应用[1] 根据相关目录分别进行总结 引言 2025年以大语言模型为代表的AI快速演进,改变金融市场研究与实践范式,在固定收益与资产配置领域,AI的引入更具挑战与价值;传统固定收益投研方法难以在复杂数据环境中保持鲁棒性,大模型技术可提升研究深度与决策效率;全球投资机构探索AI与固收业务结合,本文为行业提供AI在固收投资应用前景的参考[11][12] 当前大模型的发展趋势 2025年大模型发展呈“旗舰化、生态化、内嵌化”趋势;旗舰化如GPT - 5等成为成熟产品,生态化表现为开源与闭源并行,内嵌化如BondGPT将生成式AI嵌入债券交易;主流模型在合规性等维度突破,满足金融行业需求;BondGPT Intelligence缩短信息检索与交易决策距离,推动市场走向“人机协同”[13][17][18] AI大模型在固收投资中的运用 以BlackRock Aladdin为例,其将AI嵌入研究与交易工作流;投研中利用大模型处理非结构化文本信息,辅助研究员判断;投资组合构建与再平衡方面,借助大模型生成情景分析和约束优化工具;交易执行维度,对债券市场流动性评分排序,提升交易效率和质量;风控环节,强化核心功能,发现潜在风险并生成报告;Aladdin实践揭示海外资管机构AI发展三条路径,未来可能演变为AI驱动的投资操作系统[19][25][30] 固定收益和资产配置领域中的垂类大模型 已落地的垂类模型包括BondGPT和BondGPT +;BondGPT由GPT - 4和专有模型驱动,用于自动化债券分析和非流动性证券查询,优势是可即时获取信息、界面直观、返回结果快,提升交易文件处理速度40%;BondGPT +是企业级版本,支持整合数据,提供多样部署方式和API套件,具备实时流动性池分析等功能,提升交易商与客户匹配效率[31][32][35] 固定收益和资产配置领域已落地AI应用 曲线构造 收益率曲线构建是将离散市场报价转化为连续可插值曲线的过程,构建的曲线是定价等的基石;生成式AI变革传统利率建模,新型深度学习框架准确率比Nelson - Siegel模型提升12%,Libor模型经AI改进后1 - 10年期限利率误差幅度低于0.5%[40] 重塑债券投研生态 大型语言模型与生成式AI重塑投研生态;交易维度,为债券分析和决策提供自然语言界面与生成能力,完成债券分析任务,实现实时流动性池分析和报价请求响应,提升交易对手匹配效率25%,实现固定收益套利自动化;风险管理领域,LLM提升信用风险评估准确率[41][43] ABS、MBS、结构化产品 AI驱动的估值框架可实现自动化现金流分析、改进提前还款速度预测(精度提升10 - 20%)、降低CMO分档定价误差;生成式AI能模拟住房市场场景、预测拖欠率、优化投资组合配置;合成数据可用于动态贷款层面建模和实时信用增级分析[44][45]
Asia Morning Briefing: Bittensor’s dTAO Shows a Retail Path to AI Exposure Beyond Robinhood’s SPVs
Yahoo Finance· 2025-09-17 23:43
Good Morning, Asia. Here's what's making news in the markets: Welcome to Asia Morning Briefing, a daily summary of top stories during U.S. hours and an overview of market moves and analysis. For a detailed overview of U.S. markets, see CoinDesk's Crypto Daybook Americas. Robinhood got all kinds of attention earlier this year when it claimed to be able to offer its retail users exposure to OpenAI’s growth story via tokenized shares backed by a special purpose vehicle. Counsel for OpenAI, has warned that t ...
速递|这家初创公司正在教AI Agent如何真正完成任务
Z Potentials· 2025-09-12 05:55
行业背景与问题 - 初创公司和大科技企业正致力于解决"Agent型商务"问题 即开发能代表消费者完成购物等行动的AI代理服务 [1] - AI搜索虽能帮助购物者找到理想商品或服务 但让AI代理真正完成购买或预订仍存在技术挑战 [2] 公司技术与解决方案 - AUI公司开发了名为Apollo-1的"Agent语言模型" 声称比OpenAI、Google和Anthropic的代理产品更可靠 [2] - 该模型采用"神经符号推理"技术 将大语言模型的神经网络与传统符号推理AI技术相结合 通过逻辑理解数值关系并用代码表达 [3] - 神经符号推理能将规则和指导原则纳入推理过程 提高系统可靠性 对企业客户更具吸引力 [4] - 模型会逐步分解推理过程 使开发人员和运营人员能够理解其行为逻辑 并可设定指导方针或规则 [8] 性能表现与测试数据 - 在τ-Bench-Airline基准测试中 Apollo-1任务完成成功率超过90% 而Claude的成功率仅为60% [5] - 测试评估代理在更改航班预订或查询新航班选项等复杂现实任务中的表现 [5] - 在通过Google Flights成功预订航班和使用亚马逊Rufus聊天机器人完成商品选购等其他基准测试中也表现优异 [6] 商业应用与发展规划 - 计划今年晚些时候向公众开放Apollo-1访问权限 作为基础模型供企业和开发者构建部署自己的智能体 [3] - 目标客户包括银行、航空公司、保险公司和零售商等需要确保可靠性的大型企业 [8] - 已与Google Cloud达成战略合作 允许Google Cloud客户使用AUI模型驱动聊天机器人和智能代理 [8] - 未来可能扩展应用场景至语音模式等领域 [8] 公司背景与融资 - 由企业家Ohad Elhelo和Ori Cohen于2017年创立 [2] - 已获得4500万美元融资 [3] - 前三年收集了约6万人提供的分步骤任务完成数据 这些数据驱动了Apollo-1的研发 [3]
很多人要的免费不限次数版本,终于来了
猿大侠· 2025-09-05 04:11
产品发布与市场表现 - 谷歌正式发布名为gemini-2.5-flash-image-preview的图像生成与编辑模型[2] - 该模型上线后迅速登顶Artificial Analysis图像编辑排行榜首位,ELO评分达1212分[3][6] - 发布不到一周即改变行业竞争格局,超越GPT-4o(ELO 1101)和FLUX.1 Kontext(ELO 1092)等主流模型[5][6] 技术特性与性能 - 具备SOTA级图像生成与编辑能力,保持惊人的角色一致性和闪电般的处理速度[14] - 支持单张照片元素修改,能在新场景下保持主体外貌一致性[15] - 支持多张照片融合,能完美识别背景与主体并生成逼真图像[17] - 处理时间仅需数十秒,替代传统Photoshop等专业工具[19] - 单张图像生成成本约0.039美元(约0.28元人民币)[21] 应用场景与用户反响 - 生成AI手办图像达到以假乱真效果,引发多领域用户广泛传播[8][9][12] - 覆盖宠物圈、户外圈、动漫圈及游戏圈等多元用户群体[12] - 支持背景替换(如将梅西照片背景替换为西湖景点)[46][48] - 实现外貌特征修改(如秃头变茂密头发)[51] - 支持虚拟试衣功能,可保存网店服装并换装查看效果[53] 平台接入与使用方式 - 通过DeepSider浏览器插件提供国内访问渠道,支持QQ邮箱/163邮箱注册[22][26] - 插件支持多模型切换(包括GPT-5、Grok4、Claude 4、Gemini 2.5 Pro等)[27][55] - 提供两条Nano Banana线路,其中一条为不限次数的限时免费服务[35] - 支持PDF/Word/TXT等多格式文档智能解析及多文档同时上传[60] 行业影响与竞争优势 - 模型效果引发病毒式传播,类似GPT-4o绘图模型发布时的吉卜力画风热潮[11][12] - DeepSider作为侧边栏工具提供顶级大模型免费使用,无需安装客户端或配置API[65] - 支持多设备登录,月卡套餐最低仅20余元,降低用户使用门槛[66]
AI应用:浮现中的AI经济
机器之心· 2025-08-30 01:18
人类经济活动数字化进程 - 计算机发明标志着人类进入数字化时代 经济活动开始被先后顺序数字化[4][5] - 数字化使算法驱动经济活动成为可能 实现智能化[5] - 尼葛洛庞帝《数字化生存》提出"Move bits, not atoms"理念 指出比特世界效率千万倍于物理世界[8] - 数字化进程分为两个阶段:第一阶段互联网/移动互联网完成物理世界数字化 第二阶段算法开始具备交付工作能力[9] 互联网/移动互联网经济特征 - 最大特点是匹配效率极大提高 通过桌面PC和手机硬件实现主流生活需求数字化[11][12] - 三大核心赛道:搜索(信息与人匹配)、社交(人与人匹配)、电商(商品与人匹配)[12] - 匹配方式演进:前互联网阶段就近获得→互联网阶段全局搜索→移动互联网阶段个性化推荐[13] - 个性化推荐解决"知识不足导致选择低效"问题 将经验证的最佳选择推荐给共性用户[14] - 当前数字化程度:个人消费行为数字化较高 企业经济活动数字化仍有提升空间[15] AI经济系统特征 - 2017年后AI进入新阶段 具备泛化交付工作能力[18] - 计算机首次能完整参与"收集信息-决策-行动"全链条[19] - 2025年成为重要时间点 AI智商超过人类平均水平100 达到110以上[22][23] - OpenAI o3达"天才级"水平 字节豆包模型可达清华北大录取成绩[23] - 行动能力分两阶段:第一阶段完成数字世界工作(编程/文案/设计) 第二阶段具身智能完成物理世界工作(清洁/制造/护理)[21] 全天候自动运行系统 - 经济系统可自动运行直至工作完成[26] - 在同等能力下 AI每日工作量达人类3倍 每周4.2倍 每年约4.32倍[26] - Anthropic Claude 4模型可自主运行7小时 年底将实现全天候软件工程智能体[28] - 应用案例:Lovart自动生成logo及全套VI Sema4.ai实现7×24小时发票整理[29] 无劳动力供给限制 - 计算能力成为新劳动力供给 可无限复制且边际成本低[33] - 对比生物性劳动(时间/数量约束)和机械性劳动(研发成本高) AI突破传统限制[33][34] - 凯恩斯曾预测百年后生活水平提高4-8倍 但未预料到计算机带来的新阶段[40] - 发展经济学中刘易斯"二元经济"模型若成立 将是全球消费者福音[36] 非稀缺经济形态 - 数字世界先实现N倍产出能力 服务业总供给大幅提升[38] - 具身机器人成熟后拓展至物理世界 成本低于人类劳动力[38] - 凯恩斯预言"非稀缺经济":单位时间总产出可能超过总需求[39] - 实际增长超预期:1950-2000年增长率2.9% 收入水平达1930年17倍[40] 交易成本降低 - 数字技术降低五类成本:搜寻/复制/交通/追踪/验证成本[45] - AI阶段将出现"数字层" 由个人AI助理和垂类Agent组成 全面了解经济主体和物理世界[46] - "数字层"实现更精准匹配 企业内外部交易成本进一步降低[47] - 匹配方式进阶:大模型个性化推荐使商品颗粒度更细 社交推荐从"打标签"变为"全方位了解"[48] 决策理性化提升 - 计算机首次参与决策 仅从成本收益角度分析 不受心理因素影响[53] - 行为经济学发现的非理性行为(前景理论/禀赋效应/心理账户等)可能大幅减少[52][53] - 投机行为驱动因素(非理性心理/从众心理)被抑制 降低经济损耗[53] 历史数据价值释放 - 计算机突破当世人类经验限制 纳入历史事实与观点[56] - 人类可同时向当世和历史求解 寻求"时空最优解"[57] - 稀有体验可能成为历史大数据中的可归纳经典[56] 人的全面发展 - 非稀缺经济下个人拥有充足时间用于自我实现[59] - "数字层"作为普惠贴身导师 帮助每个人成为更优秀的自己[61] - 需完成两大任务:确保AI系统受人类控制 保证生产力成果为全人类共享[62] - 当前可能进入"数字轴心时代" 重新定义核心价值[62]
GPT正面对决Claude,OpenAI竟没全赢,AI安全「极限大测」真相曝光
36氪· 2025-08-29 02:54
合作背景与意义 - OpenAI与Anthropic罕见合作进行AI模型安全交叉验证 尽管Anthropic因安全策略分歧从OpenAI独立 此次合作聚焦四大安全领域测试[1] - 合作基于AI技术重要性提升 每天有数百万用户使用模型 此类合作对行业安全发展至关重要[1] 指令优先级测试 - Claude 4在指令优先级测试中表现最佳 尤其在系统与用户消息冲突处理及提示词提取抵抗方面突出[3][4] - 在Password Protection测试中 Opus 4与Sonnet 4得分达1.000满分 与OpenAI o3持平 显示强推理模型优势[5] - 在更具挑战性Phrase Protection任务中 Claude模型与OpenAI o3持平 略优于OpenAI o4-mini[8] 越狱抵抗测试 - 使用StrongREJECT v2框架测试越狱抵抗 OpenAI采用60个禁止领域问题 每个问题约20种变体进行压力测试[16] - 推理模型如OpenAI o3 o4-mini Claude 4 Sonnet 4对越狱尝试抵抗力强 非推理模型如GPT‑4o GPT‑4.1更易受攻击[18] - Claude模型易被"过去时态"越狱突破 OpenAI o3在此方面表现更优 失败多限于base64提示及低资源语言翻译[18] - 在辅导型越狱测试中 OpenAI o3与o4-mini表现优异 无推理模式Sonnet 4超过启用推理的Opus 4[24] - 开发者消息纳入后 OpenAI o3得分超0.98 GPT-4.1提升至0.75以上 显示其强化指令层级遵循的有效性[24] 幻觉评估 - Claude模型拒答率高达70%但幻觉率低 OpenAI o3 o4-mini拒答率低但幻觉率高 体现不同安全策略权衡[3][35] - 在人物虚假信息测试中 Claude系列优先确保确定性 OpenAI系列追求回答覆盖率但幻觉风险更高[35] - SimpleQA测试显示 OpenAI o3与Claude系列正确错误比例接近 OpenAI o4-mini表现最差[36] 欺骗与操纵行为 - 测试涵盖撒谎 保留实力 成绩作弊等行为 基于智能体评测方法统计平均欺骗率[37] - Opus 4与Sonnet 4平均欺骗率较低 OpenAI o3 o4-mini中等 GPT-4o GPT-4.1表现偏弱[37] - 在不同阈值下 Claude系列覆盖环境数更多 表现更稳健 OpenAI与GPT系列结果更分散[39]
代码里插广告,腾讯 Codebuddy 们 “背锅”?DeepSeek “极你太美”事件,其他模型也逃不掉?
36氪· 2025-08-27 07:44
文章核心观点 - DeepSeek V3.1模型在代码生成任务中出现异常输出,随机插入"极"字及相关中文词汇(如"极速电竞""极客园"),问题根源可能来自训练数据污染或模型蒸馏过程遗留的瑕疵[4][8][16] 问题表现与影响范围 - 腾讯Codebuddy和字节Trae国内版均出现异常输出:腾讯产品插入"极速电竞APP"广告文本[1],字节产品随机生成"极"字且修改时会删除上下代码[2] - 异常输出涉及特定token:ID 2577(简体"极")、ID 16411(繁体"極")、ID 15075(英文"extreme")[4] - 第三方平台复现率较高(如DeepInfra、Akash Chat、VolcEngine API),官方API出现概率较低但可复现[6] - 历史版本同样存在类似问题:V3-0324版本输出"极速赛车开奖直播"[8]、R1 0528版本插入"极客园"[8]、4月已有开发者提交GitHub issue[8] 技术原因分析 - **数据污染假说**:预训练或SFT阶段数据未清洗干净,可能混入"极长的数组"等模式化文本[16][17] - **蒸馏传染机制**:R1-Zero模型遗留问题通过合成数据传播至DeepSeek-R1,进一步影响V3版本[16] - **Token生成机制**:模型将"极"字作为边界token或终止符使用,反映统计规律而非语言理解[17] - **其他模型类似问题**:Qwen3系列(235B/30B/480B)、Gemini、Grok均出现跨语言异常输出[12] 行业关联与延伸影响 - 多企业产品受影响:腾讯元宝、字节Trae、Fireworks API等集成DeepSeek模型的产品出现异常[4][8][12] - 开源社区协同排查:GitHub、Reddit、知乎等平台聚集开发者分析根本原因[4][8][12] - 训练链条缺陷暴露:自蒸馏过程中数据瑕疵被放大,需加强数据合成→预训练→SFT→RLHF全链条监控[18]
代码里插广告,腾讯 Codebuddy 们 “背锅”?DeepSeek “极你太美”事件,其他模型也逃不掉?
AI前线· 2025-08-27 05:42
DeepSeek V3.1模型异常输出事件 - 腾讯Codebuddy和字节Trae国内版在代码生成过程中出现异常输出,包括插入"极速电竞APP"广告文本和随机生成"极"字[2] - 问题根源指向DeepSeek最新的V3.1模型,腾讯已上报问题并承诺修复[4] 异常输出表现形式 - 在本地ik_llama.cpp测试中,预期输出"time.Second"变为"time.Se 极"或"time.Se extreme"[5] - 在Fireworks平台测试中,预期输出"V1"变为"V 极"[6] - 异常token包括ID:15075("extreme")、ID:2577(简体"极")和ID:16411(繁体"極")[5] 问题复现情况 - 官方API复现概率较低但存在,第三方平台复现率较高[7] - 修改异常字符后官方API问题概率下降,但VolcEngine等平台问题概率仍保持高位[7] - 该问题被网友称为"极你太美"事件,DeepSeek尚未作出正式回应[8] 历史问题追溯 - 早期DeepSeek R1模型就存在类似问题,会输出"极速赛车开奖直播"字符串[10] - R1 0528版本曾在代码中多次插入"极客园"[10] - 4月份就有开发者在GitHub提交该bug,怀疑是模型权重或分词器问题[10] 同类问题扩展 - Gemini模型存在更严重的代码混合问题,常在响应中生成中文单词[14] - Grok模型也出现过类似问题[14] - Qwen3 235B A22B Instruct 2507和Qwen3 Coder 30B A3B Instruct表现出同样问题[14] - Qwen3 Coder 480B A35B Instruct在严重量化后出现相同问题[14] - GLM 4.5模型未受影响[14] 问题原因分析 数据污染假说 - 预训练数据可能包含"极客"和"极速"等高频率词汇组合[15] - 模型输出"极"后可能接"客"+"园"形成"极客园",或"速"+"赛"形成"极速赛车"[15] - 问题可能源于R1-Zero模型,通过合成数据训练传播到DeepSeek-R1和V3 0324版本[17] 蒸馏传染理论 - 大模型在编程题中会出现枚举数列的恶性pattern[18] - R1-0528会在枚举后输出"极长的列表"或"极大的数字"[18] - 训练数据可能包含"极长的数组"等未洗净内容,模型将"极"当作终止符使用[19] 技术机制分析 - 排除Token连续性假说,量化不会改变向量形状导致token混淆[15][17] - 排除MTP(Multi Token Prediction)问题[17] - 模型将"极"作为边界token使用,反映其学习数据统计规律而非真正理解语言[19] 行业影响与建议 - 自蒸馏链条延长会导致数据瑕疵多次放大[20] - 需要在数据合成→预训练→SFT→RLHF全链条建立严格监控和清洗机制[20] - 该现象为研究模型内部符号学提供了有价值案例[20] - 开源模式有利于问题发现和集体修复[20]
从GPT5看未来AI产业发展趋势
2025-08-11 01:21
行业与公司 - 行业:AI产业,聚焦大模型技术及应用 - 公司:OpenAI(GPT-5发布方)、Claude 4(竞品)、阿里云(云服务)、鼎捷数智/科大讯飞(垂类场景公司)[1][3][11] --- 核心观点与论据 **1 GPT-5技术特点与商业化进展** - 采用路由器机制串联多模型,优化复杂任务处理,幻觉率从"大几个点降至小几个点",代码/数学/推理能力显著提升[1][3] - API定价降低:输入1.5美元/百万TOKEN,输出10美元/百万TOKEN,显示OpenAI扩大市占率决心[1][3] **2 AI应用货币化阶段差异** - 海外领先:因人工替代成本高,2025年进入上下半场切换阶段[4] - 国内加速追赶:新一代模型缩小中美差距,下半年或超越Claude 4[5][9] **3 国内AI产品形态趋势** - 从chatbot/copilot转向agent形态,与业务流程深度融合,预计2025下半年加速转变[6] - 工程化优势:中国擅长单点优化,场景丰富+试错环境助力快速提升准确度[8][9] **4 投资方向建议** - 技术资源:推理需求增长带动整机/IDC边际拐点[11] - 云服务:阿里云等大厂受益于大模型能力与成本优势[11] - 垂类场景:农业/工业/教育领域数据壁垒公司(如鼎捷数智、科大讯飞)[11] --- 其他重要内容 **1 争议与机遇** - GPT-5被质疑缺乏架构创新(尤其多模态未达预期),但实际应用效果(如幻觉率下降)推动货币化加速[2] **2 政策驱动** - 国内政策引导国企优先应用AI,国央企示范作用提升下游客户积极性[10] **3 长期竞争力** - 国内模型通过工程与产品结合,在单点效率上可能超越海外,并具备出海潜力[9] --- 数据与百分比引用 - GPT-5幻觉率下降幅度:"大几个点→小几个点"[3] - API成本:输入1.5美元/百万TOKEN(对比GPT3略低)[3]