Workflow
人工智能模型
icon
搜索文档
小杯Gemini战胜GPT5.2,1分钟模拟Windows操作系统
量子位· 2025-12-18 04:40
一水 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌丢出 Gemini 3 Flash ,给AI圈示范了啥叫:小孩子才做选择题,成年人当然是全都要(doge)。 一个公式来形容这款新模型: Gemini 3 Flash=Pro级智能+Flash级速度+更低价格 。 比速度,它几乎是Gemini 2.5 Pro的3倍,实测更是丝滑到起飞: 比智能,它更是在多个经典测试中,战胜了包括Gemini 3 Pro、GPT5.2在内的一众顶尖模型。 数图中有多少根手指,GPT5.2张口就来"5根",而Gemini 3 Flash成功识破陷阱并给出正确答案"6根"。 画一张骑车的鹈鹕,Gemini 3 Flash(右上)的表现明显优于Gemini 2.5 Pro(左)和Gemini 3 Pro(右下),而且这些还都是反复测试后 抽取的最佳结果。 Gemini 3 Flash率先答对,而Gemini 3 Pro将他误认为Gemini前负责人Jack Krawczyk (已于今年4月离职并转投Meta) 。 在更多测试中,Gemini 3 Flash都展示出自己不俗的综合实力。 虽然叫"Flash",但其实是谷歌迄今最强 ...
GPT-5.2真身是它?OpenAI紧急端出全套「下午茶」,新一代图像模型同步泄露
机器之心· 2025-12-10 10:30
OpenAI新模型发布动态 - 公司内部出现代号为“Olive Oil Cake”(橄榄油蛋糕)的新模型选项,标识码与现有GPT-5.1不同,被普遍猜测为GPT-5.2 [4][7] - 公司计划发布代号为“Chestnut and Hazelnut”(栗子和榛子)的下一代图像生成模型,疑似对应Image-2及其轻量版Image-2-mini [4][10][11] - 新图像模型旨在解决早期模型的色彩偏差问题,提升细节保真度,融合复古与先进视觉风格,并具备图像中撰写代码的能力 [11] - 这套“图像模型全家桶”预计将直接集成在ChatGPT中,服务于设计师和创意工作者 [16] 行业竞争与发布背景 - 公司此次行动被视为在内部“红色代码(Code Red)”警戒下,为阻击谷歌Gemini 3而进行的紧急反击 [5][8] - 谷歌Gemini 3在各项榜单上的强势表现,迫使公司可能将原计划于月底或明年的GPT-5.2发布时间提前 [8] - 在预测平台Polymarket上,市场押注的发布风向标从12月9日转向12月11日(本周四) [8] - 公司此举意在不让谷歌独占2025年末的市场关注度 [16]
上市公司数字技术风险暴露数据(2007-2024年)
搜狐财经· 2025-12-10 07:57
上市公司数字技术风险暴露数 据(2007-2024年) 上市公司数字技术风险暴露数据(2007-2024年) 上市公司数字技术风险暴露数据(2007-2024年) 上市公司数字技术风险暴露数据(2007-2024年) 大语言模型是指用于处理自然语言信息的大型人工智能模型,其中,FinBERT是国内首个在金融领域大 规模语料上训练的开流模型。这类模型利用注意力机制,得出对每个词上下文敏感的表示,能够捕获文 本中的长距离依赖性和复杂关系,从而更细致地理解和生成语言。 选择企业年度报告MD&A部分的文本作为识别数字技术风险暴露程度的信息基础基于以下两方面的考 虑:第一,大量文献证实MD&A部分具有客观有效的信息含量,存在风险揭示功能,并能增强财务报 告的有用性。我们发现在MD&A中,部分企业会以独立段落重点写明企业面临的技术风险。例如,某 企业指出:"公司技术革新风险:公司互联网视频业务对互联网的依赖程度较高,运营的安全易受到电 讯故障、黑客攻击、病毒等因素的影响。"第二,基于MD&A部分信息识别企业风险暴露情况的做法在 国内外众多文献中已经得到应用。 一、上市公司数字技术风险暴露数据下载地址 1.先在百度搜索以下 ...
铝:重心上移,氧化铝:继续承压,铸造铝合金:上行动力不足
国泰君安期货· 2025-12-08 03:20
报告行业投资评级 - 铝:重心上移;氧化铝:继续承压;铸造铝合金:上行动力不足 [1] 报告的核心观点 - 北京时间12月11日凌晨3点美联储将公布12月利率决议及主席鲍威尔召开货币政策新闻发布会,市场普遍预期联储将在此前两次降息基础上再次下调利率25个基点;面对谷歌和Anthropic竞争,OpenAI宣布进入“红色警报”状态并计划提前于12月9日发布新模型GPT - 5.2,GPT - 5.2几乎全面碾压Gemini 3和Claude 4.5 [3] - 铝趋势强度为1;氧化铝趋势强度为 - 1;铝合金趋势强度为0,趋势强度取值范围为【 - 2,2】区间整数, - 2表示最看空,2表示最看多 [3] 期货市场 电解铝 - 沪铝主力合约收盘价22345元,夜盘收盘价22165元;LME铝3M收盘价2901美元;沪铝主力合约成交量261562手,持仓量245335手;LME铝3M成交量22751手;LME注销仓单占比8.12%;LME给cash - 3M价差 - 30.25美元;近月合约对连一合约价差 - 15元;买近月抛连一跨期套利成本69.35元 [1] 氧化铝 - 沪氧化铝主力合约收盘价2555元,夜盘收盘价2580元;成交量268164手,持仓量327290手;近月合约对连一合约价差 - 15元;买近月抛连一跨期套利成本24.13元 [1] 铝合金 - 铝合金主力合约收盘价21190元,夜盘收盘价21070元;成交量8304手,持仓量16876手;近月合约对连一合约价差 - 260元;现货升贴水 - 80元;上海保税区Premium为100美元;欧盟鹿特丹铝锭Premium(MB)为325美元 [1] 现货市场 电解铝 - 预培阳极市场价6187元;佛山铝棒加工费310元;山东1A60铝杆加工费50元;铝锭精废价差607元;电解铝企业盈亏5700.25元;铝现货进口盈亏 - 1572.97元;铝3M进口盈亏 - 1515.04元;铝板卷出口盈亏3176.27元;国内铝锭社会库存59.30万吨;上期所铝锭仓单6.68万吨;LME铝锭库存52.83万吨 [1] 氧化铝 - 国内氧化铝平均价2831元;氧化铝连云港到岸价(美元/吨)338美元,(元/吨)2885元;澳洲氧化铝FOB(美元/吨)314美元;山西氧化铝企业盈亏 - 122元 [1] 铝土矿 - 澳洲进口三水铝土矿价格(美元/吨)(Al:48 - 50%, Si:8 - 10%)为某价格;印尼进口铝土矿价格(美元/吨)(Al:45 - 47%, Si:4 - 6%)为某价格;几内亚进口铝土矿价格(美元/吨)(Al:43 - 45%, Si:2 - 3%)71美元;阳泉铝土矿价格(含税现货矿山价,AI:Si = 4.5)为某价格 [1] 铝合金 - ADC12理论利润 - 272元;保太ADC12为21100元;保太ADC12 - A00为 - 990元;三地库存合计49486吨 [1] 烧碱 - 陕西离子膜液碱(32%折百)2430元 [1]
DeepSeek 上新
中国证券报· 2025-12-01 15:04
模型发布与定位 - 公司于12月1日正式发布两个模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [1] - DeepSeek-V3.2定位为平衡推理能力与输出长度,适合日常问答和通用Agent任务 [1] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,旨在将开源模型的推理能力推向极致 [1] 性能表现与基准测试 - 在公开推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [1] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [1] - DeepSeek-V3.2-Speciale在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [2] - 在AIME 2025测试中,Speciale模型得分为96.0,消耗约23k Tokens,表现优于GPT-5的94.6分和Gemini-3.0-Pro的95.0分 [3] - 在HMMT Feb 2025测试中,Speciale模型得分为99.2,消耗约27k Tokens,显著高于GPT-5的88.3分和Gemini-3.0-Pro的97.5分 [3] - 在IMOAnswerBench测试中,Speciale模型得分为84.5,消耗约45k Tokens,高于GPT-5的76.0分和Gemini-3.0-Pro的83.3分 [3] - 在CodeForces测试中,Speciale模型得分为2701,消耗约77k Tokens,接近Gemini-3.0-Pro的2708分,并大幅高于V3.2标准版的2386分 [3] - 在高度复杂任务上,Speciale模型大幅优于标准版本,但消耗的Tokens也显著更多,成本更高 [3] 竞赛成绩与能力边界 - DeepSeek-V3.2-Speciale在IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025中取得金牌水平的成绩 [2] - 其中,在ICPC与IOI的成绩分别达到人类选手第二名与第十名的水平 [2] 技术特性与使用方式 - DeepSeek-V3.2是公司推出的首个将思考融入工具使用的模型,同时支持思考模式与非思考模式的工具调用 [4] - 公司通过提出一种大规模Agent训练数据合成方法,构造大量难解答、易验证的强化学习任务,以提高模型的泛化能力 [4] - V3.2思考模式增加了对Claude Code的支持,但未充分适配Cline、RooCode等使用非标准工具调用的组件,建议用户在使用此类组件时继续使用非思考模式 [4] - 目前DeepSeek-V3.2-Speciale仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化 [3] 行业地位与影响 - DeepSeek-V3.2模型在智能体评测中达到了当前开源模型的最高水平,大幅缩小了开源模型与闭源模型的差距 [4] - 公司表示,V3.2并没有针对这些测试集的工具进行特殊训练,据此认为V3.2在真实应用场景中能够展现出较强的泛化性 [4]
谷歌又一张“王牌”发布!网友玩疯了
第一财经· 2025-11-21 03:21
产品发布与核心功能 - 谷歌于11月20日发布基于Gemini 3构建的新一代图像生成模型Nano Banana Pro [3][4] - 模型核心功能包括利用先进文本渲染、丰富世界知识和专业级创意控制来创建和编辑复杂视觉效果与信息图表 [4][5] - 关键升级方向涵盖支持2K和4K高分辨率直出、更优更长文字生成、多语言支持及图片内直接翻译、摄影质量参数调整以及1:1至9:16图片比例灵活调整 [7] 性能测试与实际表现 - 相比第一代Nano Banana,Pro版本在细节真实度上有显著提升,例如正确生成杂志名称并添加条形码等细节 [9] - 模型在多图像融合任务中表现合格但未超预期,存在角色与场景缺乏互动、角色一致性遵守不佳的问题 [16][17] - 在精准提示词引导下可实现高质量输出,例如使用14张玩偶图像生成自然融合画面,以及对电商场景中“侧逆光”、“柔光箱”等光影术语和材质反射率的精准理解 [19][21][24] 专业领域应用验证 - 模型展现出细分领域知识理解能力,成为首个能准确区分ITF跆拳道道服与奥运跆拳道道服并自动修正标志的AI模型 [27][29] - 在电商应用场景中,模型表现对中小卖家友好,可替代部分摄影师、灯光师及后期修图工作流程 [24] 用户策略与市场影响 - 面向消费者和学生提供免费有限配额体验,Google AI Plus、Pro和Ultra订阅用户可获得更高配额,开发者和企业可通过Gemini API等工具集成使用 [31] - 前代产品Nano Banana推动Gemini应用月活用户数从4.5亿暴增至6.5亿,主要得益于在泰国、印度尼西亚、印度等市场的病毒式传播 [32] - 新产品发布带动谷歌股价一度大涨超3%,总市值达3.65万亿美元超过微软,尽管最终收跌于3.49万亿美元,但年内涨幅仍超过50% [32]
9个月收益52.5%!这家外资基金火了,此前其高级副总裁晒1.67亿元年薪引发内部调查
每日经济新闻· 2025-11-12 16:16
Two Sigma在华业务表现 - 旗下一只侧重于中证500指数的指数增强策略基金,在今年前9个月收益率达到52.5%,比基准指数高出23个百分点[1] - 该中证500策略基金自2023年成立以来,平均年化收益率达到20.8%[1] - 公司旗下另一只宏观策略基金今年前9个月的回报为11.6%,从2020年启动以来的累计回报达到119.9%[1] - 公司在中国机构腾胜投资管理(上海)有限公司的资管规模在完成逾10亿人民币募资后,正式超过100亿关口[1] - 新募集的资金中约四分之三将进入中证500策略基金,剩余25%将进入宏观策略基金[1] 外资同行桥水基金在华表现 - 桥水基金于2019年在中国推出全天候增强型基金,成立以来每年都能录得正收益[1] - 桥水基金该产品在2024年的收益率达到37%,跻身全球对冲基金前十[1] - 稳定的超额表现使得桥水基金产品近两年需要“配货”才能分到额度[1] - 桥水中国的资管规模在2021年达到百亿门槛,并在去年突破550亿[1] Two Sigma公司概况 - 公司是美国华尔街的一家量化对冲基金,截至2023年,其管理规模超过600亿美元[2] - 公司采用大数据分析和人工智能模型构建投资策略,覆盖股票、债券、大宗商品等多个资产类别[2] - 公司因自主研发的量化模型和分布式计算技术成为行业头部机构[2] Two Sigma公司治理与风险事件 - 公司曾多次暴露管理缺陷,包括2022年的模型参数篡改事件导致客户亏损1.7亿美元[2] - 公司于2024年因模型漏洞被美国证监会处罚9000万美元[2] - 2023年,公司自曝两位联合创始人长期以来存在不合,2024年两位创始人退出日常管理,公司进入治理结构改革新阶段[2] - 2022年模型参数篡改事件的主角是前雇员吴舰,公司于2024年将其解雇并赔偿了客户损失[2] 前雇员吴舰个案 - 吴舰于2018年4月加入Two Sigma,从量化研究员做起,三年内升任量化研究部副总裁,2023年1月被提拔为高级副总裁[2] - 吴舰2022年的薪资高达2350万美元(约合人民币1.67亿元)[3]
欧盟推进数字边境管理系统建设
人民日报· 2025-10-20 22:39
新数字边境管理系统概述 - 欧盟自10月12日起分阶段对短期过境其外部边界的非欧盟公民实施电子登记,以加强边境管理和信息共享,打击身份欺诈及非法移民 [1] - 该系统是欧盟理事会和欧洲议会于今年5月达成临时协议后,在6个月内分阶段引入的,旨在通过大数据和人工智能进行实时评估 [1] - 新系统被视为不仅是技术升级,更是一种治理理念的革新,旨在安全与便利之间取得平衡 [3] 系统实施细节与流程 - 非欧盟公民首次进入申根区时需在指定柜台进行电子登记,提供护照信息以及指纹、面部图像等生物特征信息,部分数据可提前通过应用程序或自助服务终端提交以加速边检 [1] - 电子登记完成后,旅客在申根区内部口岸仅需进行面部信息验证即可通关 [1] - 该系统将覆盖29个申根区国家,并计划于2026年4月10日全面投入使用 [2] 后续规划与系统整合 - 新数字边境管理系统是第一阶段,下一阶段将推出欧洲旅行信息与授权系统,对享有免签待遇的非欧盟公民实施“事前筛查” [2] - 旅客需在启程前在线填写个人信息与安全问卷,系统将自动与欧洲刑警组织、恐怖分子名单等数据库交叉比对,通过风险评估后发放电子旅行许可 [2] - 最终目标是通过边境数字化管理,推动交通、签证、税务等领域的信息互通,形成跨国公共服务新标准 [3] 行业影响与市场反应 - 比利时布鲁塞尔机场等口岸的自动化闸机和人脸识别设备已陆续完成安装调试,为系统运行提供基础设施支持 [2] - 游客期待新系统投用后实现快速通关,此前有游客反映入境欧盟国家最长需排队等待4个小时 [2] - 对航空公司和旅游业者而言,数字化边检意味着更快的客流通关速度和更低的运营成本 [2]
9月30日国际晨讯 | 现货黄金价格升破3840美元再创新高 美国关键经济数据或延迟发布
搜狐财经· 2025-09-30 01:09
市场回顾 - 北京时间9月30日 日经225指数开盘涨0.01% 韩国KOSPI指数涨0.08% [6] - 当地时间9月29日 美国三大股指小幅收涨 道指涨0.15%报46316.07点 标普500指数涨0.26%报6661.21点 纳指涨0.48%报22591.15点 [6] - 欧洲三大股指收盘小幅上涨 德国DAX指数涨0.02%报23745.06点 法国CAC40指数涨0.13%报7880.87点 英国富时100指数涨0.16%报9299.84点 [6] - 贵金属市场再度走强 北京时间9月30日早盘 伦敦现货黄金价格再创新高 升破3840美元/盎司 [4][6] 国际宏观 - 美国总统特朗普在白宫与两院领导人会面 就避免政府停摆进行磋商 参议院民主党领袖查克·舒默称存在巨大分歧 [7] - 美国联邦政府资金将在当地时间9月30日午夜耗尽 若民主共和两党不能就拨款法案达成一致 联邦政府面临"关门"风险 [7] - 美国劳工统计局已发布政府停摆应急预案 一旦拨款中断将全面停摆并停止数据采集 所有计划中的数据如月度非农就业报告都不会发布 [7] - 美国证券交易委员会主席承诺推行最低限度监管 并加快特朗普废除季度财报规定的提议 [7] 企业资讯 - DeepSeek-V3 2-Exp模型于9月29日正式在Hugging Face平台发布并开源 该版本在V3 1-Terminus基础上引入DeepSeek Sparse Attention稀疏注意力机制 [8] - OpenAI计划发布新版Sora 2视频生成器 并将作为独立应用程序推出 该版本在内容版权方未主动选择"退出"情况下可能生成含受版权保护内容的视频 [8] 机构观点 - 高盛策略分析师称由于美国经济表现强劲 股市估值具备支撑以及美联储货币政策趋于宽松 全球股市有望持续上涨至年底 [9] - 高盛团队将全球股市在未来三个月的配置评级上调至增持 认为在经济增速放缓但政策支持力度较大的后期阶段 股票资产通常表现良好 [9] - 高盛建议鉴于衰退风险已得到控制 在年底前逢低买入股票 [9]
阿里巴巴正式推出 Qwen3-Max
每日经济新闻· 2025-09-24 03:06
公司产品发布 - 阿里巴巴推出Qwen3-Max模型 为目前规模最大且能力最强的模型[1] - Qwen3-Max-Instruct预览版在LMArena文本排行榜位列第三 超越GPT-5-Chat[1] - 正式版本在代码能力和智能体能力方面进一步提升[1] 技术能力表现 - 模型在涵盖知识、推理、编程、指令遵循、人类偏好对齐、智能体任务和多语言理解的全面基准测试中均达到业界领先水平[1]