Workflow
谷歌二代Nano Banana
icon
搜索文档
腾讯研究院AI速递 20251110
腾讯研究院· 2025-11-09 16:09
生成式AI - Grok 4 Fast上下文窗口提升至200万token,相当于Gemini 2.5 Pro的2倍、GPT-5的5倍,推理模式完成率从77.5%跃升至94.1% [1] - Grok Imagine升级后生成质量达到真假难辨程度,x.ai在OpenRouter上API调用份额达26.4% [1] - 200万token上下文能力可一次性处理相当于150万英文单词或6000页文本 [1] - OpenAI发布GPT-5-Codex-Mini紧凑版,使用量是GPT-5-Codex的约4倍,ChatGPT Plus等用户速率限制提高50% [2] - 代码中发现GPT-5.1系列三个新模型痕迹,包括旗舰模型GPT-5.1、推理模型GPT-5.1 Reasoning和研究级GPT-5.1 Pro [2] - 新模型或于11月底发布,其中一个模型可能已以Polaris Alpha名字在OpenRouter等平台测试 [2] - 谷歌Nano Banana 2预览版支持原生2K可选4K超分,复杂场景生成仅需10秒 [3] - 该模型可在黑板上一键推导微积分,基于纯文本直出Windows桌面+YouTube主页等复杂UI界面 [3] - 二次元生成、人物角色、监控录像等场景表现逼真,能保持高度角色一致性,预计11月中下旬正式发布 [3] - AI原生影视工作室Utopai Studios与SFR成立资本规模达数十亿美元合资公司Utopai East [4] - Utopai采用"规划与渲染解耦"架构,通过统一状态空间耦合,解决传统模型长程一致性崩塌问题 [4] - 该架构能实现跨数十个镜头稳定保持角色身份和场景一致性,将创意迭代周期从数周缩短至几天 [4] - 新版Google Finance整合Gemini多模态AI模型的"深度搜索"功能,可在几分钟内扫描数百份资料生成综合性分析报告 [5] - 首次将预测市场数据整合进主流金融工具,为投资者提供"市场情绪晴雨表" [5] - 新设计的"财报季体验"界面支持实时文字转录、AI生成新闻摘要和历史数据对比 [5] 前沿科技 - AI蛋白质结构生成模型RFdiffusion可根据指定病毒表位从头设计抗体结构,达到接近原子级精度 [6] - 该模型已成功设计出针对流感、艰难梭菌毒素、新冠病毒和RSV病毒的抗体,冷冻电镜验证设计与实际结合方式几乎完全一致 [6] - RFdiffusion几小时可"画"出全新抗体设计图,可精确指定攻击病毒特定部位 [6] - 美国简化阿尔忒弥斯登月计划登月舱方案,取消大量机载设备改用一次性燃料箱,加油发射次数从15-30次削减到不足10次 [8] - 中国航天集团宣布新一代载人运载火箭关键技术已突破即将开展演示验证飞行 [8] - 中国长征十号火箭总长92.5米起飞推力约2678吨,地月转移轨道运载能力不小于27吨 [8] 报告观点 - Yann LeCun、李飞飞、黄仁勋等六位AI巨头因共获伊丽莎白女王工程奖齐聚激辩AI革命真实性 [9] - 黄仁勋认为AI是"生产力"本身而非泡沫,需数千亿美元AI工厂服务数万亿美元新产业 [9] - LeCun指出当前大语言模型范式无法通向人类级智能需根本性突破 [9] - Geoffrey Hinton预测20年内实现人类级AI,李飞飞强调还有广阔空间智能等前沿领域待开拓 [9] - Kimi K2 Thinking在Artificial Analysis智能指数中获得67分,领先所有开源模型,在智能体应用场景排名第二仅次于GPT-5 [10] - 该模型在τ²-Bench Telecom基准测试中取得93%成绩,创开源模型历史新高,在代码指数中超越DeepSeek V3.2成为新晋开源冠军 [10] - 模型总参数量1万亿激活参数320亿,原生以INT4精度发布,但在完成评测时使用了1.4亿token,约为DeepSeek V3.2的2.5倍 [10] - HuggingFace发布超200页技术博客,系统分享训练先进LLM的端到端经验,基于384块H100 GPU训练3B参数模型SmolLM3的实战过程 [11] - 博客涵盖从决策到落地全流程,包括训练罗盘、消融实验设计、模型架构、数据管理、后训练和基础设施等核心内容 [11] - 强调"数据质量影响远超架构选择",训练LLM是"边训练边学"过程,预训练团队初期2-3人足矣 [11]