Marey

搜索文档
腾讯研究院AI速递 20250801
腾讯研究院· 2025-07-31 16:01
GPT-5泄露与功能曝光 - 大量用户在ChatGPT、MacOS应用、Cursor、微软Copilot及OpenAI API平台发现GPT-5痕迹,预计最快下周发布 [1] - GPT-5将整合GPT系列和o系列,实现多模态和推理能力大一统,包括主模型(代号"nectarine"或"o3-alpha")、mini版(代号"lobster")和nano版(代号"starfish") [1] - GPT-5将支持100万tokens上下文窗口、MCP协议与并行工具调用,其中mini版本Lobster特别强化编程能力 [1] DeepSeek R2核心技术突破 - DeepSeek与北京大学联合完成的《Native Sparse Attention》论文获ACL最佳论文奖,实现模型处理长文本速度提升11倍 [2] - 首创"原生稀疏注意力"机制,将模型从"割裂拼接"推向"有机融合",在不牺牲性能的情况下大幅提升效率 [2] - NSA技术已完成27B、MoE架构上的完整预训练验证,通过三种阅读策略(压缩块、选择性精读、滑动窗口)和门控机制 [2] 谷歌AlphaEarth基础模型 - Google DeepMind推出AlphaEarth Foundations,将多源地球观测数据整合为统一数字表征,实现10米级精度地球观测 [3] - 系统整合卫星图像、雷达扫描、3D激光测绘等多种数据,以10×10米网格分析全球陆地及近海,所需存储空间仅为同类AI系统的1/16 [3] - 多项技术创新包括自适应解码架构、空间密集型时序瓶颈和地理文本精准对齐 [3] Moonvalley视频生成技术 - AI视频生成公司Moonvalley宣布旗舰模型Marey正式支持Sketch-to-Video功能,用户可通过手绘草图一键生成电影级视频 [4] - 该功能支持人物动作或摄像机运动路径定义,自动生成连贯视频 [5] - 目前支持1080p@24fps输出,订阅价格14.99美元/月起 [5] Ollama可视化界面升级 - Ollama 0.10.1版本正式上线可视化图形界面,同步支持Mac和Windows [6] - 新版本提供全新对话界面,支持下载模型、与PDF和文档对话、多模态交互和文档编写功能 [6] - 内置新的多模态引擎,支持发送图片给大语言模型 [6] 1688 AI版转型 - 1688推出全新AI版App,上线免费企业查询工具"88查"和全新商家数字人Agent [7] - 1688 AI版聚焦创业与拿货场景,集成AI搜索、选品、创款、图搜、查企等功能 [7] - 商家数字人已有40万商家使用,带动平台GMV和询盘增长18% [7] 逐际动力人形机器人 - 逐际动力推出LimX Oli全尺寸人形机器人,身高165cm、拥有31个主动自由度 [8] - 该机器人软硬件设计贯彻"模块化"与"全开放"理念,提供完整SDK系统 [8] - 推出Lite、EDU及Super三个版本,起售价15.8万元 [8] Meta超级智能愿景 - Meta CEO扎克伯格发布公开信,表示已开始看到AI系统自我改进迹象 [9] - Meta正改变AI模型发布策略,暗示Llama系列不再全部开源 [9] - Meta在第二季度财报中宣布将于2025年斥资高达720亿美元用于AI基础设施建设 [9] a16z AI投资新标准 - a16z合伙人Martin Casado认为AI投资不再看模型性能,而是平台是否能持续交付业务结果 [10] - 平台竞争分化的三要素为组织模式、资源配置与产品策略 [10] - AI估值逻辑回归具体场景,基于悲观、中性、乐观三种场景进行拆解模拟 [10]
特效成本下降90%,它用1.54亿美元,打造合规电影级AI视频
36氪· 2025-07-22 12:07
公司融资与市场地位 - 公司完成8400万美元A+轮融资 由General Catalyst领投 CAA YC CoreWeave等参与 总融资额达1.54亿美元 成为AI视频赛道融资规模最高玩家之一[2] - 2023年完成3600万美元种子轮融资 2024年11月完成7000万美元融资 今年完成8400万美元A+轮融资[20] 技术突破与产品特性 - Marey模型突破AI长视频与高清合规门槛 支持分钟级长视频生成 私人测试版本支持30秒时长[6] - 支持1080P 24帧/秒电影级画质 基于高分辨率授权电影素材训练[6] - 首创前景/中景/背景分层编辑与3D镜头轨迹控制 支持近360度摄像机运动模拟[2][9] - 具备物理仿真能力 可模拟重量 动量等物理属性和时空关系[7] - 与ComfyUI集成 支持节点式工作流 可自定义分辨率 长度 参数 风格 批量处理视频[9] 成本优势与行业应用 - 单场景渲染成本仅1-2美元 较传统VFX制作成本下降90%以上[2] - 实际案例帮助纪录片《Menudo:永远年轻》降低40%制作成本[11] - 功能覆盖影视制作全流程 包括特效生成 B-roll素材补充 电视节目后期微调等[11] - 已收购电影工作室Asteria 在十余家大型影视工作室启动试点项目 参与HBO纪录片等项目[20] 数据合规与版权保护 - 模型仅使用自有或授权数据训练 80%素材来源于独立电影制作人 YouTube用户等授权渠道[17] - 允许创作者申请数据删除及追溯补偿 彻底规避版权争议[18] - 训练素材数量约为Sora或谷歌Veo的20% 但通过合规性构建竞争壁垒[18][20] 商业模式与用户体系 - 采用订阅制销售 月费档位包括15美元(100积分) 35美元(250积分) 150美元(100积分)[20] - 用户可选择自愿将生成视频贡献至训练数据集 以此换取会员积分奖励[20] - 采用社区驱动迭代 用户可投票选择优先开发功能[11] 行业发展趋势 - AI视频正逐步渗透好莱坞制作现场 案例包括《野兽派》AI配音 《光》AI嘴型调整 《普京》AI后期合成[5] - 传统制片厂开启自救模式 迪士尼自主研发AI工具 Netflix利用自研AI工具完成视效镜头[14][15] - 主流工具如Google Veo 3 Sora Runway普遍未公开训练数据来源细节 依赖互联网内容抓取[13]
速递|Moonvalley发布首个公开数据训练的AI视频模型Marey:如何实现360度镜头控制与物理模拟
Z Potentials· 2025-07-09 05:56
公司技术 - Moonvalley推出"3D感知"混合模型Marey 通过结合文本提示与手动控制为电影制作人提供更强操控性 区别于标准文本转视频模型[1] - Marey基于公开授权数据训练 避免AI生成内容涉及版权材料的法律风险 针对规避诉讼的电影制作人群体[1] - 模型支持5秒片段生成 符合行业标准 提供14 99美元/100积分至149 99美元/1000积分的订阅服务[1] 产品功能 - 实现物理世界模拟能力 如遵守运动定律 可替换视频主体(野牛→凯迪拉克)并保持环境互动(草叶尘土响应)[3][4] - 支持自由镜头运动 通过鼠标拖拽实现平移滑动变焦 接近360度视角调整 模拟手持/轨道拍摄效果[5] - 具备背景替换功能 保留主体同时转换场景(郊区道路→乡村公路) 未来将新增光照调节/深度轨迹等控制[5] 应用案例 - 独立制片人Ángel Manuel Soto使用Marey降低20%-40%制作成本 解决传统设备租赁的高资金门槛[2] - 应用于影视全流程 包括拍摄前场景测试与后期镜头角度调整 控制物体/角色/动作/构图等要素[2] - 曾用于HBO纪录片《Menudo: Forever Young》制作 通过收购Asteria(XTR)工作室强化内容生产能力[2] 行业定位 - 直接对标Runway Gen-3/Luma Dream Machine等AI视频生成器 强调差异化控制能力[5] - 技术对标Google Veo 3和OpenAI Sora 共享物理世界理解能力 但更早开放商业化应用[3] - 创始团队含DeepMind前研究人员 具备谷歌视频模型开发经验 技术背景深厚[1]