AI多模态生成

搜索文档
Z Event|00后创业者、大厂同学下班一起聊AI?北京、杭州线下Gen Z创翻AI行业报名中
Z Potentials· 2025-07-23 02:48
活动招募 - 公司正在北京和杭州两地举办生成式AI应用与硬件创业主题的线下饭局活动 时间分别为2025年7月25日周五晚7点和2025年7月26日周六晚7点 [3] - 活动面向00后大厂员工 AI创业者及潜在创业者 每场活动限6-8人参与 [3] - 报名采用三角匹配机制 需提交过往背景 潜在创业方向和个人风格信息 确保讨论话题精准匹配 [3] - 活动重点覆盖AI多模态生成 Agent技术 AI社交娱乐和AI效率工具等前沿领域 [3] 目标人群 - 公司主要招募00后具有创造力的创业者 特别关注AI领域的创新人才 [5] 活动特色 - 活动采用饭局形式 营造轻松交流氛围 旨在促进深度行业交流 [1] - 讨论内容涵盖AIGC落地方案和机器人迭代等硬核技术话题 [1]
Z Event|00后创业者、大厂同学下班一起聊AI?北京线下Gen Z创翻AI行业报名中
Z Potentials· 2025-07-21 03:55
生成式AI应用与硬件创业活动 - 活动时间为2025年07月25日周五晚7点 地点为北京 具体地点报名后通知 [1] - 活动面向00后大厂员工 AI创业者及潜在创业者 人数限制为6-8人 [1] - 主题聚焦生成式AI应用与硬件创业 涵盖AIGC落地方案 机器人迭代等硬核话题 [1] - 讨论重点包括AI多模态生成 Agent技术 AI社交娱乐及AI效率工具四大领域 [1] - 报名采用三角匹配机制 需提交过往背景 潜在创业方向及个人风格 确保话题精准度 [1] 实习生招募 - 公司正在开展新一期实习生招聘计划 [3] 公司品牌 - 活动主办方为Z Potentials品牌 [6]
Z Event|00 后创业者、大厂同学下班一起聊 AI ?北京线下 Gen Z 创翻 AI 行业报名中
Z Potentials· 2025-07-20 02:48
生成式AI应用与硬件创业活动 - 活动时间定于2025年7月25日周五晚7点在北京举行 具体地点报名后通知 [1] - 活动面向00后大厂员工 AI创业者及潜在创业者 人数限制6-8人 [1] - 主题聚焦生成式AI在应用与硬件领域的创业机会 涵盖AIGC落地方案和机器人迭代等硬核话题 [1] - 讨论重点包括AI多模态生成 Agent技术 AI社交娱乐和AI效率工具四大方向 [1] - 报名采用"过往背景+潜在创业方向+个人风格"三维匹配机制 确保话题针对性 [1] 公司动态 - 正在开展新一期实习生招募工作 [3]
原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架
机器之心· 2025-05-29 03:04
核心观点 - 中国人民大学高瓴人工智能学院与值得买科技 AI 团队提出了一种名为 JointDiT 的生成框架,首次实现从静态图像直接生成同步音视频内容的技术突破 [1][6][11] - 该技术解决了传统多模态生成中音视频语义错位与节奏失调的问题,通过联合注意力机制和联合引导机制实现高质量同步生成 [8][15][17] - 在 CVPR 2025 会议上发表的实验数据显示,JointDiT 在视频质量(FVD 326)、音频质量(FAD 23.9)和音视频一致性(AV-Align 1.296)等核心指标上全面领先现有方法 [19][20] 技术背景 - 人类感知本质上是多模态的,但现有 AI 生成技术长期将视觉与听觉拆分为独立研究路径 [6] - 谷歌 Veo 3 模型已开始探索视频与音频同步生成,而 JointDiT 首次系统定义了图像到有声视频(I2SV)这一新任务 [6][11] - 传统拼接方法(如 SVD+Im2Wav)存在语义错位问题,例如视频中小狗未张嘴却配汪汪叫声 [8][10] 技术方案 - **架构设计**:通过解构预训练的音视频扩散模型,在专家层引入 Joint Block 实现跨模态交互,保留独立输入输出层处理模态差异 [13] - **感知式联合注意力**:采用模态特定的 Query-Key-Value 映射,解决音视频在时间/空间/频率维度的异构差异 [15] - **联合引导机制**:提出 JointCFG* 技术,在强化图像条件引导的同时增强跨模态交互,提升语义一致性与时间同步性 [17] 实验结果 - **定量数据**:在 GreatestHits 数据集上,JointDiT 的 FVD(173)和 FAD(1.08)显著优于 SVD+AudioLDM(FVD 441,FAD 26.65)等对比方法 [20] - **用户评价**:在视频质量、音频质量、语义一致性等五项主观评分中均排名第一,领先第二名近 20% [21] - **案例表现**:保龄球击瓶案例中,生成视频精确模拟撞击声与瓶子倾倒的连锁声响,视听延迟符合物理规律 [25][26] 应用前景 - 可应用于娱乐内容创作、影视制作等领域,例如将静态剧照自动转化为带环境音效的动态预告片 [28] - 为构建多模态通用模型(图像/文本/音频/视频四模态联合)提供技术基础,未来或实现"一张照片讲述完整故事" [28][29] - 项目代码与模型将近期公开,官方 Demo 页已展示技术细节与案例 [30]