Workflow
Whisk
icon
搜索文档
小众AI宝藏清单,谁会是下一个爆款?
AI研究所· 2025-07-10 09:53
核心观点 - 一批创新型AI应用通过跨界融合和功能创新,在细分领域展现出独特潜力,包括艺术音乐生成、UI设计、职场指导、虚拟旅游、动画创作和语音复刻等方向 [1][23] National Gallery Mixtape - 通过谷歌Gemini多模态模型解析世界名画(如梵高《向日葵》),将画作色彩、光影转化为对应情绪的大提琴曲或钢琴旋律 [2][3][5] - 采用MusicFX DJ实时作曲技术,支持用户调整音量/顺序/叠加效果,并显示"轻盈""钢琴"等音乐特征标签 [3][5] Stitch - 由Google Labs推出的UI设计工具,前身为Galileo AI,可将文字描述直接转化为完整UI设计稿 [6][7] - 支持导出Figma文件或前端代码,比Vercel v0更贴近设计师工作流,适用于快速验证产品创意 [9] Portraits - 以Google/苹果前高管Kim Scot为原型的AI虚拟人,提供职场指导与场景模拟训练 [10][11] - 支持语音/文字交互,可进行角色扮演演练并生成事后总结报告,模拟20年大厂高管的经验指导 [13] Talking Tours - 通过互动地图实现全球地标"云游览",AI导游提供建筑历史、文化背景的实时讲解 [14][17] - 支持街景浏览和即时问答,用户拍摄快照可触发AI重新生成讲解内容 [17] Whisk - 采用Gemini 2.5 Pro模型解析用户上传的参考图片(如猫+皇冠),生成Imagen 3图像 [18] - 集成Veo 2功能可将静态图转为短视频,降低动画创作门槛 [19] 声塔 - 基于科大讯飞"三阶段层次化语音建模框架",仅需用户朗读一句话即可克隆声线 [21][22] - 支持将文本转为带个人语音特征的播客音频,复现说话停顿、口音等细节 [21][22]
谷歌悄咪咪上线了 10 款 AI 应用,下一个 NotebookLM 可能在里面
Founder Park· 2025-06-09 13:37
Google Labs AI应用平台 - Google Labs是谷歌官方的AI实验平台,聚焦生成式AI项目,定位为AI创意孵化器,用于测试基于最新AI模型的新奇产品 [6][7] - 平台已上线10+款高完成度AI应用,涵盖创意设计、内容生成、教育娱乐等领域,包括Whisk、Gen Type、Mixtape等工具 [3][5] - 历史成功案例显示,Gmail等成熟产品早期均通过该平台验证,当前重点转向生成式AI方向 [7] 核心AI产品功能解析 创意生成工具 - Whisk实现低门槛AI生图,支持图片上传作为风格参考,结合Imagen 3模型生成融合图像,集成Veo 2技术可添加动态效果 [10][13][18] - Gen Chess提供象棋生成器,支持经典/创意双模式,输入IP名或食物等关键词即可生成主题棋子,含AI对战功能 [54][55][67] - Gen Type通过材质描述生成A-Z全套字体,如"吐司葡萄果酱"风格字母,输出PNG素材 [72][73] 垂直场景应用 - Food Mood实现跨国菜系融合,选择国家组合+食材可生成完整食谱,支持素食/无麸质等需求 [41][42][43] - Talking Tours提供AI导游服务,覆盖全球地标VR实景,支持实时画面生成新解说词 [77][79][83] - Career Dreamer基于现有职业生成技能图谱,推荐AI内容策略师等关联岗位 [85][86][90] 内容生产工具 - National Gallery Mixtape将名画转为AI音乐,支持6幅画作混音,显示"钢琴""弦乐"等特征标签 [37][38] - Illuminate播客工具可设定访谈风格,支持学术论文等文本转对话音频,区分随性/专业模式 [102][103][104] - Stitch通过文本生成UI草图,如披萨课程落地页、植物养护仪表盘等界面原型 [107][108][112] 技术实现与交互特性 - Whisk采用图片解析+提示词优化技术,准确还原橘猫毛发细节等特征,动画效果精准控制局部元素 [22][24][28] - Learn About构建结构化知识框架,提供简化/深入/可视化三种内容呈现方式 [94][96][99] - 产品普遍强调低交互门槛,如Food Mood随机生成功能、Gen Chess预设提示词模板等 [42][55][72]
AI产品千篇一律?去Google Labs,淘下一个AI爆款
机器之心· 2025-05-28 10:00
Google Labs平台 - Google Labs是谷歌推出的实验性平台,用于展示和测试正在开发中的新技术和产品原型,用户可提前体验未来可能发布的功能或服务 [5] - 平台分为五大类别:创造、学习、发展、玩和I/O新品,涵盖多种创新AI工具 [6] - 该平台曾于2002年推出并孵化出Gmail、Google Maps等产品,2011年关闭后于2023年重启,聚焦生成式AI、搜索和协作工具领域 [22] National Gallery Mixtape工具 - 由伦敦国家美术馆与Google Arts & Culture合作开发,可将200幅世界名画转化为音乐作品 [12][13] - 用户最多选择6幅画作,Gemini多模态AI模型分析画作色彩、主题、情感等元素,MusicFX DJ生成配乐 [15] - 提供Scores和Mixer两种模式,支持调整音乐风格、乐器、心情标签及画作叠加混音 [17][20] 其他创新AI工具 - Whisk可通过上传主题图、场景图和风格图混搭生成创意图像 [8] - MusicFX能根据提示词生成最长70秒音乐 [8] - Illuminate可将学术论文转为可收听音频 [8] - NotebookLM和Learn About分别为AI播客和AI家教工具 [8] 行业趋势 - AI产品同质化严重,但谷歌通过Google Labs持续输出脑洞大开的创新应用 [21][22] - 生成式AI推动谷歌重启Labs平台,聚焦前沿技术实验与孵化 [22][23]
实测全球爆火的Veo3,体验如何?
虎嗅· 2025-05-24 06:06
产品发布与市场表现 - Veo3在Google I/O大会上发布,成为最惊艳的更新,相比上一代Veo2的默默无闻,Veo3全球爆火[1][3] - Veo3搭载于Google全新整合型视频平台Flow和Whisk,目前对美区用户开放,订阅价格为每季度124.99美元[8] 技术亮点与功能 - Veo3在视频生成中实现了音画同步,能够生成符合视频内容的音效,如威尔·斯密斯吃面条时的"吸溜"声与画面完全一致[6][7] - 视频生成在物理逻辑上表现优异,如意大利面的缠绕和拉伸效果、水波纹的动态效果以及纸船漂浮的物理模拟[6][11][12] - 支持复杂场景的生成,如车展视频中展台设计、人群活动和主持人互动等细节几乎毫无瑕疵[34][35] - 能够生成特殊画幅视频,如鱼眼镜头和仿监控摄像画面,并保持细节和动作连贯[17][19] - 支持非语言类和语言类音效生成,包括非英语旁白,如青蛙角色台词与动作高度同步[26][28] 创意应用与案例 - Veo3被用于生成创意视频,如恐龙人弹吉他、老式录像带风格的蜥蜴人主角等,动作细节和纹理处理非常到位[20][22] - 用户通过Veo3制作"打破第四堵墙"的AI控诉视频,接近电影级品质,展示其在电影风格方面的实力[36][38][40][41] - 生成式视频在物理细节上表现细腻,如奶茶液体气泡、泡沫扩散以及毛毡奇异果切开的质感[15][16][24][25] 市场反应与争议 - Veo3的爆火引发乐子人用真人视频冒充AI生成内容,如电影《头号玩家》片段和扎克伯格的视频被误认为AI生成[42][44][46] - 行业人士评价Veo3技术进步迅速,预计下一代产品将难以与人工制作视频区分[45]
26款AI工具入门,看这一篇就够了
虎嗅APP· 2025-03-03 10:08
核心观点 - AI工具在2025年已形成成熟应用格局,涵盖对话、写作、绘画、视频、音频、编程、搜索和音乐等领域 [3][4] - 各细分领域领先产品已明确,行业增速放缓,竞争转向产品体验和垂直场景优化 [4] - AI工具显著提升工作效率,如半小时完成原本需一天的项目方案 [2] AI对话工具 - ChatGPT:功能最全面的对话平台,多模态能力领先但创新停滞 [9][10] - 豆包:中文理解最佳,字节跳动产品体验突出,适合国内用户 [11][12] - Gemini:整合Google搜索能力,实时信息检索优势明显 [13][14] AI写作工具 - DeepSeek R1:国内最强开源模型,创意写作能力强但存在幻觉问题 [16][17][19] - Claude:写作和代码能力行业领先,理解力强但对中国用户不友好 [21][23][24] - Grok:马斯克旗下产品,网络热点捕捉能力强,风格幽默 [25][26][27] AI绘画工具 - 即梦:字节跳动产品,东方美学处理出色,中文提示词支持好 [30][31] - Whisk:谷歌产品,图片组合创作模式创新,可玩性强 [35] - Recraft.ai:商业设计场景专用,可生成风格一致的成套设计资源 [36][37] AI视频工具 - 可灵:快手产品,国内视频生成领军者,画质和动作流畅度领先 [44][45][46] - Pika:动态元素融合能力强,视频生成质量一流 [47][48] - Runway:专业视频生成先驱,质量高但价格昂贵 [50][51] AI音频工具 - 海螺AI:MINIMAX产品,声音克隆和朗读自然度高,自媒体适用 [55][56][57] - 海绵音乐:字节跳动产品,平民化音乐生成工具易上手 [76][77] - MusicFX:谷歌产品,操作简单且生成质量高 [79][80] AI搜索工具 - 纳米AI搜索:360产品,集成多模型协作和办公工具 [71] - 秘塔搜索:专注科研场景,支持文献翻译和知识库建设 [72][73] AI音乐工具 - Suno:AI音乐创作先驱,支持多种风格,专业性强 [74][75] - MusicFX:谷歌产品,简单易用且质量高 [79][80] 行业趋势 - 大厂加速布局AI领域,字节跳动和谷歌产品矩阵最为完善 [76][80] - 工具专业化程度提高,垂直场景应用成为竞争重点 [36][50][72] - 开源模型推动行业进步,DeepSeek带动国内AI工具普及 [16][17]