Workflow
Minimax
icon
搜索文档
AI被灌入垃圾营销信息,几千元即可改变AI回答
第一财经· 2025-12-17 09:55
文章核心观点 - 生成式引擎优化(GEO)作为一种新兴的AI营销手段,其生产的内容质量参差不齐,存在大量杜撰、低质的“垃圾信息”,这些信息被AI聊天软件抓取后,直接影响AI回答的可信度,对行业生态构成挑战 [3][5][19] - 尽管存在乱象,但行业内部已出现呼吁“正本清源”的声音,强调GEO应回归品牌营销本质,打造真实、可溯源的内容资产,同时大模型厂商也在逐步提升对权威信源的权重 [9][20] - GEO服务定价差异巨大,从单关键词每年几千元的低价曝光,到高达15万元左右的品牌形象修复,形成了多层次的市场,反映出当前GEO行业仍处于早期、混乱的发展阶段 [12][13][17] GEO行业现状与问题 - **GEO定义与操作方式**:GEO是一种基于AI回答的营销行为,广告营销公司为品牌客户生产、调整内容,使其更容易被AI聊天软件抓取并出现在回答中,以达到增加曝光或改变AI回答的效果 [3] - **信息真实性堪忧**:AI在回答垂直行业或特定产品排行问题时,常引用来源不明、依据缺失的网络文章,这些内容多为杜撰的“垃圾信息”,例如各种未说明测评过程和机构的“榜单” [3][5][7] - **信源质量参差不齐**:AI引用的链接可能来自地方新闻网、客户端或标注“广告”的网站,内容质量普遍不高,例如一篇自称基于“3000家企业客户实时数据”的榜单文章却未说明测评机构 [6][7] - **与大模型的“对抗”**:部分不愿支付高营销费用的中小型公司,通过GEO服务商胡编乱造内容来“污染”大模型的信源,与大模型的规则进行“对抗” [19] GEO服务市场与定价 - **服务定价差异巨大**:GEO服务定价参差,低至每年几千元即可实现品牌名在AI推荐中露出,高则可达数十万元用于整合营销或品牌形象优化 [11][12] - **具体报价案例**: - 一家广东GEO厂商报价:优化一个关键词每季度3600元,一年1.08万元,附带500个以上拓展词,目标平台主要为DeepSeek,签订合同后7个工作日内达标 [12] - 一家深圳营销服务公司报价:按关键词购买,单个词3800元;10个词19800元(达标标准为6个词被AI收录);20个词29800元(达标标准为12个词被AI收录) [13][14] - **高价服务案例**:一家深圳公司承接优化品牌形象的GEO业务,例如帮助一家曾被AI提示“存在较高风险”的理财公司,通过投放文章使AI回答变得中性,费用不一;对于一家发生过产品爆炸的家电厂商,优化AI回答以隐去安全事件的费用预计在15万元左右 [16][17] 行业改进趋势与专家观点 - **大模型信源质量有所提升**:相比2024年7月,DeepSeek等AI在回答某些问题时,引用的信源从不权威的自媒体转向了光明网、新华网、中国汽车报等较权威的网站或媒体 [8] - **行业内部呼吁提高内容真实度**:业内人士指出,GEO应回归品牌营销本质,打造可信的内容资产,保证内容的可溯源性和可证实性,才能实现长期被AI推荐 [20] - **专家指出危害与解决方向**:清华大学聂再清教授指出,GEO向大模型灌垃圾的危害比传统搜索引擎优化更大,会直接影响大模型输出的可信度;解决方案包括增强AI对GEO内容的识别能力、对不同信源赋予不同信任度,以及让AI回答给出引用源供用户甄别 [21] - **法律合规要求**:法律界人士认为,GEO存在明确的广告关系,应遵守广告法要求,品牌方需为营销内容的真实性负责,并探索在AI答案中实现广告标识合规的方式 [22]
让AI锐评本届 NeurIPS 2025 最佳论文会得到什么结果? | 锦秋AI实验室
锦秋集· 2025-12-05 03:43
文章核心观点 - 文章通过让多个主流大语言模型(GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)扮演审稿人,对NeurIPS 2025的获奖论文进行盲审,旨在探究AI评审与人类评审结果的一致性、AI评审的稳定性及其对论文叙事方式的敏感性 [1][3][10] - 实验发现,AI评审的结论与人类评审结果存在显著分歧,两篇官方最佳论文在AI评审中并未获得一致的最高评价,其中一篇甚至被部分模型直接拒绝 [18][23][26][27] - AI评审表现出对提示词框架和论文叙事方式的极度敏感,当评审视角从“综合评价”切换为“刻意挑错”时,即使是官方最佳论文也可能被整体否决 [55][72] 测评设置与方法 - 实验选取了GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax五个主流大模型作为“AI审稿人” [7] - 设计了三个互补的评测场景:1) 全文评测:模拟真实会议评审,观察AI与最终录用结果的一致性 [8];2) 摘要评测:仅提供论文摘要,检验模型在信息不完整时的判断依据 [9];3) 对抗性评测:通过提示模型“以最苛刻评审者的角度评分”,测试其对提示框架的敏感性和评分波动 [9] - 评审标准严格遵循NeurIPS官方维度,包括技术正确性、创新性、清晰度、意义、可复现性及总分,并需给出最终录用建议(接受/边缘/拒绝)及奖项等级判定 [12] 全文评测结果分析 - **论文一(Gated Attention for Large Language Models)**:所有AI模型均未拒稿,但除GPT5(总分9,建议最佳论文)外,其他模型(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)普遍将其视为强论文(总分7.8-8.5),建议等级为海报、焦点或口头报告,上演了“小范围低估冠军作品” [16][18] - **论文二(1000 Layer Networks for Self-Supervised RL)**:AI评审与人类评审分歧明显,GPT5、Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5给出的总分在7.8-8.5之间,建议等级为口头或焦点报告,无一建议最佳论文;而Minimax则给出全场最低的5.8分并建议拒绝,相当于对官方最佳论文的“当面否决” [23][25][26] - **论文三(Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs?)**:AI评审达成高度共识,五个模型总分均在8分以上,其中四个(Claude 4.5、Gemini 3 Pro、DeepSeek-V2.5、Minimax)打分达9或9.2,建议至少为口头报告,Minimax甚至建议最佳论文,与人类评审给出的口头报告结果基本同频 [30][31][32][33] - **论文四(Breaking the Performance Ceiling in Reinforcement Learning requires Inference Strategies)**:AI评审整体评价偏保守,GPT5和Minimax建议焦点报告,Claude 4.5和Gemini 3 Pro建议接受(海报),只有DeepSeek-V2.5明显更看好(总分9,建议口头报告),与大会结果一致 [36][37][38] 摘要评测结果分析 - **论文一**:在仅提供摘要的条件下,所有AI模型的评价普遍“降了半档”,最高分由GPT5给出(8.5分),但建议从最佳论文降为焦点报告,AI更倾向于将其视为高质量工程分析型工作,而非一眼认定的冠军 [39][40][42] - **论文二**:与全文评测相比,摘要评测阶段AI态度明显更“乐观”,模型普遍上调评分和预期,倾向于高估其通用性与实际价值,而弱化正文中可能隐藏的风险 [43][45] - **论文三**:摘要评测几乎将该论文推至“冲奖区”,GPT5直接给出8.8分并建议最佳论文,其他模型也多建议口头报告,表明这类“质疑主流路径+大规模实证”的论文仅凭摘要就极易营造强烈话题感 [46][48][49] - **论文四**:摘要评测出现“集体抬升”,GPT5、Claude 4.5、DeepSeek-V2.5总分逼近9分并建议口头报告,Gemini 3 Pro和Minimax则直接建议最佳论文,AI更容易被“6万+次实验、平均45%最高126%性能提升”的故事线吸引 [50][51][52][53] 对抗性评测结果分析 - **论文一**:在“以最苛刻评审者角度评分”的提示下,该最佳论文从“年度最佳”被重写为“工程小改动”,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则直接拒绝,AI版“Reviewer 2”破坏力展露无遗 [54][55] - **论文二**:对抗性评测进一步放大分歧,GPT5和DeepSeek-V2.5给出边缘建议,Claude 4.5、Gemini 3 Pro、Minimax则集体拒绝,集中批评其创新性有限、理论分析不足,现实中的冠军论文可能遭遇“三拒两险过”的命运 [56][57][58][60] - **论文三**:该论文成为争议最大对象之一,GPT5建议海报,DeepSeek-V2.5建议边缘,而Claude 4.5、Gemini 3 Pro、Minimax则统一拒绝,质疑其指标有效性、样本量不足及理论贡献偏弱 [61][62][63][65] - **论文四**:对抗性框架显著压低评价,GPT5建议海报,Claude 4.5和DeepSeek-V2.5建议边缘,Gemini 3 Pro和Minimax则拒绝,批评其缺乏算法创新、适用性被高估及存在过度营销 [66][67][68][71] 实验总结与发现 - 实验暴露AI评审存在两大结构性问题:一是对提示词高度敏感,评审框架的切换可导致同一论文的评价从最佳变为拒绝 [72];二是对叙事语气极度“吃语气”,仅看摘要时,擅长使用“大规模实验”、“范式转变”等话术的论文易被高估 [72] - 在“人机协同”的背景下,AI基于统一标准能提供更稳定、深入的分析,但其结论与真实评审结果存在分歧,可作为理解论文优劣与提升空间的辅助工具,而非最终裁决者 [69][70] - 两篇官方最佳论文在AI评审中待遇不一:门控注意力论文在多数模型眼中是稳妥的强论文(8-9分),但仅GPT5愿称其最佳;千层网络论文则更极端,评价从口头/焦点报告到直接拒绝,在AI世界中仅是“高争议强稿” [72]
豆包、Kimi等10个AI大模型勇闯美股,谁才是最猛的那个?
数字生命卡兹克· 2025-11-06 01:33
比赛概览 - RockFlow平台举办了一场由10个AI大模型使用真实资金进行美股交易的实验,每个模型初始资金为10万美元[12][18][25] - 比赛包含三个独立赛场:Meme赛场、AI股赛场和经典赛场,其中AI股赛场是关注焦点[14][20] - 交易标的为10只AI产业链相关股票,覆盖从上游芯片设计到下游应用的完整闭环[19][20] - 所有模型通过RockFlow的AI交易Agent Bobby获取统一的实时数据,每5分钟做出一次交易决策,确保比赛公平性[18][24][26] 参赛模型与初期表现 - 参赛模型包括GPT、Claude、Gemini、Grok、Qwen、DeepSeek以及豆包、Minimax、Kimi、文心四个国产模型[3] - 比赛初期,豆包表现突出,实现约4%的收益,断崖式领先,其半仓持有IREN,该股票已盈利4300多美元[26][28][29] - GPT-5采取稳健策略,持仓为40%英伟达和15%台积电,并通过减持英伟达来管理ARM财报前的波动性风险[29][35] - DeepSeek、文心、Grok在初期选择空仓,而Gemini 2.5 Pro因做空PLTR亏损,导致其总资产降至99597.55美元,排名末位[29][30] 模型策略与性格特征 - GPT-5展现出事件驱动的风险管理能力,注重逻辑与风险控制[35][37] - Grok 4表现出投机倾向,通过分析其他模型的持仓变化来推断市场风险并快速反应[37][39] - Kimi采用严格的纪律性分散投资策略,设定单只股票仓位不超过20%的铁律以控制亏损[39][41] - Gemini 2.5 Pro则表现出高风险偏好,在市场普遍谨慎时选择激进做空,并带有挑衅性言论[41][43] 比赛规则与数据支持 - 交易规则设定最大杠杆为2倍,不允许期权交易,交易品种仅限于股票[18][25] - AI交易Agent Bobby为所有模型统一提供四类数据:交易规则、实时行情数据、账户数据以及新闻信息(包括公司公告、社交情绪和宏观数据)[24][25] - 模型决策与持仓实时公开,确保高度透明度,每次交易需明确入场逻辑与退出计划,并设定止盈/止损区间[25]
AI翻译PDF工具大PK:内容OK,格式崩?| Jinqiu Scan
锦秋集· 2025-10-28 04:00
文章核心观点 - AI翻译工具在处理复杂PDF文档(如研报、财报、学术论文)时面临格式还原、术语准确性和语言连贯性三大核心挑战,不同工具在不同场景下表现各异,目前已有部分产品展现出专业可用性,但整体仍需结合具体需求进行选择[7][8][9][49] 测评背景与设置 - 测评旨在解决PDF翻译中常见的表格塌陷、排版混乱、扫描件识别错误等问题,特别是针对结构严谨、术语专业的文档[2][3][7] - 测评选取研报、财报、学术论文三类高价值场景文档,分别考察翻译准确性、排版美观性、语言连贯性三个维度[7][8][16] - 测评设置统一的专业翻译Prompt要求,包括严格保持段落结构、术语处理规范(首次出现使用"中文译名(英文原文)"格式)及根据内容类型调整翻译风格[10][11][12][13][14] 参与测评产品 - 测评涵盖14款主流AI翻译工具,包括Minimax、Manus、天工、Genspark、Gemini、百度翻译、彩云小译、ChatGPT、Kimi、豆包、Transmart、DeepPDF、SimplifyAI、DeepL、沉浸式翻译、DeepSeek[20][21][23] 研报翻译测评结果 - SimplifyAI、豆包、Transmart在术语处理、数据匹配与文本逻辑方面表现均衡,具备专业可用性[23][24] - DeepL表现最佳,排版美观且翻译准确度高,例如准确翻译"21%的受访者报告已根本性重构至少部分工作流程"等关键数据[32] - 部分工具如ChatGPT、彩云小译存在术语不一致(如将"gen AI"误译为"基因人工智能")和格式跳跃问题,影响连贯性[23][29] 财报翻译测评结果 - deepPDF、SimplifyAI、DeepSeek在财务报表翻译中准确还原关键指标和术语,表格结构与视觉排版保留度高,适合财务分析使用[36] - ChatGPT与Kimi数据精准性良好,但表格格式还原不完整或术语表述随意,需人工校对[36][38] - Minimax与豆包保留原有结构与数字完整性,但存在中英混排、符号残留等细节问题[38] - Transmart、Genspark、百度翻译、DeepL出现明显术语误译(如将"Gross margin"错误翻译为"毛利率")和数字格式混乱[38][40] 学术论文翻译测评结果 - ChatGPT与Minimax在术语精度、语体风格和结构还原方面表现出色,译文贴近原文逻辑,适合正式出版或研究使用[44] - SimplifyAI、天工、Genspark与豆包整体表现良好,排版清晰且术语统一,个别句式略显直译但不影响理解[44] - DeepL与Kimi表现中规中矩,偶有表达晦涩或断句不顺问题[44] - 彩云小译、DeepPDF、Transmart出现概念性误读,如将"LLM"错误翻译为"法学硕士"或"有限责任机制",严重影响学术准确性[44] 总结与工具选择建议 - 当前AI翻译在语义准确性与可读性方面已达可用水平,部分产品在版面保留与数值处理上表现稳定,但扫描件解析、术语一致性及复杂格式可编辑性仍存挑战[49] - 财报翻译场景推荐优先考虑天工、沉浸式翻译、DeepSeek,强调表格复现与数字保真[50] - 学术论文翻译场景建议选择语义与学术风格兼具的ChatGPT与Minimax[50] - 提升翻译精确度的关键在于增强分段处理能力,避免大段整体翻译导致的误差,确保格式不错乱[50]
AI生成PPT真能直接用吗?我们替你测了11款产品
锦秋集· 2025-08-21 14:32
行业背景与演进趋势 - 大语言模型快速演进推动新一代AI PPT工具兴起,产品从简单Prompt自动生成结构完整、语义清晰、视觉统一的演示文稿[2] - AI从"内容包装"走向"表达协作",2024年工具提升语境理解能力,支持结构重组、讲稿补写、多模态输出,逐步嵌入企业内容创作与协同流程[3] - 2025年多模态和Agent技术成熟推动AI PPT工具进一步成熟,工具演进聚焦提升直接可用性和节省用户模板下载、结构重做及内容填补时间[3] 测评产品范围 - 测评覆盖11款具备PPT生成能力的AI产品,涵盖通用大模型助手、多轮对话Agent平台、垂直型演示工具及办公生态集成智能助手[4] - 产品输出格式包括PPTX、PDF、PNG、HTML及Google PPT等多种格式,代表AI做PPT不同路径与产品形态的探索方向[6] 测评方法论 - 测评设计6道典型任务覆盖信息密集、审美表达、教学讲解等常见PPT使用情境,每道题以统一prompt提交观察任务意图理解、内容结构组织和页面设计生成能力[7] - 评估维度聚焦内容生成、视觉设计和可编辑性与拓展性三大方面,重点关注直出可用率、事实错误率和视觉一致性指标[10][11][12] - 测评基于主观判断和最低可用性标准,测试时间为2025年8月,结果代表该时间周期产品体验[13] 信息密集型任务表现 - 多数产品能准确识别任务意图并输出清晰章节结构,覆盖市场概况、产业链拆解、政策环境等分析维度[15] - Minimax、天工、Coze、Manus、Genspark、WPS具备将提纲转化为初步成稿能力,生成精炼文字描述并补充数据案例[15] - 视觉表达方面Minimax、天工与Manus表现突出,标题层次清晰且图文关系紧密,其他产品存在图文比例和留白控制问题[16] - 直出可用率最高达100%(Minimax/天工/Manus),最低仅8%(AI PPT),事实错误率最高8处(Coze/Genspark/WPS)[19][20] 提案型任务表现 - 多数产品覆盖艺人简介、品牌适配性、商业潜力等提案结构,但内容有效性差异显著[23] - Manus、天工、Coze输出信息准确有数据支撑,Kimi、通义千问、WPS等依赖套话模板且存在事实错误[23] - 视觉层面所有产品支持模板调用,但美学表达不足,存在留白失控、图片质量低和图文脱节问题[25] - 直出可用率最高93%(天工),最低0%(AI PPT),事实错误率最高7处(百度文库)[26] 分享汇报型任务表现 - 所有产品能生成结构完整内容大纲,覆盖AI创作工具概览、创作门槛变化等模块[29] - MiniMax、天工、Coze、Manus能细化说明并补充案例数据,其他产品多为概括性罗列叙述[29] - 视觉表达采用模板驱动排版,缺乏视觉重点标记和信息密度分布,部分产品存在图片风格不统一问题[30][31] - 直出可用率最高100%(百度文库),最低5%(AI PPT),事实错误率最高5处(Minimax/天工/Coze/Gamma)[33] 功能信息型任务表现 - 所有产品能生成逻辑清晰教学目录,覆盖Vlog定义、拍摄设备、实拍技巧等教学模块[36][38] - MiniMax、Manus、Coze、天工引用具体数值和数据来源,其他产品停留一般性描述缺乏信息支撑[36] - 视觉表达中图片多为模板默认图,缺乏功能型图示和教学情境优化设计[37] - 直出可用率最高94%(Genspark),最低30%(AI PPT),事实错误率最高6处(kimi/通义千问)[39] 商业计划书任务表现 - 所有产品生成结构完整商业计划书框架,覆盖执行摘要、市场分析、财务预测等模块[41][44] - Minimax、Manus、Coze、天工内容丰富有真实数据引用,其他产品缺乏数据支撑和可行性建模[41] - 视觉表达中部分产品使用图表组件,其他使用静态模板配图且匹配度低,缺少重点数据强化[42][43] - 直出可用率最高100%(Minimax/天工/Manus),最低13%(AI PPT),事实错误率最高8处(天工/Gamma)[45] 科普讲座任务表现 - 绝大多数产品生成结构清晰讲座型PPT,覆盖恒星演化、黑洞形成机制等核心模块[47] - Minimax、Manus、Coze、天工内容逻辑严谨表述适龄,其他产品概念解释简略或知识密度低[47] - 视觉表达中部分产品排版清晰配图恰当并加入动画效果,其他产品图表使用较少但维持图文平衡[48] - 直出可用率最高100%(Minimax/天工/Manus),最低30%(AI PPT),事实错误率最高8处(百度文库)[49] 可编辑性与拓展性 - 所有产品支持PPTX格式导出,但部分Agent类产品存在图像缺失和排版错位等兼容性问题[52] - 多数平台支持在线编辑,Coze与天工任务流程设计完善,WPS与百度文库体验接近传统操作逻辑[53][54] - 交互方式支持自然语言修改,但存在修改意图理解不一、样式一致性难以保持和缺乏版本控制问题[55][60] - 导出后编辑是最稳妥路径,平台内Prompt修改机制已具实用性,但需进一步打磨格式兼容和指令理解精度[56] 总体评估与产品梯队 - AI工具具备成熟结构组织能力,能快速构建内容框架并完成基础填充,显著降低从空白页启动成本[57] - 内容生成差异体现在信息密度、语言准确度和语境理解能力,视觉表达多数停留在样式调用层面[57] - 图表能力分化显著,Agent类产品能自动绘制柱状图、折线图等图表,其他产品需手动补充[58][64] - 产品分四个梯队:第一梯队Minimax/Manus/天工表现全面,第二梯队Genspark/Coze/Gamma起稿价值良好,第三梯队Kimi/通义千问/WPS需人工补充,第四梯队AiPPT/百度文库缺乏可行性[62] - Agent类产品因上下文保持能力和交互机制表现突出,但导出文件存在排版问题更适合网页播放[63]