Synthetic Data
搜索文档
误差不到400票,16岁CTO带队,用5000个AI押中了美国选举
36氪· 2025-12-15 12:16
不找人聊,就能知道人在想什么?一群00后正在用AI改写调研行业。 2024年,一群平均年龄18岁的年轻人用约5000次AI对话(每次仅需30-90秒),便以接近零的成本,成功预测了美国纽约州民主党初选的结果,票数误差 不到400张。 不到两年,这群年轻人所创立的AI调研公司Aaru,已拿下埃森哲、安永和IPG等顶级合作伙伴,并在2025年底以10亿美元估值完成5000美元A轮融资。 这一切的背后,是一个简单到近乎狂妄的理念——用"无限模拟"取代"有限样本"。 Aaru的核心不是让AI变得更会"问问题",而是让AI学会"当人"。他们训练了成千上万个AI智能体,每个都被赋予复杂的人口属性和行为认知模式,像一个 微缩版的真人。 当这些"合成人"在数字世界里相互作用,就能回答以前无法回答的问题,如人群面对新产品、新政策或新广告时的集体反应。 Aaru所代表的"合成行为"处于技术栈顶层,它正与其他"合成互动" (如Keplar、Outset) 与"合成数据" (如Gretel、YData) 的探索者,重塑价值800亿美 金的调研市场。 01 当AI Agents像人一样思考 当市面上大多数AI竞争者还在围绕"如何更高效 ...
2025 全球机器学习大会-巴黎会议图文总结-Global Machine Learning Conference - 2025_ Paris Conference Summary through Illustrations
2025-12-02 06:57
会议与行业概览 * 会议为摩根大通第八届全球机器学习会议 于2025年11月25日在巴黎办公室举行[4] * 会议吸引了约140名投资者 代表约80家全球机构[4] * 会议内容聚焦于人工智能和机器学习在金融服务与投资管理领域的应用、挑战与趋势[5] 核心观点与论据 人工智能技术演进与实施 * **智能体人工智能**正在转变企业价值创造 要求组织重塑团队技能、管理技术债务并调整商业模式以适应创新[10] * 从预测性和生成式人工智能向智能体系统的转变带来了自主决策 这要求强大的治理、可观测性和评估[10] * **大型语言模型**在自然语言理解和沟通方面非常有效 但缺乏复杂推理和最优规划的正式保证[29] * 将大型语言模型与经典人工智能、数据库和规划工具相结合 通过提示、检查器和专用智能体的流程 能为时序问答、时间序列分析和自动化操作编排等任务提供更可靠的解决方案[29] 数据、建模与投资组合管理 * 生成对抗网络和变分自编码器等生成模型为模拟金融时间序列和投资组合回报提供了有前景的方法 但面临数据有限、非平稳性和复杂资产结构的挑战[15] * 合成数据的准确性受限于初始样本 生成过多数据可能引入偏差[15] * 标准模型关注高方差成分 这对于投资组合构建(尤其是需要低方差因子的多空策略)是次优的[15] * **自适应配置引擎**通过将基于启发式的投资组合构建与机器学习相结合 改善了战略资产配置 以应对市场不稳定性和估计误差[34] * 该框架使用多种启发式方法、多样化加权和崩盘保护 通过排序学习模型和多臂老虎机算法对策略进行动态排序[34] * **NeuralBeta**通过将回归与神经网络相结合来改进贝塔估计 而**NeuralFactors**则将因子分析扩展到处理生成建模和多样化特征[43] * 注意力机制和先进的损失函数进一步提高了准确性 表明混合经典与机器学习方法能为风险估计和投资组合优化带来最佳结果[43] 风险管理、合规与治理 * 金融机构在实施人工智能法规方面面临重大挑战 原因包括定义宽泛且不断演变、全球框架多样化以及跨司法管辖区合规复杂[20] * 关键主题包括风险管理、透明度以及基于角色的义务 特别是对于就业和信贷等高风险活动[20] * 有效的实施需要跨组织协作、扩大问责制以及与现有风险控制的整合[20] * 解决监管数据需求、平台战略以及适应不断变化的规则至关重要[20] * **负责任的人工智能实践**涉及隐私风险、用例评估以及广泛的风险分类 包括智能体攻击和运营弹性[25] * 自动化护栏和人在回路的策略可确保合规性、适应性和安全执行[25] 投资管理中的Alpha来源与趋势 * 小组讨论探讨了投资管理中的Alpha是更多由另类数据还是机器学习驱动 强调了处理原始和非结构化数据、构建定制因子以及确保数据质量的重要性[52] * 讨论涉及整合机器学习的挑战、对速度和可解释性的需求 以及情绪和输出在不同语言和方法之间的差异[52] * 高质量的数据和先进的机器学习对于可持续的Alpha都至关重要[52] * 讨论强调了从原始数据到投资过程中可操作知识的持续演进[52] * 炉边谈话强调了人工智能在投资管理中不断演变的角色 强调可解释性、信任和数据质量[39] * 关键点包括采用人工智能的动机、拥抱不确定性的重要性 以及将复杂财务决策委托给人工智能系统的风险[39] * 讨论涉及大型语言模型在推理方面的局限性、较小模型日益增长的有效性 以及提取新数据源(如税务数据)的必要性[39] * 谈话还强调减少对相关性的依赖、弥合研究与实践之间的差距 以及构建可信、可审计的人工智能系统以支持未来投资策略的重要性[39] 人工智能在保险领域的价值与风险 * 人工智能正在通过自动化、优化和预测分析改变保险业 但也带来了需要仔细管理的技术和社会风险[48] * 人工智能被用于定价、理赔、保单比较和风险提取 利用机器学习和计算机视觉[48] * 人工智能保险的兴起解决了模型腐败、对抗性攻击和合规等问题 但由于动态风险和有限数据 也带来了新的承保挑战[48] * 这推动了专注于人工智能资产保护、性能和责任覆盖的新风险框架和保险产品的开发[48] 其他重要内容 * 会议采用现场插画师记录每场演示的要点和精髓[4] * 摩根大通全球股票研究评级分布显示 截至2025年10月4日 其覆盖范围内股票评级为增持、中性和减持的比例分别为50%、38%和12%[61] * 报告末尾包含广泛的法律实体披露、地区特定披露以及免责声明 强调了研究的独立性、潜在利益冲突以及报告的分发限制[57][58][59][60][61][62][63][64][65][66][67][68][69][70][71][72][73][74][75][76][77][78][79][80][81][82][83][84][85][86][87][88][89][90][91][92][93][94][95][96][97][98][99][100][101][102][103][104]
GPT-5没有追求AGI,它代表的是OpenAI的商业化野心
36氪· 2025-08-08 10:28
模型性能对比 - GPT-5在AIME '25测试中达到94.6%准确率,领先Gemini 2.5 Pro的93.8%和Claude 4.1的94.1% [1] - FrontierMath测试中GPT-5表现26.3%,略低于Gemini 2.5 Pro的27.1% [1] - GPQA diamond测试GPT-5获得85.7%准确率,与Claude 4.1的85.9%接近 [1] - HMMT 2025测试GPT-5以93.3%领先其他模型 [1] 技术突破 - GPT-5采用新型合成数据训练方法,通过GPT-4o等前代模型生成高质量训练数据 [3] - 合成数据流程专门设计用于生成"正确类型数据",提升模型推理和规划能力 [3] - 在Tau²-bench电信领域测试中达到96.7%准确率,显著优于GPT-4.1的34% [7] - 上下文长度扩展至400k,思考过程token消耗减少50%-80% [20] Agent能力提升 - GPT-5优化了工具调用能力,支持自然语言描述触发工具使用 [8] - 具备出色的工具并行使用能力,可判断工具运行顺序与并行性 [8] - 在智能体式编码测试中表现优异,一次性解决其他模型无法完成的任务 [15] - 编程时采用"边想边做"的迭代方式,优于Claude 4 Opus的"想清楚再做"模式 [15] 商业化策略 - ChatGPT周活用户超过7亿,付费用户达500万,订阅收入27亿美元 [18] - API定价策略激进,输入1.25美元/百万tokens,输出10美元/百万tokens [18] - 价格直接对标Gemini 2.5 Pro,大幅低于Claude 4 Opus的75美元/百万tokens输出 [19] - 推出DeepResearch、Canvas编辑、生图功能等商业化导向的产品升级 [18] 行业趋势 - 2025年AI应用领域最热关键词为Agent,OpenAI引领此波热潮 [6] - 主流模型厂商均以Agentic AI为目标优化模型能力 [6] - 大语言模型进步呈现渐进式而非跨越式,可能遭遇技术瓶颈 [21] - AI应用市场呈现快鱼吃慢鱼特征,大厂在创新速度上不占优势 [21]
Nvidia reportedly acquires synthetic data startup Gretel
TechCrunch· 2025-03-19 19:34
收购事件概述 - 英伟达已收购位于圣地亚哥的初创公司Gretel 收购价格据称为九位数 超过Gretel最近3 2亿美元的估值[1] - Gretel及其约80名员工团队将并入英伟达 其技术将被部署为英伟达面向开发者的生成式AI服务套件的一部分[1] 被收购方Gretel背景 - Gretel成立于2019年 联合创始人包括首席执行官Ali Golshan[2] - 公司业务模式为微调模型 增加专有技术 并将这些模型打包出售[2] - 在被收购前 Gretel通过风险投资筹集了超过6700万美元 投资方包括Anthos Capital Greylock和Moonshots Capital[2] 行业趋势与战略意义 - 英伟达此次收购具有战略性和及时性[3] - 微软 Meta OpenAI和Anthropic等科技巨头在耗尽现实世界数据源后 已开始使用合成数据来训练其旗舰AI模型[3]
Nvidia's $10 Trillion+ Roadmap: Reinforcement Learning And Synthetic Data
Seeking Alpha· 2025-03-09 09:40
文章核心观点 - AI行业在预训练方面开始遇到阻碍,但AI扩展定律仍然有效 [1] 行业情况 - AI行业在预训练方面开始遇到阻碍,扩展定律显示计算和高质量数据的按比例增加会带来可预测的模型性能提升,且AI扩展定律仍然有效 [1] 分析师情况 - 分析师是拥有10年投资银行从业经验的资深研究分析师,负责行业和公司研究,擅长解读新闻、事件、财报等以发现投资机会和风险 [1] - 分析师是大型市值财富500强公司子公司的DevOps工程师,是AI工具和应用实际建设、部署和维护的专家,因机器学习算法、模型训练和部署的第一手经验对生成式AI系统背后的科学有深入了解 [1] - 分析师正在获取更高级的AWS机器学习认证以提升AI和机器学习专业知识,并通过Seeking Alpha分享AI和机器学习投资见解 [1] - 根据TipRanks(2/5/25)数据,分析师在30,634名金融博主中排名第968,在40,003名专家中排名第1,611 [1] 持仓情况 - 分析师通过股票、期权或其他衍生品对NVDA股票持有长期有利头寸 [1]