产品发布与公司定位 - Thinking Machines Lab发布其首个产品Tinker,这是一个用于微调语言模型的灵活API,旨在使模型微调过程像修改Python代码一样简单[1][12] - 公司联合创始人翁荔指出,当前GPU价格昂贵且基础设施设置复杂,Tinker作为高质量研究工具旨在提高研究生产力,是解决该挑战的第一步[5] - 公司使命是让更多人能够研究前沿模型并根据自身需求进行定制,Tinker通过让研究人员控制算法和数据而无需管理基础设施来实现这一目标[13][14] 产品Tinker的技术特点与优势 - Tinker让研究者在微调过程中保留90%的控制权,主要涉及数据、损失函数和算法本身,同时自动处理基础设施、LLM的前向/后向传播及分布式训练等复杂问题[8] - 产品首批主要支持Qwen3和Llama3系列模型,从小模型切换到大模型仅需在Python代码中修改一个字符串[15] - Tinker的API提供forward_backward
和sample
等底层训练步骤,并自动处理调度、扩展和错误恢复,还使用LoRA技术让多个训练任务共享GPU以降低成本并支持更多实验并行运行[17][22] - 除了云托管服务,公司还开源了Tinker Cookbook库,提供各种现成的后训练方法实现[24] - 微软研究员发现Tinker未采用GRPO方法,而是使用经典的REINFORCE算法配合优势函数,且没有梯度裁剪,其梯度更新策略简化为:新参数 = 原参数 + 学习率 × 优势值 × 对数概率的梯度[27][28] 市场反馈与行业影响 - AI大神卡帕西评价该产品“很酷”,AI基础设施公司Anyscale的CEO等beta测试者认为Tinker在抽象化和可调性之间取得了卓越的平衡[8][30] - 普林斯顿、斯坦福、伯克利和Redwood Research等研究团队已使用Tinker取得成果[30] - 卡帕西指出,社区正在探索微调相比直接提示大模型的优势,早期迹象表明微调能有效缩小任务范围,特别是在训练样本数量大时,微调小模型处理特定任务可能优于构建复杂的少样本提示[31] - 随着AI应用向更大规模流水线发展,其中多个大模型协作,微调可能在更多环节比提示更优,Tinker的简易性有助于实验出最佳方案[32][33] 公司战略与行业动态 - 有消息称Thinking Machines Lab正尝试“重新发明一个OpenAI”,旨在重建OpenAI在规模变大、变得官僚主义之前的版本[10] - 创始人Murati表示,公司将是一家公开分享研究成果并给予研究人员更多自由的公司[11] - 与此同时,OpenAI正转向更类似Meta的社交方向,其ChatGPT应用代码中发现了“社交模式”相关功能,包括来自“其他用户”的推送通知、群聊模式以及设置头像和昵称的功能[36][37][38][39][41]
Murati翁荔陈丹琦公司发布首个产品,让大模型微调门槛暴降,要重新发明一个OpenAI
量子位·2025-10-02 03:26