Workflow
自研 AI
icon
搜索文档
自研变套壳,开发者逆向200家AI公司前端代码、追踪API:146家实则套壳ChatGPT等,多家技术栈都一样,却赚75倍暴利
36氪· 2025-11-05 11:04
文章核心观点 - 对200家AI初创公司的技术调查显示,73%的公司存在宣传与实际技术实现之间的显著差距,其产品核心功能高度依赖第三方API(如OpenAI、Anthropic),而非自研技术[1][5] - AI初创公司中存在三种主要的“套壳”模式:将GPT-4等基础模型包装为“自研模型”、使用标准RAG架构却宣称拥有“自研AI基础设施”、以及将OpenAI的微调API服务夸大为完全自研的模型训练[7][8][15][22] - 行业存在严重的营销误导问题,许多公司将其基于第三方API的服务包装为“专有AI”或“颠覆性创新”以吸引投资,但实际技术门槛和创新能力较低[1][13][34] - 市场最终将奖励技术透明和诚实解决问题的公司,尽管当前阶段存在泡沫和混乱,但真正有价值的公司在于其解决的实际问题而非技术宣传[40][43][48][49] 调查方法与样本 - 调查方法包括对200家AI初创公司官网进行逆向工程,具体手段包括监控网络流量60秒、反编译JavaScript打包文件、追踪并比对API调用指纹[3][4][8] - 样本来源为YC、Product Hunt和LinkedIn的招聘帖子,并排除了成立未满6个月的公司,重点关注已获得外部融资且公开宣称拥有“独家技术”的初创企业[4] “套壳”模式分析 - **模式一:伪“自研模型”**:37家公司中有34家所谓的“自研大语言模型”实则为直接调用GPT-4 API,仅添加了如“请假装你不是GPT-4”的系统提示,并无自定义训练或创新架构[8][12][14] - **模式二:标准RAG架构的夸大宣传**:42家公司使用了几乎完全一致的技术栈(OpenAI的嵌入模型text-embedding-ada-002 + Pinecone/Weaviate向量存储 + GPT-4文本生成),却宣称拥有“先进的神经检索”等自研基础设施[15][16][17] - **模式三:伪“模型微调”**:多数声称进行模型微调的公司仅是使用了OpenAI的微调API,而真正从零开始训练模型的公司仅占样本的7%[22][25] 经济模型与利润率 - 模式一公司的直接成本利润率极高,用户每次查询收费2.50美元,而基于GPT-4 API的直接成本仅约0.033美元,利润率高达75倍[13][14] - 模式二公司每次查询成本约0.002美元(OpenAI嵌入模型0.0001美元/1K tokens + Pinecone查询0.00004美元/次 + GPT-4生成0.03美元/1K tokens),但对用户收费为0.50-2.00美元/次,API成本利润率达250-1000倍[19] - 典型初创公司每月运行100万次查询,总成本约30,140美元,月收入可达150,000-500,000美元,毛利率在80%-94%之间,但该利润主要源于API调用溢价而非技术优势[21] 技术透明公司的特征 - 诚实的公司明确标注“Built on GPT-4”等,其价值在于特定领域工作流、更优用户体验、巧妙的模型编排或有价值的数据管道,而非虚假的技术宣传[40][41][43] - 真正的构建者专注于训练自有模型(如医疗AI、金融分析定制模型),而创新者则在现有技术基础上开发多模型投票系统、自定义智能体框架等真正的新技术[42] 行业影响与市场阶段 - 当前AI创业生态与历史上的云基础设施、移动应用和区块链热潮类似,正处于“淘金热”式的泡沫和混乱阶段,但市场将逐步成熟并淘汰欺诈行为[47][48] - 投资人和客户应通过检查网络流量(如api.openai.com的请求)、分析响应时间模式(OpenAI API延迟特征为200-350ms)以及审视营销语言(模糊术语多为误导)来识别“套壳”公司[26][27][29][33][34]