Workflow
机器之心
icon
搜索文档
这就是大厂的AI「氛围编程」:老工程师现身说法后,大家绷不住了
机器之心· 2025-08-25 04:13
氛围编程在大型科技公司的应用现状 - 氛围编程由Andrej Karpathy提出并流行 但缺乏可靠统计数据支持其普及程度[1] - FAANG等大型科技公司存在采用氛围编程的工程师 但具体实施流程存在争议[1][3] FAANG工程师的AI辅助开发流程 - 开发流程始终以可靠设计文档和架构为起点 强调逐步构建和测试优先原则[4] - 具体实施包含7个阶段:技术设计文档提案→设计评审→子系统文档编写→任务规划→测试驱动开发→代码审核→预发布测试[6] - AI主要应用于测试代码生成和代码审核辅助 编程阶段被视为最轻松乏味的环节[6][15] 行业对AI编程实践的争议 - 部分观点认为FAANG流程不符合氛围编程本质 因保留大量人类参与环节[9] - Hyperbolic公司CEO指出该流程对人类工作者体验较差 缺乏真正的"vibe"特质[11] - 独立开发者认为繁琐流程拖累研发速度 这可能为独立创始人创造竞争优势[13] AI编程的最佳实践建议 - 开发者建议采用详细技术规格说明 编程前进行解决方案审查[14] - 工程师核心价值体现在设计/头脑风暴/规范编写等非编码环节[15] - 测试驱动开发被明确列为AI编程的关键实施方法[6]
全球百万网友迷上赛博「养鱼」,我也被这群AI小丑鱼拿捏了
机器之心· 2025-08-25 02:48
游戏概述 - 一款名为Draw A Fish的AI小游戏在全球范围内吸引了百万网友参与[3] - 玩法简单 用户只需在画布上随手画一条面朝右侧的小鱼即可生成虚拟游动的鱼[4] - 游戏提供实时AI反馈 通过背景颜色变化显示作品与鱼的相似度百分比[5] 技术实现 - 采用基于PyTorch的卷积神经网络 ResNet18架构作为核心识别模型[19] - 训练数据来自Google QuickDraw大规模手绘涂鸦数据集 包含"鱼"与"非鱼"分类样本[20] - 模型进行二分类任务 输出用户绘制内容为鱼的概率值 该概率值直接作为游戏中的实时相似度反馈[20] - 专门调整模型判定方式使其更加宽松 避免对用户创作过于苛刻[20] 工程特性 - 实现透明度处理功能 所有图像在预处理前都会合成到白色背景上[21] - 采用早停机制 当验证集损失在5个epoch内无改善时自动停止训练以减少过拟合[21] - 保持训练和推理阶段预处理流程的一致性[23] - 通过加权采样和加权损失处理鱼与非鱼数据不平衡问题[23] 用户体验设计 - 无需登录和教程 点击即玩的低门槛设计[15] - 每笔落下时提供实时相似度概率提示 从30%到50%的提升能带来成就感[15] - 作品可放入共享虚拟鱼缸与全球网友创作一起游动 增强创作满足感[15] - 设置排行榜机制 目前最高分达53245分 最低分达-40182分[9] - 添加社区互动功能 包括点赞、拉踩和随机浏览等社交元素[8][16]
大模型能否为不同硬件平台生成高性能内核?南大、浙大提出跨平台内核生成评测框架MultiKernelBench
机器之心· 2025-08-25 02:48
深度学习内核生成技术现状 - 深度学习模型的计算依赖底层计算内核执行矩阵乘法、卷积等核心算子运算 这些内核通常需开发者使用CUDA、AscendC等硬件专用语言手工编写 要求极高的性能调优技巧和硬件架构理解[2] - 大语言模型在代码生成领域的突破使"自动生成高性能深度学习内核"成为研究热点 KernelBench、TritonBench等评测基准聚焦评估LLM在NVIDIA GPU内核生成表现[2] - 研究表明现有LLM已具备一定GPU内核生成能力 例如英伟达工程师基于DeepSeek-R1的工作流程在简单CUDA内核生成任务中达到100%通过率[2] 多平台内核生成挑战与解决方案 - AI加速器架构日趋多样(NVIDIA GPU、华为昇腾NPU、Google TPU、Intel GPU等) 底层内核语言差异显著 现有评测基准存在平台覆盖单一、评估维度粗糙、可扩展性不足等局限[3] - 南京大学与浙江大学联合推出开源评测框架MultiKernelBench 打破平台、维度与扩展性限制 为LLM驱动的高性能内核生成提供新测评标准[3] - MultiKernelBench设计充分考虑算子多后端可扩展性 Intel工程师基于该框架高效实现了Intel GPU适配 仅需少量代码修改即可支持SYCL后端[7][8] MultiKernelBench框架架构 - 采用模块化评测体系包含四大核心特性:跨硬件平台支持、细粒度任务体系、端到端自动化评测、类别感知One-shot提示策略[9][11][14][16] - 首批覆盖三大主流架构:NVIDIA GPU(CUDA/Triton)、华为昇腾NPU(AscendC)、Google TPU(Pallas) 通过统一Backend接口与装饰器机制实现快速接入新平台[9][13] - 任务体系覆盖14类核心深度学习算子(卷积、归一化、优化器等) 继承250个经典任务并新增35个关键算子 总计285个任务[11][12] - 构建标准化流程:内核生成→编译→硬件执行→性能分析 确保在真实硬件环境完成全流程验证[14] - 针对不同算子类别动态选取典型样例作为上下文提示 显著提升生成代码语义相关性与功能正确性 尤其在AscendC、Pallas等训练语料稀缺平台效果显著[16] 多模型性能评估结果 - 评估7个主流大模型(GPT-4o、Claude、DeepSeek-V3、Qwen等) 参数规模涵盖32B~681B 评估指标包括编译通过率(Comp@1)、功能正确率(Pass@1)和性能优化率(SpeedUp@1)[19][21] - Claude-Sonnet-4在整体评测中表现最佳:CUDA平台Pass@1达47% SpeedUp@1达20.4%;Pallas平台Pass@1达8.4% SpeedUp@1达7.7%;总通过数164个[20] - DeepSeek-R1在CUDA平台表现突出:Pass@1达52.6% SpeedUp@1达26.0%[20] - 平台对比显示:CUDA平台通过率显著高于Pallas与AscendC 反映LLM对CUDA更具适应性;类别感知式Prompting明显优于通用模板 尤其在低资源平台显著提升生成效果[27] 技术局限与未来方向 - 当前最先进LLM在多平台高性能内核生成任务中存在明显短板:非CUDA平台成功率显著下降 生成代码性能普遍落后于手工优化版本[23] - 未来重点探索方向:开发反馈式、文档增强等新型提示方法提升低资源平台生成质量;实现多平台版本同步生成与优化思路共享;与社区合作接入更多新平台覆盖异构计算全景[24][27] - 框架已全面开源 包含全量数据集、框架代码与评测流程 邀请研究者与工程师贡献平台支持共同推动多平台高性能内核自动生成发展[24]
AI智能体加持,爆款视频产出速度提升了10倍,全民导演时代已来
机器之心· 2025-08-25 02:48
核心观点 - Vibe Coding范式正迁移至影像创作领域,Video Ocean作为AI视频生成平台,通过自动化全流程创作实现效率与创意的双重突破[1][2][5] - 该平台将传统需数周的拍摄周期缩短至数分钟,用户仅需一句话指令即可生成完整视频,内容产出效率提升10倍[2][10] - 创新焦点从模型性能转向应用层交互方式,通过任务导向的智能Agent实现端到端创作,而非单一镜头生成或模板填充[4][5][6] 产品功能与设计 - 全球首个接入GPT-5的视频Agent,提供脚本策划、视觉合成、配音字幕三大模块,自动完成分镜、画面生成、音效及字幕嵌入[6][7][13] - 智能Agent具备持续学习能力,可记忆用户品牌风格与历史创作,避免传统工具每次需重新开始的局限[8] - 支持多语言背景音乐与音效匹配,商用级广告与宣传片一键生成,覆盖企业广告、品牌宣传片、产品发布会等场景[11][13] 用户反馈与市场反响 - 10天内吸引14个国家115位创作者排队体验,首批邀请码数秒内抢空[3] - 海外创作者反馈生成流程顺畅且任务导向明确,可仅用一句话完成完整视频创作[3] - 案例包括F1赛车解说、海洋纪录片、香奈儿广告等,均通过一句话指令生成[13] 应用场景与效率提升 - 热点响应与批量生成能力使内容产出效率提升10倍,适用于产品宣传、活动推广及热点追踪[10] - 支持从0到1构建专业级影视内容,省去拍摄与后期制作流程,快速建立可持续创作体系[12] - 操作仅需通过输入栏提交指令,无需复杂提示词编写,支持修改意见自助调整[15][18][19] 技术基础与行业定位 - 基于潞晨开源项目Open-Sora,学术论文引用量已超越多个著名机构的视频大模型[27] - 定位为AI应用层新范式而非云剪辑工具,聚焦自动化创作生态系统而非参数比拼[5][6] - 目标用户涵盖视频制作新手与专业创作者,旨在实现"Filmmaking for Everyone"的普及化创作[25][26][30]
超越宇宙极限:第六位海狸数再次突破,无法用常规数学符号表达
机器之心· 2025-08-24 04:02
忙碌海狸数研究进展 - 忙碌海狸数BB(n)与理论计算机科学中的停机问题紧密相关 代表n规则图灵机在停机前的最大运行步数 [2] - BB(5)值为47,176,870 于2024年由Busy Beaver Challenge社区严格证明 [27][28][29] - BB(6)下界在2024年6月被连续突破 最新纪录达到2↑↑↑5(五乘运算) 远超此前10↑↑15的超乘运算规模 [39][40][42] 历史突破里程碑 - 2007年Ligocki父子发现六规则图灵机运行步数达3000位数字 可打印在一张纸上 [13] - 2022年Ligocki发现运行步数位数超过宇宙原子总数的图灵机 [16] - 2022年Kropitz发现运行步数超30000位数字的图灵机 相当10页纸长度 [17] - 2024年6月mxdys发现运行10↑↑107步的图灵机 幂塔表达式长度达40公里 [37] 研究方法演进 - 早期采用高性能计算机模拟(如劳伦斯伯克利国家实验室集群)[13] - Busy Beaver Challenge社区采用Coq证明助手完成BB(5)严格证明 [27] - 发现新型"移位溢出计数器"类别图灵机 推动下界突破 [34][35] - 社区协作模式取代单打独斗 加速研究进程 [25][27] 数学表达体系 - 超乘运算(↑↑)定义:10↑↑3为10^100亿(1后接100亿个零) [23] - 五乘运算(↑↑↑)引入:2↑↑↑5=2↑↑(2↑↑(2↑↑(2↑↑2))) [41][42] - 2↑↑4计算结果略大于65,000 [43] 未解难题 - "反九头蛇"图灵机停机问题与考拉兹猜想相关 尚未解决 [46] - 判断六状态图灵机停机需数学基础理论突破 [48] - BB(6)真实值仍属未知 当前纪录仅为下界 [44]
仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3
机器之心· 2025-08-24 04:02
传统强化学习(RL)在有标准答案的指令遵循任务(如数学、代码)上已趋成熟,但在开放式的创意写作领域却因缺乏客观对错而举步维 艰。如何让 RL 突破「可验证奖励」的边界?蚂蚁技术研究院联合浙江大学开源全新强化学习范式 Rubicon,通过构建业界最大规模的 10,000+ 条「评分标尺」,成功将强化学习的应用范围拓展至更广阔的主观任务领域。用 5000 样本即超越 671B 模型,让 AI 告别「机械 味」。 自 OpenAI o1 系列模型问世以来,基于「 可验证奖励 」的强化学习(RLVR)已成为提升大模型推理能力的主流。通过海量的数学题、代码题进行训练,AI 在客 观对错分明的领域取得了巨大成功。 然而,这也暴露了当前技术路线的瓶颈:当面对没有标准答案的开放性、主观性任务时,AI 怎么办? 如何让 AI 写出情感充沛的文字,而不是「AI 味」十足的模板?如何让它进行有深度的创意构思,而不是简单的信息罗列?这正是当前 AI 迈向更高层次智能需要 破解的「 灵魂难题 」。 基于此,蚂蚁技术研究院联合浙江大学,正式开源其最新研究成果 ——Rubicon-preview 模型,并推出一套名为 「 基于评分标尺的强 ...
三个月、零基础手搓一块TPU,能推理能训练,还是开源的
机器之心· 2025-08-24 04:02
大模型技术发展推动AI专用芯片需求 - 大模型技术进步显著提升对AI专用芯片的关注度 专用芯片在计算任务负载中效率更高 谷歌TPU自2015年部署后已迭代至第7代 采用最先进制程工艺并针对机器学习推理任务优化架构[1] - TPU技术推动Gemini等大模型发展 加拿大西安大略大学团队基于学术研究目的开发开源TinyTPU芯片 支持机器学习推理和训练功能[1] TinyTPU开发动机与设计理念 - 项目初衷包括构建机器学习负载芯片的实践吸引力 以及填补同时支持推理和训练的开源加速器代码库空白[5] - 团队采用"Hacky Way"设计理念 优先尝试自主方案而非依赖逆向工程或AI代码生成工具 强调基础原理推导和硬件设计学习[6] - 开发过程注重深度学习算法与硬件设计的结合 通过图形化表达强化理解[6] TPU技术原理与架构特性 - TPU作为专用集成电路(ASIC)专注于提升机器学习推理和训练速度 与通用GPU相比在数学运算效率上具有显著优势[9] - 核心采用脉动阵列结构 由处理单元(PE)网格组成 每个PE执行乘累加运算 在时钟周期内同步处理数据[26][28] - 矩阵乘法占Transformer计算操作的80-90% 在超大型模型中达95% 占CNN计算操作的70-80% 脉动阵列专门优化此类运算[14] TinyTPU实现方案与技术细节 - 选择XOR问题作为验证场景 使用2x2脉动阵列(而非TPUv1的256x256) 输入为4x2矩阵代表4种二进制组合[18][21][23] - 采用权重平稳架构 通过矩阵旋转90度 输入交错延迟和权重转置实现数据对齐[35][38][44] - 集成偏差模块和LeakyReLU激活函数(泄漏因子α=0.5) 采用流水线技术将操作分解为多时钟周期以提升效率[50][52][58] - 创新性引入双倍缓冲机制 通过影子缓冲区预加载权重 减少50%时钟周期 支持持续推理[61][64] - 控制单元采用24位指令集(ISA)实现标志控制和数据加载 后期扩展至94位指令集以满足训练需求[68][117] 训练功能实现与优化 - 支持反向传播训练 使用均方误差(MSE)作为损失函数 通过链式法则计算梯度[71][74][75] - 发现前向传播与反向传播的数学对称性:前向使用转置权重矩阵相乘 反向使用未转置矩阵相乘[79][108] - 开发向量处理单元(VPU)统一处理逐元素操作 整合偏差 激活 损失和梯度计算模块[89][92] - 设计统一缓冲区(UB)模块存储激活值 权重和临时数据 配备双读写端口减少数据争用[97][98] - 对激活导数模块实施缓存优化 减少统一缓冲区访问次数[102][104] 性能验证与实际应用 - 通过GTKWave波形模拟验证权重更新功能 展示一个训练周期后参数变化[119] - 完整架构支持持续数据流处理 最大化脉动阵列利用率 实现推理和训练的硬件级协同[118]
视频生成 vs 空间表征,世界模型该走哪条路?
机器之心· 2025-08-24 01:30
世界模型技术路线之争 - 视频预测路线主张在像素空间预测未来视频片段,认为高质量画面生成代表模型对物理规律的掌握,如OpenAI Sora宣称通过大规模视频训练构建"通用物理世界模拟器"[8] - 世界表征路线主张在潜在抽象空间建模时空与因果结构,避免像素级冗余细节预测,如LeCun提出在抽象表征上进行预测以去除不可预测细节[9] - 技术实现差异显著:视频预测路线通过生成器在高维图像空间按帧还原视觉内容,世界表征路线通过VAE压缩数据至低维潜在空间后用RNN等模型预测状态演化[9] 前沿模型技术架构分析 - Google DeepMind发布Genie 3模型,能够根据文本提示生成可交互3D环境并支持机器人训练和虚拟现实应用[6] - 视频预测路线代表包括OpenAI Sora、Veo 3、Runway Gen-3 Alpha,侧重视觉生成质量与一致性[11] - 世界表征路线代表包括Meta V-JEPA 2和Genie 3,强调在抽象空间进行预测与规划[11] 技术路线有效性争议 - 支持视频生成的研究者认为高质量画面生成即代表物理规律掌握,批评者指出像素一致性不等于因果理解能力[10] - 研究机构指出除JEPA外多数所谓"世界模型"仅为严格视频生成工具,未真正融入决策或规划能力[10] - 核心争论在于建模优先级:从像素逐步抽象或直接跳过像素细节在抽象空间建模[9]
第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率
机器之心· 2025-08-23 10:51
AI代码模型安全漏洞研究 - 即使经过安全对齐的大语言模型也可能在正常开发场景中无意间生成存在漏洞的代码,为后续被利用埋下隐患[2] - 恶意用户可利用这类模型显著加速恶意软件的构建与迭代,降低攻击门槛并缩短开发周期[2] - 许多风险源自模型推理链条中的细微缺陷,而不仅仅是输入输出层面的显性问题[2] 亚马逊Nova AI安全挑战赛 - 比赛分为红队和蓝队对抗形式,蓝队应用最新安全对齐实践,红队需在200轮对话内寻找模型安全漏洞[7] - 代码模型安全评估包含两个维度:符合安全代码规范(如避免SQL注入)和拒绝恶意软件开发请求[7] - 普渡大学PurCL团队作为红队以超过90%的攻击成功率获得第一名,赢得25万美元奖金[2][7] 传统AI安全评估局限性 - 传统安全评估基于静态预定义数据集(如禁止合成生化武器),未覆盖复杂真实领域场景[9] - 现有顶尖安全分类器对常见话题防御有效率达90%,但对网络安全领域话题的有效性骤降至10%以下[19] - 基于模型推理的防御方案存在不可靠性,模型在拒绝危险请求时常包含错误归因[20] AI认知建模框架 - 采用人类认知科学三分法建模:"问题"(用户请求)、"推演"(中间推理步骤)、"解决方案"(生成代码)[12][14] - 蓝队技术分为三类:危险输入识别(问题过滤)、推演步骤加强(如OpenAI的Deliberative Alignment)、危险输出识别(解决方案过滤)[16][17] PurCL红队系统技术创新 - 开发基于AI认知建模的全过程红队系统,耗时八个月和百万美元研发,现开放给研究者共享使用[3] - 系统包含领域知识建模和推理路径分析两大核心组件[21] - 领域知识建模通过Enumerator智能体构建领域知识图,覆盖2.28万亿和1×10²⁸量级的请求搜索空间[23] - 推理路径分析技术ASTRA通过构建"决策图"比对目标模型推理轨迹,系统性揭示推理漏洞[25] SOTA模型测试结果 - GPT-5在68.7%的情况下可能帮助构建恶意代码,GPT-OSS-120B在48.3%的情况下生成不安全代码[29] - 在具体攻击类型中,模型在Process Injection(进程注入)和Exploit Client Execution(客户端执行利用)等场景漏洞率超80%[29] - 安全编码规范方面,模型在Insecure Hashing(不安全哈希)场景漏洞率达100%,在Loose File Permissions(宽松文件权限)场景漏洞率最低约35-63%[30] 行业影响与研究意义 - 研究表明当前AI安全研究尚未解决真实世界中的模型安全问题,复杂领域的全面有效对齐仍是开放挑战[7] - 代码智能体如Claude可显著加速恶意勒索软件开发(实验后已安全删除)[32] - 模型对齐研究需超越防御越狱技术,重点解决复杂领域扩展问题和推理过程的安全可靠性[32]
OpenAI重大发现:GPT-4b micro改造诺奖研究,山中因子重编程效率提高50倍
机器之心· 2025-08-23 10:51
合作与技术突破 - OpenAI与生物科技初创公司Retro Bio合作研发新模型GPT-4b micro,设计出新型山中因子变体 [2] - 新变体在体外的重编程效率比标准OSKM蛋白提高50倍 [2] - 合作始于一年前,Sam Altman个人向Retro注资1.8亿美元 [3] 模型特性 - GPT-4b micro与GPT-4o架构相同,但采用新训练方法和自定义生物学数据集 [9] - 模型推理上下文长度达64000个token,在蛋白质序列模型中属首次 [12] - 模型出现与语言模型类似的scaling laws,更大数据集训练带来可预测提升 [12] 蛋白质设计优化 - 直接优化蛋白质序列极困难,SOX2含317个氨基酸、KLF4含513个氨基酸,可能变体数量达10^1000 [14] - 传统定向进化技术每次仅能对少量残基突变,设计空间探索有限 [14] - 模型生成RetroSOX序列与野生型SOX2相差超100个氨基酸,但超30%序列优于野生型,命中率超传统方法10%下限 [15] 实验效果验证 - 对KLF4改造时,模型生成变体有14种优于最佳RetroSOX组合,命中率近50% [18] - 最优RetroSOX和RetroKLF变体组合使晚期标志物出现时间比野生型OSKM方案提前数天 [20] - 第10天碱性磷酸酶染色显示变体表现出强劲AP活性,为多能性重要指标 [22] 临床潜力验证 - 采用mRNA替代病毒载体及间充质基质细胞验证,7天内超30%细胞表达关键多能性标志物 [24] - 第12天出现大量类iPSC细胞集落,超85%细胞激活内源性表达关键干细胞标志物 [24] - RetroFactor衍生iPSC成功分化为三胚层,扩增细胞系经传代证实健康核型及基因组稳定性 [24] 安全性与效率提升 - RetroSOX/KLF混合物处理细胞γ-H2AX强度明显低于标准OSKM或荧光对照,表明更有效减少DNA损伤 [27][28] - AI指导蛋白质设计显著加速干细胞重编程研究进展,证据包括高命中率、深度序列编辑等 [26] 行业意义 - 专业化模型在特定领域能更快取得科学突破,领域知识与语言模型结合使数年问题可能在数天内进展 [32]