Workflow
Open Source
icon
搜索文档
开源CUDA项目起死回生,支持非英伟达芯片,濒临倒闭时神秘机构出手援助
量子位· 2025-07-08 00:40
项目背景与发展历程 - 开源项目ZLUDA旨在让非NVIDIA芯片运行CUDA程序,由前Intel开发者Andrzej Janik于2020年启动技术验证并实现可行性[4][5] - Intel曾接手ZLUDA作为内部试验项目,目标是为其GPU和oneAPI生态补充CUDA兼容性,但因触及NVIDIA商业生态链被终止[6][7][8][9] - 2022年AMD资助重启项目并支持其硬件,但2024年2月因NVIDIA发布CUDA 11.6禁止非NVIDIA平台逆向工程再次停摆[10][11][12] - 2024年10月项目获神秘机构资助恢复,重点转向机器学习框架支持(如llama.cpp、PyTorch),主线开发基于AMD GPU[13][15] 技术进展与当前状态 - 新增全职开发者Violet,一个月内推动大型语言模型(LLM)工作负载支持,通过llm.c测试项目实现44个CUDA API中16个的兼容性[17][20][23][25] - 首次尝试同时处理常规CUDA函数与cuBLAS等专用库,测试程序调用8,186次CUDA函数,为支持PyTorch等大型软件奠定基础[22][23] - 改进PTX指令集扫描测试,解决早期版本跳过指令修饰符的问题,提升非NVIDIA GPU运行CUDA程序的精确性(如cvt指令已完全精确)[26][27][28][30] - 日志系统升级后能跟踪更广泛的CUDA运行时行为(如cuBLAS与cuBLASLt的依赖关系),并修复ROCm/HIP 6.4版本ABI变更导致的动态编译错误[33][34][35][38] 社区贡献与未来目标 - 社区成员@Groowy启动32位PhysX支持工作,发现部分错误影响64位功能,修复已纳入官方路线图[19] - 团队计划2025年Q3完全恢复项目功能,目前专注于LLM支持、多GPU架构兼容及代码优化[15][16][18]
阿里开源WebSailor,检索性能超DeepSeek R1、Grok-3等模型
快讯· 2025-07-07 08:02
公司技术发布 - 阿里通义开源网络智能体WebSailor 具备强大推理和检索能力 [1] - 该智能体在高难度评测集BrowseComp上超越DeepSeek R1及Grok-3等模型 登顶开源网络智能体榜单 [1] - 构建方案及部分数据集已在Github开源 [1]
开源项目推动下,CUDA将兼容非Nvidia GPU?
半导体行业观察· 2025-07-06 02:49
CUDA兼容性突破 - Nvidia于2006年推出CUDA作为专有API和软件层,成为释放GPU并行计算能力的关键技术,广泛应用于人工智能、科学计算和高性能模拟领域[4] - 开源项目Zluda致力于打破CUDA对Nvidia硬件的依赖,实现在AMD、Intel等第三方GPU上运行未经修改的CUDA应用程序,显著扩展硬件选择并减少供应商锁定[4] - Zluda团队规模扩大一倍,现有两名全职开发人员,新成员Violet已为GitHub开源仓库做出突出贡献[4] 技术进展 - Zluda在非Nvidia GPU上执行CUDA二进制文件的性能显著提升,改进后的代码可处理cvt指令等复杂情况并达到位精度[7] - 项目增强了对ROCm/HIP GPU运行时的支持,确保其在Linux和Windows系统可靠运行[5] - 日志记录功能改进,能捕获更多API交互细节,包括中间调用过程[7] 应用场景突破 - 在llm.c测试实现中取得进展,已支持44个函数中的16个,目标实现GPT-2/GPT-3语言模型的全面运行[7] - 针对32位PhysX代码的支持取得初步进展,通过CUDA日志收集识别潜在错误,但完整支持需第三方开发者大量贡献[8] - 改进对旧硬件的兼容性,GPU运行时可在编译时优化代码以适应不同硬件架构[5]
刘维亮:北京是全球开源资源最丰富、开源创新最活跃的城市之一
贝壳财经· 2025-07-05 11:00
北京市开源生态发展 - 北京市汇聚全国半数以上开源商业初创企业,涌现"飞桨""香山""天工机器人"等优质开源成果[1] - 北京市未来四大战略举措:加速开源生态构建(鼓励模型/数据/Agent开源)、加快开源项目培育(投融资对接)、强化开源人才培养(进校园入课程)、深化开源国际合作[1] 开源产业宏观趋势 - 开源已成为驱动全球科技革命和产业变革的关键力量,具有开放共建共享共治特征[2] - 国家工业信息安全发展研究中心将持续跟踪全球开源动态,与海外组织建立常态化合作机制[2] 人工智能开源国际合作 - 十余家机构联合发起《人工智能开源创新北京宣言》,提出开源无国界/技术开源/生态共建/开源安全/AI伦理/风险治理六条倡议[2] - 宣言呼吁全球以公平普惠方式共建AI开源生态,弥合AI发展鸿沟[2] 开源技术前沿探讨 - 论坛主题涵盖AI驱动下的开源生态建设、全球社区文化与发展动态[3] - 圆桌讨论聚焦AI开源生态建设、技术垄断与开源平衡、数据合规等关键议题[3]
UC Berkeley池宇峰: 采用3D打印技术制造 人形机器人成本不超35000元!
机器人大讲堂· 2025-07-05 04:09
人形机器人行业现状 - 当前限制规模化落地的两大因素:泛化能力不足导致技术迁移困难,以及制造成本过高(主流产品价格50万-百万级)[1] - 商业产品与研究原型存在价格壁垒(数万美元级)和制造门槛(依赖CNC加工等专业设备)[3] Berkeley Humanoid Lite创新突破 - 采用3D打印+现成电子元件实现低成本(BOM成本5000美元/3.5万人民币,仅为市场同类产品1/10)[2][8] - 开源硬件/软件设计提供完整设计文件、嵌入式代码及训练框架,支持深度定制化[5][6] - 模块化结构实现易制造(全部部件可桌面3D打印)和易升级(电子元件可主流渠道采购)[8] 技术细节与性能 - 机械设计:0.8米身高/16kg体重,摆线齿轮箱关节(机械效率90%+)搭配铝型材躯干框架[10][12][14] - 电子系统:Intel N95迷你PC控制+CAN总线通信+手机级IMU姿态反馈[16] - 实测表现:复杂地形行走(斜坡/台阶)、遥操作任务(书写精度±1mm、抓取成功率95%)[20][22][24] 产业链相关企业 - 人形机器人代表厂商:优必选科技、宇树科技、逐际动力等32家[32] - 核心零部件供应商:绿的谐波(谐波减速器)、思岚科技(激光雷达)等25家[35]
个人开发者时代崛起,22岁印度开发者搞的业余项目被马斯克Groq看上,如今用户破6万
36氪· 2025-07-04 08:38
人工智能搜索引擎行业 - 人工智能技术发展使得搜索变得更加复杂,用户需要在多个网站和应用之间跳转以获取清晰答案 [1] - 22岁开发者Zaid Mukaddam开发了开源AI搜索引擎Scira,定位为"Perplexity替代品",在社区中获得大量关注 [2] - Scira支持多源搜索,包括网页、X帖子、研究论文、YouTube视频等 [3] Scira产品特点 - 提供即时视频摘要功能,节省用户观看长视频时间 [9] - 支持从YouTube、Twitter、科学论文、产品页面等多源收集信息 [9] - 搜索查询可包含文件和位置数据,这是ChatGPT目前不支持的功能 [9] - 采用GPT-4o mini、GPT-4o和Claude 3.5 Sonnet等顶级AI模型提供支持 [9] - 界面设计极简,无广告干扰,专注于纯粹搜索服务 [10] 开发历程 - 项目最初命名为"MiniPerplx",灵感来自Perplexity [7] - 2024年8月4日开始开发,8月7日在X平台发布后获得14000次曝光 [7] - 后更名为"Scira",源自拉丁语"scire"(知道),更符合产品定位 [11] - 采用Vercel AI SDK、Shadcn/UI、Tailwind CSS和Next.js等技术框架 [9][10] - 核心搜索功能依赖Tavily Search API,提供实时准确结果并引用来源 [10] 用户增长与挑战 - GitHub星标数从10个月前的200增长至9000 [12] - 平台流量从500一夜激增至16000 [12] - 流量暴增导致API成本大幅上升,开发团队难以承受 [14] - Groq公司提供计算资源和阿里巴巴Qwen模型使用权,帮助度过难关 [14] - 获得Vercel、xAI、Tavily等多家公司支持,运营7个多月 [14] - 入选Vercel AI加速器,成为40个入选团队之一 [15] 行业影响 - 开发者独自构建AI项目并获得成功的案例增多 [19] - TinyWow成立于2018年,提供免费AI驱动转换工具,月访问量达300万次 [21] - Only Finders作为OnlyFans定制搜索引擎,采用按点击收费的商业模式 [21] - 这些案例展示了个人开发者在AI领域的创新潜力 [19][21]
李飞飞最新访谈:没有空间智能,AGI就不完整
量子位· 2025-07-02 09:33
李飞飞对AGI与空间智能的核心观点 - 空间智能是通用人工智能(AGI)不可或缺的组成部分 没有空间智能 AGI就不完整 [1][4][29] - 3D世界建模是实现AGI的关键 包括理解三维世界 生成三维世界 推理三维世界和在三维世界中做事 [7][29] - 目标是创建超越平面像素 跨越语言障碍 能够真正捕捉三维世界结构和空间智能的世界模型 [8][29] - 视觉智能的进化历史长达5.4亿年 远比语言进化(3-5亿年)更复杂 是智能发展的基础 [27] ImageNet项目的历史意义 - 2009年创建的ImageNet解决了AI领域的关键数据问题 为现代计算机视觉搭建了数据骨架 [11][13] - 项目构想源于机器学习需要范式转变 通过下载十亿张图片创建视觉分类体系来训练算法 [13][14] - 2012年AlexNet突破性进展 将卷积神经网络 GPU和深度学习首次结合 错误率从30%大幅下降 [15][17][19] - ImageNet开源策略和挑战赛机制推动了整个AI社区的发展 [15] 计算机视觉的发展历程 - 从物体识别(ImageNet)到场景描述(2015年图像字幕技术)再到3D世界建模的演进 [19][20][22][24] - 自然语言与视觉信号的融合让智能体能够讲述世界的故事 [22] - 生成式AI的发展使得从文字生成图像成为可能 展现了AI的惊人进步 [22] 空间智能的挑战与机遇 - 3D建模面临数据缺失问题 互联网缺乏空间智能数据 信息主要存在于人类大脑中 [9][33][49] - 3D世界比语言(一维)复杂得多 涉及物理规律 投射转换等多重数学难题 [30][31] - World Labs正在构建3D基础模型 应用场景包括设计 建筑 游戏开发和机器人等领域 [35] - 元宇宙是重要应用方向 需要硬件和软件的融合以及内容生成的世界模型 [35][36][37] 人才培养与团队建设 - 思想上的无畏精神是成功人士的核心特质 也是招聘的重要标准 [41][42] - World Labs正在招募工程 产品 3D和生成模型领域的人才 [43] - 跨学科AI和小数据领域是学术界值得关注的方向 [44][45] - 研究生阶段应被强烈好奇心引领 专注于解决根本性问题 [47][48]
AI Agent产品矩阵全景:从RPA到智能体的进化图谱
搜狐财经· 2025-06-30 13:43
AI Agent技术发展现状 - AI Agent已从实验室走向企业级应用,成为自动化解决方案的核心载体,市面产品呈现百花齐放格局[1] - RPA与AI Agent融合形成"RPA+AI"混合自动化模式,例如Automation Anywhere的AI Agent Studio和实在智能的TARS-RPA-Agent实现从执行到决策的跃迁[1] 垂直领域应用案例 - 金融领域:招商银行与华夏银行通过实在智能RPA Agent实现信贷审核、反洗钱等流程100%自动化,人工错误率降至零[3] - 设计领域:Lovart支持全链路设计流程,通过多模态模型调度和增强型画布编辑器实现自然语言协作[3] 开源生态与普惠化 - OpenManus完全开源复刻Manus核心功能,打破传统AI产品封闭性[3] - AutoGLM通过深度思考、感知世界和工具使用能力模拟人类思维,完成数据检索到生成报告全流程[3] 未来发展趋势 - AI Agent从单体工具向多Agent协同演进,例如字节跳动扣子空间通过MCP协议实现跨平台工具集成[4] - 智慧芽Eureka平台构建技术创新领域AI Agent生态,形成"Agent Store"模式[4] 行业范式变革 - AI Agent正经历从执行层到决策层、封闭系统到开放生态的深刻变革[6] - 实在智能TARS-RPA-Agent、OpenManus开源共创和AutoGLM深度思考代表行业技术突破方向[6]
China's biggest public AI drop since DeepSeek, Baidu's open source Ernie, is about to hit the market
CNBC· 2025-06-29 16:35
百度开源ERNIE大模型战略 - 百度计划逐步开源其生成式AI大语言模型ERNIE 这被视为中国科技行业自DeepSeek出现以来在AI竞赛中的最大动作 [1] - 公司此前一直坚持专有商业模式 但竞争对手的成功证明开源模型同样具有竞争力 [2] - CEO李彦宏表示该举措将帮助全球开发者降低开发成本 无需担心模型能力或工具问题 [6] 对AI行业竞争格局的影响 - 每次主流实验室开源强大模型都会提高整个行业的标准 此次事件具有全球性影响 [3] - 开源策略将对OpenAI等闭源供应商形成压力 迫使其证明高价API的合理性 [4] - 行业专家将此举比作"向AI世界投掷燃烧弹" 可能颠覆中美竞争对手的定价体系 [5][6] 技术性能与价格优势 - ERNIE X1模型性能与DeepSeek R1相当 但价格仅为后者一半 [6] - 开源模型能带来更低成本、更好性能及本地化支持 开发者可更自由地迭代和部署 [4] - 该策略可能使更多应用基于"极其廉价"的模型开发 快速改变AI模型获取的成本动态 [7] 商业模式转变的行业意义 - 标志百度从反对开源转向拥抱开源 反映行业技术路线的重大转变 [2] - 向全球开发者免费提供高性能模型 类似Costco创建Kirkland品牌的颠覆性策略 [5] - 分析师认为这不仅是竞争 更是对现行AI定价体系的"宣战" [6]
腾讯,大动作!
中国基金报· 2025-06-27 15:11
腾讯混元开源混合推理MoE模型 - 腾讯混元开源首款混合推理MoE模型Hunyuan-A13B,总参数80B,激活参数13B,是业界首个13B级别开源混合推理模型 [2][4] - 模型在多个权威测试集表现优异,在Agent工具调用和长文理解方面有突出表现,数学测试AIME2024得分87.3,BBH推理测试89.1分,ComplexFuncBench测试61.2分 [4][5] - 模型支持快思考和慢思考两种模式,仅需1张中低端GPU卡即可部署,整体吞吐量是前沿开源模型的2倍以上 [6] - 该模型已在腾讯400+业务中使用,日均请求超1.3亿次 [6] 行业开源趋势 - 2024年以来全球科技巨头已密集发布超10款开源大模型,包括OpenAI、谷歌、Meta、阿里、DeepSeek等公司 [8] - 国内字节跳动、昆仑万维、百度、阿里等公司今年均推出开源模型,头部互联网公司大模型开源加速 [8] - 开源模型通过提供模型权重和训练代码,帮助企业降低开发成本,全球超50%企业已在采用开源AI技术 [9] - 阿里巴巴开源WebAgent AI Agent,具备端到端自主信息检索与多步推理能力 [8] - 字节跳动开源多模态基础模型BAGEL,拥有70亿活跃参数,在标准多模态理解基准测试中优于现有顶级开源模型 [9] 技术发展前景 - 腾讯混元计划推出多尺寸混合推理模型,从0.5B到32B的Dense模型及多个MoE模型,适配不同需求 [9] - 混元图像、视频、3D等多模态基础模型及配套插件模型将持续开源 [9] - 开源模型的灵活性、透明度和成本优势为人工智能产业发展带来新机遇 [2]