Workflow
AI科技大本营
icon
搜索文档
对话朱松纯:Agent喧嚣之上,“走心”才是AGI的未来?
AI科技大本营· 2025-04-30 03:02
Agent概念与现状 - 当前AI领域最热门的词是"Agent",被业界称为"智能体元年",但对其定义存在模糊性,有人认为只是RPA的升级版,有人视为无所不能的商业应用[1] - 真正的Agent应具备自主性、自我意识和内在诉求,能主动与环境互动并形成价值判断,而非被动响应指令的工具[4] - 目前多数系统缺乏物理世界互动能力和社会性,仅能完成特定任务,本质仍是工具而非智能体[4] 通通智能体的创新路径 - "通通"采用价值与因果驱动的终身学习模式,在虚拟环境中持续演化并发展个性,核心在于内在驱动力而非数据堆砌[4] - 该智能体已展现出类人行为如讨价还价、策略性撒谎等社会性特征,表明其价值体系正在形成[7] - 与主流Agent相比,"通通"强调"理"(推理能力)和"心"(价值体系)的构建,而非仅关注"技"(任务技能)[6] 多智能体协作挑战 - 社会智能需要模拟组织结构的动态演化,包括家庭、公司等V++集合体的目标形成与内部认知构建[7] - 当前多智能体系统缺乏共享价值体系和社会关系理解,难以实现鲁棒的群体智能[7] - 关键瓶颈在于对社会规则、契约及责权利等内隐知识的建模能力[7] AI发展范式批判 - 主流大模型路径被比作"鹦鹉范式",依赖海量数据但缺乏深层理解,表现出任务脆弱性[9][10] - 倡导转向"乌鸦范式",通过小数据解决大任务,强调内在需求驱动和因果推理的自主智能[12] - 千亿参数模型虽工程有效但科学上"丑陋",存在黑箱问题和泛化能力缺陷[9][13] AGI评估新框架 - 提出能力与价值双系统的评级方法,通过开放环境测试自主定义任务和适应变化的能力[14] - "通通"在测试中表现接近3-6岁儿童水平,验证了该框架可行性[14] - 批评"预测下一个token"模式缺乏多模态反馈闭环,导致知识组织混乱[14] 中国AI发展路径 - 主张跳出数据算力军备竞赛,结合实体经济需求发展具身智能[16] - 将儒家文化等传统价值融入AI设计,探索不同于西方的社会智能解决方案[16] - 强调哲学心理学等人文学科对构建AI价值体系的关键作用[16] 智能本质的哲学思考 - AGI发展应回归对智能本质的理解,构建具备内在价值和认知能力的智能体[18] - "为机器立心"是技术目标也是哲学宣言,关乎AI与人类社会的共生方式[18] - 指出通用人工智能的发展选择将深刻影响国家未来竞争力[18]
性能超越DeepSeek R1,Qwen3正式登场!阿里一口气放出8款大模型,登顶开源王座!
AI科技大本营· 2025-04-29 09:05
模型发布与性能 - 阿里Qwen团队发布全新Qwen3系列大模型,一次性开源8款混合推理模型,包括2个MOE模型和6个Dense模型 [1][3][4] - 旗舰模型Qwen3-235B-A22B拥有2350亿参数,激活参数220亿,在代码、数学和通用能力基准测试中超越DeepSeek R1和OpenAI o1,接近Google Gemini 2.5-Pro [4][5] - Qwen3-30B-A3B总参数300亿,激活参数仅30亿,性能优于QwQ-32B,小模型Qwen3-4B达到Qwen2.5-72B-Instruct水平 [6][7] 技术创新与架构 - Qwen3是国内首个支持"快思考"和"慢思考"混合推理的模型,可根据问题难度切换响应模式 [9][10] - 模型预训练数据量达36万亿token,覆盖119种语言,是Qwen2.5的两倍,采用三阶段训练流程提升专业能力和长文本处理 [16][17] - MOE架构仅激活10%参数即可实现接近Qwen2.5 Dense模型的性能,显著降低训练和推理成本 [19] 行业影响与用户反馈 - Qwen3系列开源模型数量突破10万,超越Meta Llama成为全球最大开源模型族群 [23] - 外媒评价Qwen3接入效率高,几小时可替代OpenAI接口,显存使用效率接近GPT-4 [23] - 用户实测显示Qwen3在编程、数学和多语言处理表现优异,GitHub热度达17.9k Star [25][26][27][31] 多语言与部署支持 - 支持119种语言和方言,覆盖全球主要语系,包括印欧语系、汉藏语系、亚非语系等 [11][13] - 模型已在Hugging Face、ModelScope、Kaggle等平台上线,支持网页端和移动端使用 [14][18] - 推荐使用SGLang、vLLM等推理框架进行部署,本地工具支持包括Ollama、LMStudio等 [15]
CSDN 智研社走进巴黎:共话 AI 时代的技术变革与机遇
AI科技大本营· 2025-04-29 09:05
欢迎对人工智能带来的创新充满兴趣的创业者、技术开发者、开源爱好者,当地人士与合作伙伴代 表, 报名参与本次活动。 关于「智研社-The Intelliger」 随着以大模型为代表的第四次技术革命进入攻坚期,科技发展正经历一场深刻的范式转变,「AGI 新 纪元」呼啸而来。如何站在范式转换的转折点,重塑我们对于新一轮技术变革的认知,建立共识、深 化交流,是每一位技术人都非常关心的课题。 CSDN 作为中文技术社区的领导者,发起「智研社-The Intelliger」系列活动,走进全球各大技术中 心城市,汇聚技术人才与行业精英,搭建开放、前沿的交流平台,推动全球技术创新与合作, 引领 技术领导者走向全球,拥抱 AGI 新纪元。 法国时间 5 月 7 日,CSDN 智研社 2025 欧洲站首场线下聚会活动 ——" CSDN 与 TA 的朋友们·巴 黎见面会 "正式开启。为技术管理者、技术开发者及开发者生态运营者、产业合作伙伴们,提供国际 化的面对面交流机会。 活动基本信息 日期: 巴黎时间 5 月 7 日 时间 :10:00--14:00 地点: St a tion F 活动日程 10:00-12:00 体验 GOS ...
AI 取代人类的第一步,就是剥夺我们“慢思考”的能力
AI科技大本营· 2025-04-28 09:58
AI大模型发展历程 - 1980年代AI主要依赖规则基础的专家系统 如医疗诊断系统通过预定义规则快速处理信息但缺乏灵活性和学习能力 [1] - 21世纪机器学习兴起 垃圾邮件过滤器通过算法从数据中学习识别邮件类型 引入神经网络等复杂模型实现更深入分析 [1] - 当前AI大模型如GPT/BERT具备复杂语言理解和生成能力 关注上下文/情感/逻辑推理 决策表现更接近人类慢思考 [12] 卡尼曼双系统理论对AI的影响 - 系统1(快思考)自动快速运行依赖直觉 占日常决策90%以上 系统2(慢思考)需专注处理复杂问题占深度决策10%以下 [6][10][11] - ChatGPT思维链技术基于双系统理论 通过逻辑推导/因果关系分析实现系统化决策 如Deepseek R1/o1的思维链推理 [12] - 前景理论帮助AI模拟人类损失厌恶心理 启发式与偏差理论优化算法避免认知偏差导致的决策错误 [12][13] AI与人类认知模式对比 - AI向慢思考进化 如360AI深度搜索调用多模型模拟人类思考步骤(意图识别/推理等)提供精准信息 [12] - 人类在信息爆炸时代趋向快思考 依赖短视频/碎片化新闻导致深度思考能力弱化 [15] - AI生成内容(图片/视频/声音)逼真度提升 被用于诈骗如AI换脸案件造成单笔430万元损失 [20][21] AI技术应用与互补 - AI可辅助人类慢思考 如MIT实验室认为AI是工具 能快速分析海量数据为决策提供依据 [25] - AI心理咨询功能通过对话分析用户认知偏差 提升自我认知减少焦虑 [26] - 人类创造力/情感理解力与AI高效性形成互补 如创造性想法和情感连接是AI无法替代的能力 [27] 行业技术动态 - AMD举办2025 GPU挑战赛 设置FP8 GEMM/MLA with ROPE/Fused MoE三大算子赛道 总奖金10万美元 [32][34] - 参赛需通过Github CLI工具提交内核 中国大陆开发者可参与 获奖者或受邀参加硅谷AI日活动 [35][37]
性能媲美GPT-4o 和 Gemini2 Flash,阶跃星辰开源通用图像编辑模型Step1X-Edit
AI科技大本营· 2025-04-27 07:12
阶跃星辰Step1X-Edit模型发布 - 阶跃星辰发布开源图像编辑大模型Step1X-Edit,性能达到开源体系SOTA水平,可与GPT-4o和Gemini 2 Flash等闭源模型媲美 [2] - Step1X-Edit由19B参数构成(7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持和高精度区域级控制三项核心能力,支持11类高频图像编辑任务 [4] - 模型首次在开源体系中实现多模态语言理解与扩散图像生成的深度融合,通过自建高质量数据生成管道和GEdit-Bench基准评测,显著优于现有开源模型 [5] 技术架构与创新 - Step1X-Edit架构包含三大核心组件:多模态大型语言模型(MLLM)、连接模块以及扩散Transformer(DiT) [6] - 模型采用单次前向传递捕获文本与视觉语义关系,通过令牌精炼器重组嵌入特征,并引入全局视觉引导向量提升上下文感知能力 [10] - 训练阶段融合FLUX-Fill令牌连接机制,联合优化连接模块与DiT网络,采用Qwen与DiT预训练权重实现快速收敛 [10] 资源与赛事信息 - Step1X-Edit开源资源包括Github、HuggingFace和ModelScope平台,技术报告发布于arXiv [11][12][13] - AMD 2025 GPU挑战赛聚焦FP8 GEMM、MLA with ROPE和Fused MoE三大算子优化,总奖金10万美元,优胜者可受邀参加AMD Advancing AI Day活动 [14][15] - 赛事时间表显示注册截止为2025年4月30日,提交窗口分阶段开放,中国大陆参赛者需通过Github CLI工具提交 [17][18][19]
一文搞懂:RAG、Agent与多模态的行业实践与未来趋势
AI科技大本营· 2025-04-27 07:12
大模型技术演进 - 大模型作为产业变革核心引擎,通过RAG、Agent与多模态技术重塑AI与现实的交互边界,推动行业从效率革新迈向业务重构 [1][2] - RAG突破大模型静态知识边界,解决数据时效性、隐私安全与专业适配等关键难题 [2][12] - Agent重构人机协作范式,具备自主决策与多任务协同能力 [2][5] - 多模态大模型解锁复杂场景落地潜力,实现跨模态语义理解 [2][6] RAG技术 - RAG通过外挂实时知识库解决大模型知识固定、数据隐私、可解释性及成本优化问题 [12][14][15][16] - 相比传统生成模型,RAG支持动态知识更新、答案可追溯至检索文档,适用于需事实性支持的场景 [17][19] - RAG构建面临文本向量化、多模态文档处理及可控检索等挑战,需优化分块策略与检索架构 [20][21][23][27] - 未来方向包括多模态文档统一处理范式与记忆驱动RAG,后者利用LLM的KV缓存实现动态索引 [28][32][34] Agent技术 - Agent通过感知层、决策层、执行层形成自主性系统,结合LLM、规划与工具实现复杂任务处理 [39][42] - 分为自主智能体(任务执行)与生成智能体(内容创作),MetaGPT和AutoGen为当前主流框架 [44][49][50][52] - Multi-Agent系统通过分布式协作解决非线性动态任务,提升容错能力与资源管理效率 [53][56][58] - 行业应用需突破任务解构、动态环境适应及价值观对齐等难点,采用元学习、联邦学习等技术优化 [59][62][63] 多模态大模型 - 紫东太初项目将目标检测、分割等CV任务统一到图文大模型,增强局部感知能力,在RefCOCO等任务中精度超越专有模型 [67][69][73][74] - 360研究院开放世界目标检测技术提升图像理解与语义融合能力,应用于自动驾驶等领域 [78][79][83] - 腾讯视频号审核系统融合多模态内容理解与文本RAG,通过垂类大模型与分甬道审核提升效率 [84][85][88][92][96] 未来趋势 - 算法层面向全模态能力发展,产品层面涌现人机协同复杂系统,领域层面与垂类场景深度结合 [98][100][103] - RAG、Agent与多模态将深度融合,形成感知-认知-决策闭环,催生手术机器人等新一代产业智能体 [100]
倒计时 6 天!致全球 GPU Kernel 极客:AMD 的 10 万美金“战书”请查收!
AI科技大本营· 2025-04-24 09:09
赛事概述 - AMD发起并全程赞助2025推理优化挑战赛 面向全球GPU kernel开发者 旨在挑战AI推理性能极限 [3] - 赛事总奖金100 000美金 优胜者可受邀赴美参加AMD Advancing AI Day颁奖盛典 [3][4] - 最优方案将深度整合至AMD ROCm开源生态 提升全球影响力 [4] 参赛规则 - 参赛形式支持单人或团队(≤3人) 无国籍限制 需通过AMD官方验证并绑定GitHub ID [6] - 优化目标为三重DeepSeek算子:FP8 GEMM MLA with Rope Fused MoE [6] - 提交方案可使用Triton Composable Kernel或HIP编写 每两周开放PyTorch参考实现及理论性能数据 [6] 技术价值 - 赛事直击AMD GPU底层算力瓶颈 优化成果将定义下一代推理性能标准 [8] - 参赛者无需本地GPU 通过云端算力平台专注底层算子优化(low-level kernel) [6] 时间节点 - 报名截止2025年4月30日 代码提交截止2025年6月8日 [7] - 硅谷颁奖典礼定于2025年6月12日举行 [7] 参赛入口 - 通过CSDN赛事官网(https://t.csdnimg.cn/amd)或官方群组报名 [11]
李建忠:大模型技术创新驱动的 AI 生态和应用演进
AI科技大本营· 2025-04-24 03:39
AI发展阶段与生物智能演化对比 - AI发展分为五个阶段:1940年代符号主义起步[4]、2012-2018年感知AI(如AlexNet突破)[4]、2018-2024年生成式AI(如GPT-1.0和ChatGPT)[4]、2024-2030年AI智能体(强化学习驱动)[4]、2030年后物理AI(具身智能)[4] - 生物智能演化对应:5.5亿年前线虫大脑诞生[7]、5.4亿年前三叶虫视觉出现[8]、5000年前人类文字发明[8]、16-17世纪科学革命[9] - 两者均呈现"大脑→视觉→语言→推理"的加速发展路径,语言是智能跃迁核心[9][10] 自然语言在智能中的核心地位 - 人类文明因文字出现而腾飞,AI领域OpenAI押注自然语言路线,通过大模型实现智能突破[12] - Anthropic研究反驳统计学派:大模型内部存在规划逻辑(非简单概率输出)、跨语言泛化能力、语言映射共享概念区域(如"苹果"的抽象概念)[13][14][15] - OpenAI首席科学家Ilya Sutskever认为"语言是对人类智能的压缩",与维特根斯坦哲学观点一致[19] 大模型技术范式演进 - 三阶段划分:预训练(知识灌输)、后训练(价值观对齐)构成"快思考",推理(逻辑思维)构成"慢思考"[21] - Scaling Law持续有效:预训练受限于语料瓶颈,但强化学习(如OpenAI o1和DeepSeek-R1)通过合成数据推动新增长曲线[23] - 推理模型成为主流范式,DeepSeek-R1开源方案推动行业转向强化学习[19][21] AI应用生态与模态演进 - 生成式AI(AIGC)与AI智能体并行发展:前者提供情绪价值(toC娱乐),后者提供成就价值(toB效率)[25] - 内容模态遵循"文字→图片→音频→视频"路径,AI降低创作门槛(博客时代作者比例1%,短视频时代37.5%)[27] - 智能体五大能力:规划(推理驱动)、工具调用(MCP协议)、协作(A2A协议)、记忆、行动[28][31][33] Agent平台与协议生态 - MCP协议连接大模型与传统软件(结构化数据/中心化架构),A2A协议实现Agent间协作(自然语言/去中心化)[33][34] - Agent平台将成为大模型厂商竞争焦点,需整合MCP和A2A协议以链接传统服务与多Agent协作[35][37][38] - 传统软件需重构为"面向智能体+自然语言交互+消除割裂"的三要素,否则面临淘汰[42] AGI发展路径与组织协作 - OpenAI定义AGI五阶段:聊天机器人→推理者→智能体→创新者→组织者[45][50] - 强化学习推动AI从"人类数据时代"(知识回声)到"经验数据时代"(突破边界)[47][49] - 高阶智能体现为组织协作,未来或出现大规模Agent协作网络(如软件开发中需求分析、编码等角色Agent化)[53][55]
靠开发AI作弊神器成名,21岁小伙遭学校开除不足一月后,转身拿下530万美元融资!
AI科技大本营· 2025-04-23 05:39
核心观点 - 00后创始人Chungin Lee开发AI作弊工具Interview Coder后遭哥伦比亚大学开除,但凭借该工具逆势获得530万美元融资并创立Cluely公司 [1][5][7] - Cluely定位为"隐形AI助手",宣称可应用于面试、考试、销售通话等场景,收费20美元/月 [7][9][13] - 公司将自身类比计算器、拼写检查等曾被视为"作弊"的技术革新,提出"未来只奖励杠杆而非努力"的激进理念 [16][17][22][23] - 项目引发广泛争议,支持者认为其代表技术革命,反对者担忧破坏能力评价体系 [30][32][34] 产品技术 - 核心技术基于Interview Coder改进,原项目通过截图识别LeetCode题目并调用ChatGPT解题,代码量不足1000行 [29] - 系统具备反屏幕监控设计,可规避Zoom/Google Meet等平台的检测 [29] - 新版本扩展至音频处理能力,实现"看屏幕+听语音"的实时辅助 [2][13] - GitHub开源项目获4.2k星标,原工具年化收入达300万美元 [29] 商业模式 - 采用SaaS订阅制,定价20美元/月与Cursor等竞品持平 [9] - 融资530万美元来自Abstract Ventures和Susa Ventures [1] - 营销策略极具话题性,官网直接使用"Invisible AI to Cheat"作为Slogan [7] - 发布争议性宣传视频展示社交场景应用,强化品牌记忆点 [25] 行业影响 - 大厂态度分化:亚马逊明确禁止面试使用未授权工具,但未直接封杀相关技术 [35] - 教育机构反应迅速,多所高校已明文禁止此类"隐形外挂" [35] - 引发关于AI时代能力评价标准的讨论,部分用户担忧医疗等专业领域滥用风险 [34] - 反映技术迭代与规则制定的滞后矛盾,同类产品可能加速涌现 [35] 创始团队 - CEO Chungin Lee(21岁)和COO Neel Shanmugam(21岁)均因开发作弊工具被哥大开除 [28] - 擅长制造话题,通过YouTube实证视频等手法快速建立市场认知 [29] - 提出"人机协同"愿景,认为AI将重构世界运行方式而非简单工具替代 [20][21]
直播|Tuya AI硬件开发平台开源啦!搭载超强AI能力,助力个人开发者打破技术壁垒
AI科技大本营· 2025-04-23 05:39
核心观点 - 涂鸦智能推出深度融合AI大模型的TuyaOpen Framework升级版 以开放、灵活、安全为核心理念加速AI硬件产品创新与落地[3] - 该框架已通过全球亿级设备和百万级用户验证 集成端侧AI推理引擎与云智能体中枢 支持端云融合多模态AI能力[1][3] 技术特性 - **跨平台兼容性**:支持涂鸦T系列、野火、正点等主流开发平台 提供标准化工具链简化多平台开发流程[6][10] - **语言与生态支持**:兼容MicroPython/Lua/Node.js等技术栈 无缝对接Arduino/PlatformIO等第三方生态[6] - **协议覆盖**:内置Wi-Fi/蓝牙/Zigbee等协议栈代码 覆盖智能家居与工业物联网全场景[10] AI能力整合 - **大模型接入**:开发者可调用DeepSeek/通义千问等国内模型或ChatGPT/Gemini等海外服务[4] - **多模态功能**:通过涂鸦工具生态实现文字/语音对话、图片/视频生成等AI应用[4] - **端云协同**:结合端侧推理引擎与云智能体中枢 缩短产品开发周期50%以上[3][4] 开发者支持体系 - **开源策略**:商业级代码开源 包含RTOS/Linux/Non-OS适配方案及亿级设备验证协议栈[6][10] - **教学资源**:提供直播教学(4月24日)及开发板/示例代码 适合学生毕业设计与企业商业化项目[7][8][10] - **激励计划**:限量赠送500个T5AI开发板(价值399元)及专属授权码 包含AI能力License与1v1技术支持[16][17] 商业化路径 - **快速落地**:企业可基于框架开发AI玩具/服务机器人等产品 上市周期缩短30%[10] - **成本优化**:直接采用已验证代码降低试错成本 模组会员价格进一步控制BOM成本[10][17] - **生态扩展**:通过GitHub社区协作机制持续迭代 技术问题24小时内响应解决[19]