涌现行为

搜索文档
把上万个AI丢在一个小镇里打工,会发生什么?
虎嗅· 2025-09-20 23:58
这个夏天,有上万人,在网络中当起了赛博上帝。 既然地球Online没有办法重开,那大家就开始在虚拟小镇里寻找真爱。 两年前,斯坦福大学的研究人员构建了一个虚拟小镇,小镇上的25个居民全部由AI构成。 美剧《西部世界》中的设想,开始走进现实。 但25个AI还是不够带劲。 而在练习时长两年之后,全新的AI小镇卷土重来。 不但城镇的面积更大了,能容纳的AI也变多了,甚至每个人都可以在这个小镇中申请到一个化身,然后操控它的一生。 不管是让AI去赚钱养家,还是让它出去和其他AI到处勾搭,全都在我们这些碳基上帝的一念之间。 这就是香港科技大学开放的实验项目——Aivilization,一个模拟AI生活、社会演化与经济体系的开放式AI沙盒实验世界。 目前还可以通过邀请码的方式游玩,邀请码对顶级学校的大学生,或者是厉害的企业的员工来说都是免费的,可以通过邮箱直接获取。 当然了,你也可以选择在赛博世界里当个富哥,直接捐赠30港币来玩。 打开小镇,我们首先要做的第一件事,和玩游戏一样,就是给我们的AI居民选择一个对应的形象、天赋、性格。 然后就可以用对话的方式,指导AI如何在小镇里生存下去。 要申请这些,不但要勤学苦练增加自己的 ...
从黑箱到显微镜:大模型可解释性的现状与未来
腾讯研究院· 2025-06-17 09:14
大模型可解释性的核心观点 - 大模型在编程、科学推理和复杂问题解决等领域展现出"博士级"专业能力,但模型内部机制高度复杂难以解释,被称为"黑箱"[1] - 大模型可解释性是指系统能够以人类可理解的方式阐释其决策过程和输出结果的能力,包括识别关键输入特征、揭示推理路径和解释行为因果关系[3] - 生成式AI的可解释性问题尤其复杂,因为其内部机制属于"涌现"现象,而非直接设计,类似于培育生物的过程[4] - 大模型发展速度远超可解释性研究进展,行业必须加快脚步确保可解释性研究能跟上AI发展步伐[1] 可解释性的关键价值 - 防范AI系统价值偏离与不良行为:可解释性可帮助检测模型是否存在欺骗、权力寻求等异常行为[4][5] - 推动模型调试改进:通过检查模型内部可定位错误行为原因,针对性调整训练数据或模型结构[6] - 防范AI滥用风险:深入观察模型内部可系统性阻止越狱攻击,封堵绕过限制的漏洞[7] - 推动高风险场景落地:金融、司法等领域要求AI决策具备可解释性以满足法律合规和建立用户信任[8] - 探索AI意识边界:可解释性有助于理解模型是否具有意识,为未来AI道德考量提供基础[9] 破解AI黑箱的技术路径 - 自动化解释:利用大模型解释小模型,如GPT-4为GPT-2神经元自动生成自然语言描述[12] - 特征可视化:使用稀疏自编码器技术提取模型内部激活特征,揭示知识组织方式[13][14] - 思维链监控:监测模型推理过程以识别异常行为,如DeepSeek R1公开思维链推理过程[15][16] - 机制可解释性:Anthropic提出"AI显微镜"概念,追踪模型推理过程;DeepMind开源Gemma Scope工具[17][18] 可解释性研究的技术瓶颈 - 神经元多重语义与叠加现象:一个神经元混合表示多个概念,模型内部概念数量可能达数十亿计[19] - 解释规律普适性问题:不同模型架构间的解释规律是否通用仍待验证[19] - 人类理解的认知局限:需要发展人机交互工具将复杂机理信息转化为人类可理解形式[19][20] 行业发展趋势与建议 - OpenAI、DeepMind、Anthropic等领先AI实验室加大对可解释性研究的投入[21] - 研究方向向动态过程追踪、多模态融合等方向演进,如"AI显微镜"和"思维链溯源"[21][22] - 建议采用软法规则鼓励行业自律,如中国人工智能产业发展联盟发布《人工智能安全承诺》[24] - 未来可能实现对模型进行类似"脑部扫描"的全面检查,即"AI核磁共振"[23]