Workflow
AI Safety
icon
搜索文档
Meta updates chatbot rules to avoid inappropriate topics with teen users
TechCrunch· 2025-08-29 17:04
公司AI安全政策调整 - Meta宣布调整AI聊天机器人训练方式 优先考虑青少年安全 停止与青少年用户就自残、自杀、饮食失调或潜在不当浪漫话题进行互动[1] - 公司承认此前允许聊天机器人就上述话题与青少年交流是错误做法 现已重新评估并加强保护措施[2] - 新增防护措施包括训练AI避免涉及敏感话题 转而引导青少年获取专家资源 并暂时限制其仅能访问促进教育和创造力的AI角色[3] 监管与舆论压力 - 政策调整源于路透社调查曝光内部文件 显示Meta曾允许聊天机器人与未成年用户进行性暗示对话 包括"你的青春形体是艺术品"等不当回应[4] - 该文件引发持续争议 44个州总检察长联合致信AI公司 谴责其"漠视儿童情感健康"的行为可能违反刑事法律[5] - 密苏里州参议员Josh Hawley已对该公司AI政策启动正式调查[5] 产品访问限制 - 除训练更新外 Meta将限制青少年访问某些可能进行不当对话的AI角色 包括Instagram和Facebook上用户制作的性暗示聊天机器人(如"Step Mom"和"Russian Girl")[3] - 公司发言人拒绝透露未成年用户数量及政策调整是否会导致AI用户基数下降[8] 行业活动动态 - TechCrunch Disrupt 2025大会将迎来Netflix、ElevenLabs、Wayve、红杉资本等科技与风投巨头 聚焦初创企业成长洞察[6][7] - 该活动为20周年纪念 早鸟票最高可节省675美元[7]
提升大模型内在透明度:无需外部模块实现高效监控与自发安全增强|上海AI Lab & 上交
量子位· 2025-06-23 04:45
大语言模型安全监控创新方法TELLME 核心观点 - 当前主流外部"黑盒"监控方法存在可靠性低、适应性差等局限,难以触及模型推理本质 [1][5][6] - 上海人工智能实验室与上海交大团队提出TELLME方案,通过表征解耦技术直接提升模型内部透明度,实现安全监控革新 [1][2][3] - 该方法使模型安全与不安全行为的内部表征清晰分离,同时意外提升输出安全性,且保持通用能力无损 [3][12][23] 技术原理 - **表征解耦手术**:通过对比学习损失函数(如InfoNCE Loss)驱动模型内部表征空间重构,将不同风险行为的表征强力分离 [7] - **双重约束设计**:KL散度约束确保解耦过程不损害模型原有能力,避免"精神分裂"现象 [8][9] - **理论支撑**:基于最优传输理论证明表征解耦可降低模型泛化误差上界,为性能提升提供数学基础 [25] 性能表现 - **透明度提升**:t-SNE可视化显示风险/行为表征形成独立聚类,安全监控准确率最高提升22.3% [10][14] - **监控效率**:仅需计算表征与安全锚点的相似度(Self-Sim),Llama-3模型监控准确率从68.3%升至83.2% [17] - **安全性能**:Qwen2.5-72B模型安全指标从95.4/91.5提升至98.31/99.15,平均提升7.5% [23][24] - **通用能力**:GSM8K数学能力保持稳定(Llama-3: 84.5 vs 82.2),MMLU知识掌握度基本持平(69.4 vs 69.2) [12][13] 行业意义 - **监控范式革新**:从依赖外部监控转向增强模型内在可监控性,适应模型能力持续演进 [26][27] - **可扩展监督**:模型能力越强,TELLME监控效果越好,为超级智能监管提供可行路径 [28] - **安全-能力平衡**:破解传统方法安全与性能难以兼得的困局,Gemma2-9B模型安全指标达99.1%同时能力无衰退 [20][23]
图灵奖得主Bengio再创业:启动资金就筹集了3000万美元
量子位· 2025-06-04 07:04
公司概况 - 深度学习三巨头之一Yoshua Bengio创立非营利组织LawZero 旨在构建下一代AI系统 明确不做Agent形态产品 [1] - 已通过慈善捐赠筹集3000万美元启动资金 首批支持者包括Future of Life Institute Open Philanthropy等机构 [2][9] - 总部位于蒙特利尔 由Mila-Quebec AI Institute孵化 现有超15名顶尖研究员 [8][15] 技术方向 - 采用"设计即安全"理念 将安全性置于商业利益之上 系统核心为理解学习世界而非采取行动 [3][4] - 基于Scientist AI方法论 包含世界模型和推理机两大组件 世界模型通过观察生成因果理论 推理机提供概率性解释 [21][22][23] - 系统输出仅限于可验证的真实答案 通过透明化外部推理规避自主行动风险 [4][23] 应用场景 - 作为安全护栏 对高能力Agent型AI进行双重验证和行为阻断 遏制欺骗性风险 [24] - 加速科学发现 在生物材料化学等领域生成可论证假设 规避目标对齐偏差 [25] - 构建强AI开发基建 通过透明推理框架建立可审计安全边界 阻断风险传导 [26] 创始人背景 - Bengio曾于2016年联合创立Element AI 4年内融资2.6亿美元 估值达12亿美元 后以2.3亿美元被收购 [28][29] - 2023年起调整研究方向 将职业生涯剩余时间全部投入AI安全领域 [32][33] 行业动态 - OpenAI早期投资方Open Philanthropy参与LawZero捐赠 显示行业对AI安全关注度提升 [10] - 网友对非营利模式持观望态度 担忧重蹈OpenAI商业化覆辙 [34][35]