Llama 4系列

搜索文档
Anthropic推出新一代Claude模型 用于推理和AI代理
智通财经网· 2025-05-23 02:05
模型发布 - Anthropic推出下一代Claude模型Claude Opus 4和Claude Sonnet 4,专注于编码、高级推理和AI代理功能 [1] - Claude Opus 4被公司称为世界上最好的编码模型,在复杂任务和代理工作流程中表现持续优异 [1] - Claude Sonnet 4是Sonnet 3.7的重大升级版本,提供更卓越的编码和推理能力,同时指令响应更精确 [1] 功能更新 - 扩展思考与工具使用(测试版):两种模型可在推理过程中切换使用网络搜索等工具以提升回答质量 [1] - 模型支持并行使用工具,更精准遵循指令,并在允许访问本地文件时展现更强内存能力 [1] - Claude Code全面开放,同时Anthropic API新增四项功能(代码执行工具、MCP连接器、Files API、缓存提示一小时)以强化AI代理开发 [2] 定价与竞争 - Opus 4定价为每百万代币15美元(输入)/75美元(输出),Sonnet 4为3美元/15美元,与旧版保持一致 [2] - 行业竞争对手包括谷歌(Gemini 2.5 Pro)、OpenAI(GPT-4.5)、Meta(Llama 4)及中国企业百度、阿里巴巴、DeepSeek [2]
AI日报丨对等关税下,英伟达显卡价格疯涨!50系显卡被炒高身价,翻倍涨破3万元
新浪财经· 2025-04-15 11:33
整理 | 美股研究社 在这个快速变化的时代,人工智能技术正以前所未有的速度发展,带来了广泛的机会。《AI日报》致 力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的行业洞察和价值分析。 AI快报 1.4月15日,可灵AI在"灵感成真"2.0模型发布会上宣布,基座模型再次升级,面向全球正式发布可灵2.0 视频生成模型及可图2.0图像生成模型。可灵2.0模型在动态质量、语义响应、画面美学等维度,保持全 球领先;可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。 2.记者获悉,AI大模型独角兽智谱2025年4月14日在北京证监局办理辅导备案,辅导机构为中国国际金 融股份有限公司。这意味着,智谱成为第一家正式启动IPO流程的"大模型六小龙"。 3.AMD CEO称,计划扩大在美国的AI芯片和服务器生产,公司计划利用台积电正在扩建的亚利桑那工 厂生产AI芯片。其还表示,已与台积电首席执行官会面,并将拜访其他供应商及合作伙伴。 4.苹果公司将分析用户设备上的数据以改进其人工智能(AI)平台,同时确保用户数据保留在设备上, 不会直接用于训练AI模型。这项新方法将通过使用实际电子邮件来检查合成数据并改 ...
关税刷屏的一周,AI圈也暗流涌动:Llama 4来了,O3和O4-mini也要来了,DeepSeek R2和GPT-5也不远了?
硬AI· 2025-04-06 14:12
文章核心观点 本周科技界聚焦AI领域,Meta发布Llama 4系列,OpenAI确认O3和O4 - mini上线及GPT - 5推迟发布,DeepSeek与清华联合发布新论文推动AI技术发展 [3][4] 各公司动态总结 Meta推出Llama 4系列 - Meta周六发布Llama 4系列,全系采用混合专家架构,实现原生多模态训练,告别纯文本模型时代 [6] - 发布模型包括开源的Llama 4 Scout和Llama 4 Maverick,以及Llama 4 Behemoth预览版,新许可证对使用有一定限制 [6] - Llama 4 Scout速度快,原生支持多模态,有1000万 + Token多模态上下文窗口,可在单张H100 GPU上运行 [9] - Llama 4 Maverick在主流基准测试中击败GPT - 4o和Gemini 2.0 Flash,推理和编码能力与DeepSeek v3相当,激活参数量不到后者一半 [9] - Llama 4 Behemoth仍在训练,定位为“世界上最智能的LLM之一”,展现Meta雄厚实力,有网友指出其训练性能潜力 [10] - Meta计划今年投入高达650亿美元扩展AI基础设施 [14] OpenAI模型发布动态 - OpenAI首席执行官确认O3和O4 - mini未来几周发布,GPT - 5未来几个月发布 [16] - GPT - 5将整合多项功能,成为集成多种工具和功能的综合系统,实现自主使用工具,胜任复杂任务 [20] - GPT - 5将对免费用户开放无限使用权限,付费用户体验更高智力水平版本,因DeepSeek影响考虑免费策略 [20] DeepSeek与清华合作成果 - DeepSeek与清华研究团队联合发布推理时Scaling新论文,提出SPCT学习方法,构建DeepSeek - GRM系列模型 [25] - SPCT方法包括拒绝式微调冷启动和基于规则的在线强化学习优化生成内容,提升奖励质量和推理扩展性 [27] - 引入元奖励模型过滤低质量样本,提升最终输出准确性和可靠性 [28] - DeepSeek - GRM - 27B在多个RM基准测试中表现出色,为AI模型应用提供新技术路径,可能在DeepSeek R2展示成果 [30]