Workflow
通用人工智能
icon
搜索文档
EvaLearn:AI下半场的全新评测范式!
机器之心· 2025-07-28 10:45
AI研究范式转变 - AI研究正从"能不能做"转向"学得是否有效",传统基准测试难以衡量AI实际效用,因忽略任务连贯性和长期适应能力[1] - 更类人的动态学习能力体现在通过实践经验不断优化策略,如学生解题时逐步掌握高效方法[3] - 大语言模型(LLM)是否具备类似"成长"能力关乎其迈向通用人工智能,但长期缺乏有效评估手段[4] EvaLearn基准框架 - EvaLearn是首个量化LLM学习能力与效率的基准,以「连续问题求解」为核心重新定义评估逻辑,开源一个月星标数突破400+[5][6] - 构建648个挑战性问题组成182个序列,每个序列含7个同类任务问题,前序解答经验直接影响后续表现评估[9] - 采用顺序评估流程,结合专业评分标准和GPT-4o验证器,评估准确率超95%实现高效自动化[11][13] 关键研究发现 - 模型学习能力存在任务类型差异:数学/逻辑推理任务更易利用经验提升,摘要类任务更依赖预训练知识[14] - 思维链模型在学习能力和稳定性上普遍优于非思维链模型,能更好利用经验解决新问题[15] - 反馈学习比示例学习效果更显著,可将模型解答准确率提升最高达+18%(如Claude-3.7-Sonnet数学推理)[16][24] - 学习能力与静态模型能力无强相关性,静态高性能模型并非在所有任务学习能力上都占优[17][38] 评估指标体系 - 设计6类任务评估维度:摘要/分类/信息抽取/逻辑推理/数学推理/序列推理[20] - 5大核心指标:整体序列准确率/准确率曲线斜率/首次正确位置/连续正确次数/热身后准确率[21] - 4种学习范式对比:零样本/少样本/示例学习/反馈学习,后者平均提升效果最优[22][48] 模型表现分析 - 9个前沿LLM测试显示:5个模型从顺序学习中获益,思维型模型变化更显著(如OpenAI-o3-mini整体提升+10.5%)[27] - 非思维型模型学习效率斜率更陡峭(起始性能低易提升),思维型模型收益更稳定[44] - 首个正确解答位置(P_first)指标显示,反馈学习比示例学习更能促进模型早期掌握任务[52][53] 研究意义与展望 - EvaLearn提供动态评估新范式,揭示模型与人类学习能力差距,推动更强模型发展[55][56] - 开创性实现从静态评估转向动态学习潜力评估,为AGI发展提供重要测量工具[57]
“多模态卷王”,连发三箭!
中国基金报· 2025-07-26 08:44
新一代基础大模型Step3 - 公司正式推出新一代基础大模型Step3,将于7月31日面向全球企业和开发者开源 [2][3] - Step3定位为多模态推理模型,兼顾智能与效率,目标成为开源领域最强的多模态推理模型 [3] - 在国产芯片上推理效率最高可达DeepSeek-R1的300%,且对所有芯片架构友好 [3] - 基于NVIDIA Hopper架构芯片实测显示,Step3推理吞吐量较DeepSeek-R1提升超70% [4] - 华为昇腾芯片已率先实现Step3搭载运行,沐曦/天数智芯/燧原科技等厂商初步完成适配 [13] 上海国资战略合作 - 公司与上海国投达成深度战略合作,涉及资本链接、生态建设、业务协同等方向 [6] - 上海国投注册资本100亿元,为上海市国资委直接监管的大型国有资本投资平台 [9] - 上海国投旗下生态公司将参与公司最新一轮融资 [9] - 上海市政府表态支持AI初创企业技术升级,将强化算力/语料/场景/资金等要素保障 [2] 商业化进展与目标 - 超50%国产手机厂商已与公司达成合作 [9] - 与吉利汽车合作实现行业首个端到端语音大模型智能座舱落地 [9] - 与千里科技合作开发新一代智能座舱解决方案 [9] - 基于2025年上半年高速增长,公司目标2025年全年营收达10亿元 [9] 模芯生态创新联盟 - 联合华为昇腾/沐曦/壁仞科技/燧原科技等近10家芯片厂商成立联盟 [11] - 联盟旨在通过芯片-模型-平台全链路协同创新,提升大模型适配性和算力效率 [11][13] - 目标为企业和开发者提供高效易用的大模型解决方案,加速应用场景落地 [13]
“多模态卷王”,连发三箭!
中国基金报· 2025-07-26 08:31
新一代基础大模型Step 3 - 公司正式推出新一代基础大模型Step 3,将在7月31日面向全球企业和开发者开源 [1] - Step 3兼顾智能与效率,旨在面向推理时代打造最适合应用的模型,为开源世界贡献最强的多模态推理模型 [1] - Step 3在国产芯片上的推理效率最高可达DeepSeek-R1的300%,且对所有芯片友好 [2] - 在基于NVIDIA Hopper架构的芯片进行分布式推理时,Step 3相较DeepSeek-R1的吞吐量提升超70% [4] 上海国资深度合作 - 公司与上海国投达成深度战略合作,围绕资本链接、生态建设、业务协同、应用赋能等方面加强合作 [7] - 上海国投是上海市国资委出资并直接监管的大型国有资本投资平台公司,注册资本达100亿元 [8] - 上海国投旗下生态体系公司将参与公司最新一轮融资 [9] 商业化进展与目标 - 超过一半的国产手机厂商与公司达成合作 [10] - 公司与吉利汽车合作智能座舱,实现行业首个端到端的语音大模型上车 [10] - 公司与千里科技合作打造新一代智能座舱 [10] - 公司基于2025年上半年的高速增长,将冲刺2025年全年营业收入10亿元的目标 [10] 模芯生态创新联盟 - 公司联合近10家芯片及基础设施厂商发起成立模芯生态创新联盟,首批成员包括华为昇腾、沐曦、壁仞科技等 [14] - 华为昇腾的芯片首先实现Step 3的搭载和运行,沐曦、天数智芯和燧原科技等芯片厂商初步实现Step 3的运行 [15] - 联盟的成立将为企业和开发者提供高效、易用的大模型解决方案,加速应用落地 [15] 行业趋势与挑战 - 基础大模型的研发步入深水区,模型厂商和芯片厂商通过联合技术创新,让大模型和算力实现双向价值最大化 [2] - 面向推理时代降低推理成本是提升大模型应用渗透率的关键问题,核心是提升算力的应用效率 [15] - API价格战带来的普及只能形成短期效应,要彻底推动AI技术惠民需要发展可持续模式 [16]
扎克伯格任命清华校友为Meta AI首席科学家
虎嗅· 2025-07-26 02:03
人事任命 - Meta宣布清华校友赵晟佳正式担任其超级智能实验室(MSL)首席科学家 [1] - 扎克伯格在内部信中高度评价赵晟佳在新实验室的联合创始人角色和开创性突破 [2][4] - 赵晟佳回应表示期待与团队共同构建ASI(人工超级智能)并使其与人类需求保持一致 [8] 团队架构 - 65岁图灵奖得主Yann LeCun将继续担任FAIR首席科学家 专注5-10年后的长期AI研究 [10][11] - FAIR与MSL分工明确:FAIR专注长期基础研究 MSL聚焦超级智能前沿 [11] - Meta超级智能团队44名成员中50%为华人背景 成员年薪可能在1000万至1亿美元区间 [25][26] 核心人物背景 - 赵晟佳2016年清华计算机本科毕业 斯坦福博士 专注大模型架构与对齐方向 [12] - 曾深度参与GPT-4和GPT-4o系统设计 主导ChatGPT等产品研发 领导OpenAI合成数据团队 [15][17] - 作为主要作者撰写的《GPT-4技术报告》获超1.7万次引用 为AI领域最高引文献之一 [18][20] - 获得ICLR 2022杰出论文奖 JP Morgan博士奖学金等多项荣誉 [22] 行业趋势 - Meta超级智能实验室近期从OpenAI引进至少4名研究人员(含3名华人) [24] - OpenAI DeepMind Anthropic Meta等一线AI实验室中华人研究员比例显著提升 [27] - 华人科学家正深度参与定义新一代通用人工智能的底层范式与安全架构 [27][28]
2025智能机器人关键技术大会隆重举行
机器人圈· 2025-07-25 12:53
大会概况 - 2025智能机器人关键技术大会于7月22-24日在齐齐哈尔举行,主题为"具身智能与多模态交互技术的融合与突破"[1] - 大会由《机器人技术与应用》杂志社主办,6所高校联合承办,4个国家级专业委员会支持[1] - 蓝点触控、诺亦腾、念通智能、睿感物联等企业现场展示主打产品[1] 行业政策与市场数据 - 具身智能入选2024年中国工程院技术备选清单,2025年首次写入政府工作报告[4] - 2024年中国智能机器人产业营业收入达2378.9亿元[17] - 工业机器人产量突破50万台套,服务机器人产量1051.9万套[17] - 中国制造业机器人密度从2021年322台/万人升至2023年470台/万人,预计2024年突破500台/万人[17] 技术发展趋势 - 具身智能是实现通用人工智能的重要路径[4] - "手眼脑"协同原位加工模式实现大型构件高精度高效加工[5] - 人机共融技术强调以人为核心的交互方式[7] - 混联机器人结合机器人技术与机床技术,具有重要应用价值[11] - 灵巧操作技能将向高保真多模态仿真、虚实迁移等方向发展[14] 学术成果 - 大会设立5个专题论坛,涵盖仿生机器人、手术机器人等细分领域[19] - 收到44所高校及科研院所的109篇投稿,评选10篇优秀论文[19] - 设立青年硕博快闪论坛,30余名青年学者分享研究成果[20] 产业融合 - 智能机器人推动科技与养老服务、工业制造、物流运输等领域深度融合[4] - 产业需关注软硬一体布局、应用场景拓展、安全治理等关键方向[17]
云知声市值激增逾170亿港元:磐谷创投118倍回报领跑 D轮后入股国资平均收益率282%
新浪证券· 2025-07-25 07:06
上市历程 - 云知声于6月30日在港交所上市,此前曾于2020年11月申请科创板IPO但三个月后撤回,2023年转战港股两度递表失效 [1] - 公司最终全球发售156.0980万股,香港公开发售超额认购91.66倍,国际发售超额认购1.70倍,发行价205港元/股,募资3.20亿港元 [1] - 上市后流通股仅占总股本2.2%,在2025年港交所主板新上市公司中募资规模排名第31,属于"迷你IPO" [1] 股价表现 - 上市首日盘中最高价319.80港元,较发行价上涨56.0%,收盘价296.40港元/股,涨幅44.6% [2] - 两周内股价一度达593.5港元高点,总市值逼近400亿港元,最新股价保持在530港元/股以上,市值较首日增长逾170亿港元 [2] 投资者结构 - 基石投资者商汤科技、润建股份和臻一资管合计认购46.286万股,占发售股份近三成,投资总金额9488.63万港元 [2] - 上市前共完成10轮股权融资,26家机构注资约24.36亿元,2023年5月D3轮融资后估值83.33亿元(19.29亿美元) [2] 机构投资回报 - 磐谷创投综合账面投资回报达117.97倍,其个人投资者基金天津朴树企业管理咨询合伙企业收益率达207.8% [4] - 启明创投累计投入1.10亿元,上市后持股9.2%,投资回报近30倍 [5] - 高通和浙大联创投资分别实现账面回报16.92倍和13.04倍,京东、三六零等C轮投资者回报均超11倍 [5] - D+轮及以后轮次参与的机构平均收益率约282.4%,其中超四成为国资背景机构 [6] 财务与经营状况 - 2022-2024年累计亏损12.05亿元,2024年单年亏损同比扩大21.4%至4.54亿元 [8] - 经营性现金流连续三年净流出,贸易应收账款周转天数远高于行业均值 [8] - 生活领域主要客户数量下降,医疗服务主要客户留存率从2022年70.4%降至53.3% [8] - 2024年在中国AI解决方案提供商市场中排名第四,市占率仅0.6% [8] 技术发展 - 伴随600亿参数"山海大模型"发布,公司将业务定位调整为多模态和行业智能体 [1] - "山海大模型"在主流测评榜单上掉队,技术声量衰减 [8]
诺奖得主谈人类末日危机实录:关于AI“第37步”、卡尔达舍夫I型文明
36氪· 2025-07-25 04:21
AI技术突破与象征意义 - AlphaGo在第2局比赛中的第37步棋被誉为"神之一手",成为AI在复杂决策中创新性突破的象征 [1] - 该事件引发行业对AI是否已接近技术变局临界点的思考 [1] - DeepMind首席执行官提出自然界可生成模型均可通过经典学习算法高效建模,涉及生物学、化学、物理学等领域 [4][5] 通用人工智能(AGI)发展路径 - 预测2030年实现AGI的概率约为50%,需通过提出科学猜想或发明复杂游戏等标志性标准验证 [4] - AGI需具备匹配人脑的全面认知功能,当前系统存在智能参差不齐的问题 [30][31] - 测试AGI需对数万认知任务全面评估或由顶尖专家长期观察 [31] - 混合系统(结合大语言模型与进化算法等)可能成为实现AGI的关键路径 [18][19] 自然系统建模与技术应用 - AlphaGo和AlphaFold通过智能引导搜索解决蛋白质折叠等复杂问题 [5] - Veo 3视频模型展现出对物理规律的直觉理解能力,挑战了需具身AI才能理解物理的传统观点 [7][8][9] - 未来视频可能发展为可互动场景,接近"世界模型"概念 [10][11] - 进化算法AlphaEvolve结合大语言模型探索新解法,展现组合创新潜力 [18][19] 游戏与交互界面革新 - AI将重塑游戏开发,实现动态生成剧情和真正开放世界 [12][13] - 未来5-10年可能出现根据玩家决策实时生成内容的游戏系统 [12] - AI生成界面时代将到来,界面可个性化匹配用户审美与思维习惯 [4][55][56] 能源与文明发展前景 - 核聚变和太阳能将成为未来主要能源,推动人类迈向卡尔达舍夫类型I文明 [4][43][44] - 解决能源问题将释放海水淡化、太空探索等潜力 [44] - 能源丰裕可能改变经济模式,消除资源稀缺引发的冲突 [45][46] 行业竞争与研发动态 - DeepMind保持双轨研发策略:50%资源投入突破性研究,50%优化现有技术规模化 [37] - 谷歌通过整合Google Brain与DeepMind团队加速产品落地 [51][52] - Gemini模型每6个月发布重大版本更新,沿帕累托前沿优化性能与成本 [56][57] - Meta高薪挖角策略反映AI人才争夺加剧,但前沿研究吸引力仍是关键 [4][50] 科学研究的AI赋能 - AI可辅助科学猜想验证,但提出高质量猜想仍需人类科学家 [23][24] - AlphaFold已分拆为Isomorphic公司,专注AI药物研发 [49] - 模拟生命起源等重大科学问题可能成为AI的下一个突破方向 [26][27]
讯飞医疗出席2025年长三角医师联盟高质量发展论坛,共探AI赋能区域医疗协同新路径
江南时报· 2025-07-23 11:09
行业活动与政策背景 - 长三角医师联盟高质量发展论坛在南京召开 主题为共筑医师同心圆和引领健康长三角 旨在深化学术交流和促进区域合作[1] - 三省一市卫生健康委员会及医师协会高层领导出席 包括江苏省卫健委副主任张金宏及沪苏浙皖医师协会会长等代表[1] - 约300名医师代表参与会议 由江苏省医师协会副会长兼秘书长刘彦群主持[1] 人工智能技术进展 - 人工智能进入以大模型为代表的第四次浪潮 其意义堪比互联网和个人电脑的诞生[2] - 大模型掌握人类语言和知识 开启通用人工智能曙光 医疗领域应用需回归医疗本质解决临床问题[2] - 基于全国产算力底座及数据飞轮效应 星火医疗大模型自2023年发布后持续突破技术边界[2] 医疗人工智能应用能力 - 星火医疗大模型在六大核心医学能力保持领先:医疗海量知识问答、复杂语言理解、专业文书生成、诊断治疗推荐、多轮交互及多模态交互[2] - 应用场景从基层医疗服务拓展至医院服务、患者服务和区域管理平台解决方案[2] - 产品矩阵覆盖超7万家基层医疗机构 与超500家等级医院深度合作[2] 消费者端产品表现 - 星火医疗大模型赋能的AI健康助手讯飞晓医下载量突破2400万 累计完成超1.4亿次AI咨询量[2] - 用户满意度达98% 通过构建个人数字健康空间提供个性化专业数字健康服务[2] - 服务覆盖看病前、用药时和检查后全流程健康管理场景[2] 公司战略规划 - 公司将发挥人工智能产业链龙头优势 以底层技术突破和场景化创新为双轮驱动[3] - 持续拓宽医疗人工智能应用边界 与行业伙伴协同发力[3] - 共同推动长三角医疗一体化发展 助力健康中国建设迈向更高水平[3]
沪指重回3600点 券商股表现亮眼
长沙晚报· 2025-07-23 04:58
市场表现 - 市场全天震荡走高 三大指数盘中均创年内新高 沪深两市全天成交额1.89万亿 较上个交易日放量1931亿 [1] - 盘面热点集中在大基建方向 个股跌多涨少 全市场超2700只个股下跌 连续两日逾百股涨停 [1] - 超级水电 工程机械 煤炭 水泥等板块涨幅居前 智谱AI 元件 软件开发 游戏等板块跌幅居前 [1] 行业动态 - 央行数据显示 2025年二季度末人民币房地产贷款余额53.33万亿元 同比增长0.4% 增速比上年末高0.6个百分点 上半年增加4166亿元 [1] - 上海市印发下一代显示产业高质量发展行动方案 支持智能眼镜主控芯片研发与产业化 加快市场开拓 [1] - 工信部表示钢铁 有色 石化等十大重点行业稳增长工作方案即将出台 推动重点行业调结构 优供给 淘汰落后产能 [3] 机构观点 - 算力行业高景气度持续验证 估值或有提升空间 推荐北美算力链核心标的 外溢需求受益公司 上游紧缺环节 1.6T光模块及CPO产业链 国产算力链 [2] - 大模型迭代推动产业向通用人工智能方向发展 AI应用值得关注 建议关注AI端侧芯片 模组等产业链 继续推荐电信运营商 军工通信等板块 [2] - 煤炭板块走强 焦煤期货价格持续大涨 下游采购积极性回升 供应端边际收紧叠加电煤消费回升 对煤价形成阶段性支撑 [3] 技术分析 - 超级水电概念连续两日与指数共振上行 资金虹吸效应强 大基建方向与前期热点方向或延续跷跷板效应 [3] - 创新药 机器人 AI 大金融 军工等前期热点方向仍存在反复活跃空间 [3] - 三大指数日线MACD红柱持续放大 沪指若突破前高3674点 后续或更具想象空间 [3]
AI产业合作加强,机构建议关注芯片等产业链
每日经济新闻· 2025-07-22 06:15
半导体材料设备行业表现 - 上证科创板半导体材料设备主题指数上涨0.86%,成分股中华海诚科上涨3.56%,天岳先进上涨2.31%,京仪装备上涨2.12%,盛美上海上涨2.00%,中微公司上涨1.65% [1] - 科创半导体ETF(588170)上涨0.69%,最新价报1.03元,盘中换手率17.59%,成交4650.95万元 [1] - 科创半导体ETF最新规模达2.62亿元,份额达2.57亿份,均创近1月新高 [1] - 科创半导体ETF近7天连续资金净流入,合计3450.30万元,日均净流入492.90万元,最高单日净流入1621.47万元 [1] AI与通信行业动态 - 中国联通将联合AI科技企业及行业头部客户,攻关高效模型架构与可成长学习机制,扩展大模型在记忆、推理、创造等能力边界,并启动行业大模型共创行动 [2] - 中信建投证券认为大模型迭代将推动产业向通用人工智能发展,AI应用前景广阔,建议关注AI端侧芯片、模组等产业链 [2] - 中信建投证券继续推荐电信运营商、军工通信等板块 [2] 关联ETF - 相关ETF包括科创半导体ETF(588170)、芯片ETF(159995)、半导体材料ETF(562590) [3]