Workflow
预训练模型
icon
搜索文档
生物学的DeepSeek:阿里云发布LucaOne模型,首次统一DNA/RNA和蛋白质语言,能够理解中心法则
生物世界· 2025-06-19 09:44
核心观点 - 阿里云智能飞天实验室与中山大学联合开发了世界首个能同时理解核酸(DNA/RNA)和蛋白质序列的通用生物学基础模型LucaOne [3][4] - 该模型基于169861个物种的核酸和蛋白质序列进行预训练,参数规模达18亿,训练数据量相当于369.5亿个生物序列"单词" [4][16] - LucaOne通过统一编码39个生物分子"字符",首次实现对生命中心法则(DNA→RNA→蛋白质)的自发理解 [10][18] - 在7类生物信息学任务测试中表现超越专用模型,包括物种分类(GenusTax)、蛋白质相互作用(PPI)预测等,流感抗原预测准确率达100% [20][22][24] 技术突破 模型架构 - 采用Transformer架构构建统一基础模型,整合核酸和蛋白质序列处理能力 [11] - 设计包含39个字符的统一词汇表,覆盖4种核苷酸和20种标准氨基酸 [13] - 结合自监督学习与半监督学习,利用基因组注释等生物学先验知识加速训练 [14] 训练数据 - 整合RefSeq、UniProt、ColabFoldDB等权威数据库 [12] - 训练集涵盖16.9万种生物的核酸和蛋白质序列 [4] - 数据处理流程实现核苷酸与氨基酸表征的统一标准化 [15] 性能表现 核心能力 - 无监督条件下自发理解DNA→蛋白质翻译规则,Few-shot学习性能超越DNABert2+ESM2-3B组合模型 [18] - 生成的序列嵌入向量能有效聚类同源序列,反映深层生物学特征 [19] - 支持DNA/RNA/蛋白质的跨模态关联分析,突破传统单分子研究局限 [26] 任务表现 - 物种分类(GenusTax):分类准确率显著提升 [22] - 非编码RNA识别(ncRNAFam):优于基准模型 [22] - 流感抗原预测(InfA):达到100%准确率 [22] - 蛋白质相互作用(PPI/ncRPI):预测效果领先组合模型 [22] 行业影响 - 建立首个跨分子类型的生物计算统一框架,打破传统分析壁垒 [26] - 验证基础模型范式在生物信息学的适用性,降低下游任务开发成本 [24][26] - 为疾病机制研究、药物靶点发现等应用提供新型分析工具 [26] - 推动生物信息学进入通用大模型驱动的新发展阶段 [27]
英伟达GTC Keynote直击
2025-03-19 15:31
纪要涉及的行业和公司 - 行业:数据中心、科技股、算力产业链 - 公司:英伟达、台积电科沃斯、北美五大科技公司(Amazon、Microsoft、Apple、Google)、GM、小米、联想、比亚迪、中兴、阿里巴巴、腾讯、美团 纪要提到的核心观点和论据 数据中心产品 - 日本数据中心产品推出时间和 HBM 配置低于预期,第一代预计 2026 年推出,第二代预计 2027 年推出,第一代 HBM 容量 288GB 低于预期的 384GB [2][3][4] - 英伟达预计 2026 年推出 Rubin 架构,晚于预期的 2025 年,Rubin Ultra 展示新架构,GPU 单元增至 576 个,支持 NVLink 6 和 CX9 交换机,每个单元可搭载高达 1TB HBM [3][5] - CPO 技术通过集成光模块缩短传输距离、提高速度,新一代 Spectrum X 今年下半年随 Blacker 推出,Quantum X 明年下半年伴随下一代日本数据中心产品推出 [3][6] - GTC 大会提到 DGX BasePOD 和 DGX Station 等小型计算机项目,面向开发者市场,采用 Black Box 芯片,支持 FP4 精度及超 1,000 TOPS AI 计算能力 [3][7] 算力需求与收入 - 预训练模型规模迅速扩大,推动算力需求大幅增长,模型规模每年翻十倍,远超摩尔定律降本速度,英伟达数据中心收入激增,CSP 资本开支过去两年翻倍 [3][9][10] 推理阶段 - GTC 大会强调推理阶段重要性,如 DPC 模型带来需求增长,但应用场景能否推动推理需求仍需观察,英伟达通过软硬件降低 AI 推理成本,目标是降低 token 生成成本 [3][11][12] 科技股市场 - 今年初以来中国科技股跑赢美国科技股,从 Deep CQ 发布后已跑赢美国七大科技公司 44 个百分点,目前美股与 A 股差距缩小至约三十几个百分点,未来半年有望进一步拉近,可能出现美股下跌、港股上涨的“东升西降”趋势 [13] 重要产品发布及影响 - GTC 大会发布 GB300(现称 Blackberry Ultra 72)、Rubin 等产品,展示英伟达至少到 2028 年的 GPU 加速计算演进路线,新一代 CPU 和交换机系统将未来导入,对产业链产生深远影响 [14] 资本开支与出货量 - 2025 年北美五大科技公司资本开支预计比 2024 年增长 30%,较 2023 年几乎翻倍,下修机会不大 [3][16] - 台积电科沃斯产能预计到 2025 年底达 775,000 片,英伟达 GGB200 和 GB300 出货量预计在 2.5 万 - 3 万台之间,比 2024 年底的 4 万台有所下降,但金额能与五家厂商规模匹配 [17] 硬件需求与服务器价值量 - GB200 和 GB300 在 HBM 使用、功耗、算力、生产方式等方面有变化,GB300 使 CSP 厂商设计自由度提高 [15][18] - GB300 服务器价值量受影响,新一代产品对光模块需求有影响,主要在 2026 年体现 [19] 算力产业链前景 - 2025 年英伟达算力卡出货量预计在 25,000 - 23,000 之间,与现有 M72 服务器规模相当,带动工业互联等领域收入增长,但产业链仍面临压力 [20] 其他重要但可能被忽略的内容 - 英伟达展示与自动驾驶、机器人相关新合作与开源模型,如与 GM 合作推进自动驾驶技术,更多相关信息预计在 Computex 展会上公布 [8]