Workflow
深度学习
icon
搜索文档
几何计算联袂深度学习 提升疾病诊断准确率
科技日报· 2025-08-19 01:22
科技日报讯 (记者金凤)记者8月17日从东南大学获悉,该校教授顾忠泽团队联合中国科学院外籍 院士丘成桐团队等研发出基于几何表面参数化的多组学预测技术。该技术能提升对结直肠肿瘤等实体瘤 的组织分型与分子标志物的预测准确率,有望支撑人工智能在病理图像分析领域的应用。相关成果近日 刊发于中国工程院院刊《工程学》。 "人工智能已经在病理诊断中有不少应用,但现有算法多用于自然图像领域,其处理不规则病理图 像的能力有限。"论文第一作者、东南大学生物科学与医学工程学院博士生黄锴介绍,当碰到病理组织 分布不均匀等情况时,人工智能对疾病的预测准确度就会大打折扣。 "病理切片中的组织形状很不规则,造成图像中有许多空白区域,这些空白对于疾病的诊断没有意 义,我们将包含少量空白的不规则组织的图像提取出来,再将这些图像转换为正方形。"论文共同通讯 作者李铁香介绍,团队通过几何映射技术,保留了病理图像关键特征,同时引入多尺度和各向异性信 息,提升病理切片图像中有关肿瘤区域的信息量。经过这番处理,既减少了对无用信息的储存、处理, 又能增强卷积神经网络对肿瘤特征的学习能力。 黄锴介绍,团队使用该方法在573名结直肠癌患者的1802张切片上进 ...
每经热评︱人形机器人运动会启示:前沿技术走向大众需要催化剂
每日经济新闻· 2025-08-18 07:40
技术层面 - 全球首个人形机器人运动会在北京举行 来自16个国家280支队伍500余台机器人参与26个大项538个小项竞技 [1] - 人形机器人以人工智能和深度学习为内核 具备自主决策和自适应能力 实现感知行动与认知的融合 [1] - 运动会使技术缺陷在传感器识别运动控制路径规划等环节暴露 推动机械结构人工智能光学传感材料等多学科技术进步 [1] 产业层面 - 运动会吸引192支高校赛队和88支企业赛队 包括天工宇树科技加速进化等头部整机企业 [2] - 赛事考验算法数据质量硬件供应链稳定性运维响应速度等全生态系统成熟度 [2] - 亦庄人形机器人马拉松赛事后松延动力N2机器人获得超过2000台订单 [2] 社会影响 - 运动会搭建公众与前沿科技沟通桥梁 通过竞技形式让公众直观理解人形机器人应用场景 [3] - 赛事荣誉体系和竞争氛围激励青年人才投身机器人科研领域 加速行业人才培养 [3] - 竞技活动推动技术从实验室走向大众市场 实现产业革新 [3]
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
量子位· 2025-08-17 03:43
百度AICA项目概况 - 百度举办第九期首席AI架构师培养计划(AICA),吸引茅台、奔驰、麦当劳、国网、中石化、中石油等头部企业技术高管参与[2][3] - 项目依托百度自研飞桨深度学习平台和文心大模型,培养兼具技术开发与项目落地能力的复合型AI架构师[5] - 本期96名学员从500多名报名者中筛选,61%来自国央企/上市公司/T1服务商,80%具备"管理+专业+技术"复合背景,覆盖能源、重工业、医疗等18个领域[42][44] 大模型技术发展趋势 - 大模型相关课题占比达51%,首次涉及多智能体协同等前沿技术应用[6][7] - AI技术进入软件3.0时代:1.0为传统编码,2.0为深度学习模型,3.0通过大模型提示词实现多功能任务[35] - 百度内部AI代码生成占比从2022年5%提升至50%,采纳率从15%增至80%,可处理复杂编程任务[28] - 大模型参数规模达十亿级,核心进步在于Transformer架构、注意力机制及专家MoE结构的优化[36][37][38] 产业落地关键方向 - AI竞争重点转向制造、医疗、金融等场景落地,需解决产品同质化、与核心业务挂钩等挑战[13][20] - 企业应用AI的三大价值:工作效率提升(OpenAI研究)、服务模式重构(赛迪研究院补充)、资源均衡分配[16][17] - 国内AI发展呈现技术比拼(智能水平替代参数规模)、商业应用(场景实践替代概念验证)、产业格局(头部企业主导)三大趋势[18] AI架构师能力要求 - 需掌握提示词工程(任务拆解/指令优化)、模型调优(微调/对齐)、全栈系统设计(开发至部署)、场景洞察四大核心能力[32][33] - 重点提升大模型输出质量与效率,包括结果优化、速度提升及Agent工作流整合[30][33] - 百度通过AICA提供文心大模型实战案例,已培养489名架构师覆盖工业、能源、金融等数十行业[47] 行业应用案例 - 麦当劳团队申报《麦麦巡警数字员工》课题,探索大模型优化与Agent工程化设计[45] - 百度文心大模型4.5 Turbo应用于罗永浩数字人直播,展现深度分析与持续输出能力[26]
Cell重磅:AI破局抗生素耐药危机,从头设计全新抗生素,精准杀灭耐药菌
生物世界· 2025-08-15 04:21
抗生素耐药性危机与公共卫生威胁 - 2021年全球471万例死亡与细菌抗生素耐药性相关,其中114万例直接归因于抗生素耐药性[2] - 美国疾控中心将淋病奈瑟菌和金黄色葡萄球菌列为"紧急"和"严重"威胁,因对现有抗生素产生广泛耐药性且缺乏新治疗手段[5] - 1980年至2003年间全球前15大制药公司仅开发出5种抗菌药物,凸显新结构化合物需求紧迫性[5] 生成式人工智能在抗生素开发中的突破 - 研究团队开发生成式AI平台,通过基于片段的CReM方法和无约束的VAE方法设计新型抗生素分子[8] - 平台生成超过3600万种未记录抗菌活性化合物,从中合成24种化合物,7种显示选择性抗菌活性[8] - 两种先导化合物NG1和DN1对多重耐药菌株具杀菌效力,作用机制各异,在小鼠模型中杀菌速度超过万古霉素[8] 技术方法与创新应用 - 深度学习中的图神经网络(GNN)将化学结构表示为数学图,通过消息传递操作预测分子抗菌活性概率[6] - 生成式AI突破已知化学空间限制,理论化学空间包含约10^60种化合物,而最大计算机模拟库仅含10^11种[7] - 遗传算法与变分自编码器实现基于片段设计和从头设计,为探索化学空间未知领域提供平台[10][11] 研究成果与实验验证 - 先导化合物显著降低淋病奈瑟菌感染和耐甲氧西林金黄色葡萄球菌皮肤感染小鼠模型的细菌负荷量[8] - 化合物对人类细胞显示安全性,且对耐药菌株表现出独特作用模式[3][10] - 研究方法增强在化学空间中寻找候选抗生素的能力,为应对抗生素耐药性危机提供新武器[7][11]
NVIDIA英伟达进入自动驾驶领域二三事
自动驾驶之心· 2025-08-13 23:33
自动驾驶行业格局与Orin平台应用 - 英伟达Orin平台目前被众多明星车企采用,包括上汽R/智己、理想L9、蔚来ET7、小鹏新一代P7、威马M7、比亚迪、沃尔沃XC90等乘用车品牌,以及智加科技等自动驾驶卡车公司和Cruise/Zoox/滴滴/小马智行/AutoX等Robotaxi企业[2] - 软件公司Momonta等也基于Orin平台进行开发[2] 特斯拉与Mobileye的合作与分歧 - 2013年9月特斯拉宣布自研自动驾驶技术,但初期因缺乏芯片支持被迫与Mobileye合作[5] - 特斯拉在Mobileye方案基础上创新性增加Fleet Learning功能,实现Autopilot自我学习能力,这成为后来"影子模式"的雏形[9] - 2015年特斯拉成立Tesla Vision团队并挖角微软计算机视觉专家David Nister,引发Mobileye强烈反对[11][12] - Mobileye要求特斯拉停止自研算法否则断供技术支持,导致2015年双方矛盾激化[13] 英伟达切入自动驾驶领域 - 2012年黄仁勋认定电动汽车自动驾驶是英伟达在端侧最佳方向[15] - 2013年英伟达财报会议提出汽车业务应向自动化发展,强调GPGPU将赋能计算机视觉和驾驶辅助功能[17] - 2015年1月发布DRIVE品牌及PX平台,基于Tegra X1芯片和Maxwell GPU,算力超1 TOPS[18] - 2016年1月黄仁勋亲自向马斯克展示DRIVE PX平台[18] 特斯拉转向英伟达合作 - 2016年Mobileye因Autopilot事故终止与特斯拉合作[19] - 2016年10月特斯拉HW2.0采用英伟达DRIVE PX 2定制版,算力提升40多倍,支持8摄像头+12超声波雷达+1前向雷达的传感器方案[20] - 英伟达2016年初发布的DRIVE PX 2被黄仁勋称为"首款自动驾驶超级计算机"[21] 英伟达技术迭代与生态拓展 - 2017年底特斯拉公开自研芯片计划[25] - 同期英伟达加速产品迭代并拓展225家合作伙伴,涵盖车企/供应商/互联网公司/创业公司等[26] - 2018年CES发布DRIVE Xavier SoC平台,性能提升同时功耗显著降低[28] 特斯拉自研芯片进展 - 2018年马斯克承认英伟达硬件优秀但强调特斯拉需要独特定制方案[28] - 2019年4月发布自研HW3(FSD Computer),宣称图像处理能力达英伟达方案10倍[30] - 至此英伟达与特斯拉在智驾平台合作正式结束[32] 自动驾驶技术社区生态 - 行业已形成包含大模型/VLA/端到端/BEV/Occupancy/多模态融合等30+技术方向的学习路线[35] - 技术交流覆盖感知/仿真/C++开发/传感器融合等全链条环节[35]
OpenAI联合创始人Greg Brockman:对话黄仁勋、预言GPT-6、我们正处在一个算法瓶颈回归的时代
AI科技大本营· 2025-08-13 09:53
行业演进与公司发展 - 计算机行业正经历从个人魔法到工业革命的演进,OpenAI驾驭十万GPU集群标志着AI基础设施的成熟[3] - Stripe早期通过第一性原理突破传统限制,24小时完成银行需9个月的技术对接,体现硅谷创新精神[15][16] - OpenAI构建了研究-工程双引擎文化,工程能力与研究洞见同等重要,共同推动AGI发展[27][28][29] 技术突破与创新 - 深度学习从AlexNet开始颠覆传统规则,神经网络在多个领域超越人类设计的系统[24][25] - 强化学习(RL)和混合专家模型(MoE)成为解决算法瓶颈的关键方向,推动AGI研究进入新阶段[49][48] - Codex已贡献OpenAI内部10%代码合并请求,外部GitHub日处理24000个PR,重塑软件开发流程[42] 基础设施与硬件需求 - AI基础设施需兼顾高计算量任务与低延迟响应,催生专用加速器需求[45][47] - 模型规模扩大带来系统复杂性挑战,检查点机制和可靠性设计成为训练长周期智能体的关键[43][44] - 黄仁勋提出未来数据中心需支持多样化工作负载,包括多模态AI和实时交互系统[45][46] 产品化与生态发展 - AI产品化面临模型与产品的鸿沟,需结合领域专业知识构建垂直智能体生态[52][53] - GPT-4o图像功能5天获1亿用户,反映AI应用病毒式传播特性与规模化挑战[35][36] - 经济将因AI驱动产生10倍增长,医疗、教育等领域需定制化解决方案[54][55] 研发趋势与瓶颈 - 基础研究回归成为核心,算法瓶颈重新成为制约AGI进展的关键因素[49][50] - 当前研发受计算资源、数据、算法、电力等多维度限制,需动态平衡[49] - GPT-4暴露可靠性问题,显示AI需突破"隔玻璃观察"的学习模式[50][51]
超低标注需求,实现医学图像分割,UCSD提出三阶段框架GenSeg
36氪· 2025-08-12 03:24
医学图像分割技术 - GenSeg是一种用于训练语义分割模型的三阶段框架,通过数据增强模型与语义分割模型的紧密耦合,显著提升分割模型性能 [2] - 该技术可应用于不同分割模型如UNet和DeepLab,提升其在同数据集和跨数据集场景下的表现 [4] - 框架采用端到端训练方式,包含语义分割模型和掩膜到图像的生成模型两个核心组件 [9] 技术优势 - 在足部溃疡分割任务中,GenSeg-UNet仅需50张图像即可达到Dice分数0.6,相比传统UNet需要的600张减少12倍数据量 [13] - 在皮肤病变分割任务中,GenSeg-DeepLab使用40张ISIC图像即在DermIS测试集上达到Jaccard指数0.67,标准DeepLab使用200张图像仍未达到该水平 [13] - 胎盘血管分割任务中,GenSeg-DeepLab实现0.52 Dice分数,显著优于分离式策略的0.42 [15] 技术原理 - 采用三层优化框架:首阶段训练生成模型参数,次阶段生成合成图像-掩膜对训练分割模型,末阶段根据验证损失反向更新生成模型结构 [9] - 通过多层级优化过程直接以分割性能为目标生成高保真图像-掩膜对,确保合成数据质量与训练效果 [10] - 实验证明端到端优化机制优于分离式策略,且不依赖特定生成模型类型 [17] 应用效果 - 在11个医学图像分割任务和19个数据集上展现强泛化能力,涵盖多种疾病、器官与成像模态 [20] - 同域与跨域设定下均可带来10-20%绝对性能提升,训练数据量仅需现有方法的1/8到1/20 [20] - 支持3D数据分割任务扩展应用 [5] 行业影响 - 突破医学图像分割中标注数据稀缺的关键瓶颈,显著降低医生手工标注负担 [1] - 解决医疗领域数据隐私限制导致的超低数据困境,提升深度学习在数据匮乏场景的可行性 [1][10] - 研究成果发表于Nature Communications期刊,由加州大学圣地亚哥分校团队开发 [8]
理想VLA实质是强化学习占主导的持续预测下一个action token
理想TOP2· 2025-08-11 09:35
核心观点 - 对predict the next token的不同理解反映了对LLM或AI潜力与实质的认知差异 [1] - 认为predict the next token超越统计学的人更倾向于认可LLM潜力大、推理过程是意识雏形、超级对齐重要 [1] - 理想VLA架构通过连续预测action token实现物理世界理解,类比OpenAI的O1O3 [1][10] - 辅助驾驶比chatbot更适合强化学习,因奖励函数更明确且仿真环境更简单 [12][13] Ilya的观点与背景 - Ilya是OpenAI前首席科学家,推动AlexNet、AlphaGo、TensorFlow等多项AI领域突破 [3] - 他认为predict the next token能超越人类表现,因足够聪明的神经网络可推断"理想人物"行为 [4][8] - 预测token的本质是理解其背后的现实世界逻辑,而非单纯统计学 [6][7] - Ilya的论证风格严谨,常以"误差范围对数刻度"等表述体现审慎态度 [9] 理想VLA的技术逻辑 - VLA架构通过传感器输入实时输出action token,结合diffusion优化轨迹,实现物理世界理解 [10] - VLA在NOA开启期间连续预测action token,其推理过程被视为一种动态意识 [11] - 理想将AI软件(神经网络权重)与硬件平台高效结合,技术整合含金量被低估 [13] 辅助驾驶与AI软件的差异 - 辅助驾驶的强化学习优势在于明确奖励函数(安全/舒适/效率)和可仿真性 [12][13] - AI软件内核是神经网络权重,与传统代码式开发范式存在根本差异 [13] - 硬件迭代速度慢于软件,AI软件需AB测试快速迭代,与硬件开发逻辑冲突 [13]
高频选股因子周报:高频因子上周有所分化,深度学习因子持续强势。 AI 增强组合均录得正超额。-20250810
国泰海通证券· 2025-08-10 07:58
量化因子与构建方式 1. **因子名称:日内高频偏度因子** - 构建思路:通过捕捉股票日内收益分布的偏度特征来预测未来收益[13] - 具体构建过程:计算日内收益率的三阶矩标准化后的偏度值,公式为: $$Skew = \frac{E[(r-\mu)^3]}{\sigma^3}$$ 其中$r$为日内收益率,$\mu$为均值,$\sigma$为标准差[13] 2. **因子名称:日内下行波动占比因子** - 构建思路:衡量下行波动在总波动中的占比,反映风险不对称性[19] - 具体构建过程:计算下行收益率的标准差与整体标准差的比值: $$DownVolRatio = \frac{\sqrt{\sum_{r<0}(r-\mu_-)^2/N_-}}{\sigma}$$ $\mu_-$为下行收益均值,$N_-$为下行观测数[19] 3. **因子名称:开盘后买入意愿占比因子** - 构建思路:通过开盘后特定时段的大单买入占比捕捉资金流向[23] - 具体构建过程:统计开盘后30分钟内大单买入金额占总成交金额比例[23] 4. **因子名称:改进GRU(50,2)+NN(10)因子** - 构建思路:结合门控循环单元(GRU)和神经网络(NN)的深度学习模型[14] - 具体构建过程: - 第一层GRU网络处理50个时间步长的输入特征 - 第二层GRU输出2维隐藏状态 - 10层全连接神经网络进行最终预测[14] 5. **因子名称:多颗粒度模型-5日标签因子** - 构建思路:基于双向AGRU网络处理不同时间尺度的价格特征[70] - 具体构建过程: - 输入层接收5日累计收益率作为训练标签 - 双向AGRU网络提取多时间尺度特征 - 注意力机制动态加权特征重要性[70] 因子回测效果 1. **日内高频偏度因子** - 上周多空收益:-0.66% - 8月多空收益:-0.37% - 2025年多空收益:16.9% - 历史IC:0.026 - 2025年IC:0.037[10] 2. **改进GRU(50,2)+NN(10)因子** - 上周多空收益:1.36% - 8月多空收益:2.42% - 2025年多空收益:28.86% - 历史IC:0.066 - 2025年IC:0.045[12] 3. **多颗粒度模型-5日标签因子** - 上周多空收益:1.65% - 8月多空收益:2.68% - 2025年多空收益:44.62% - 历史IC:0.081 - 2025年IC:0.070[12] AI增强组合表现 1. **中证500 AI增强宽约束组合** - 上周超额收益:0.47% - 8月超额收益:0.85% - 2025年超额收益:11.56%[13] 2. **中证1000 AI增强严约束组合** - 上周超额收益:0.39% - 8月超额收益:0.91% - 2025年超额收益:15.66%[92] 模型构建细节 - **优化目标函数**: $$max\sum\mu_{i}w_{i}$$ 其中$w_i$为股票权重,$\mu_i$为预期超额收益[74] - **交易成本假设**:双边3‰的交易成本[75]
昔日高考状元,今日AI顶尖科学家:何恺明的“开挂”人生
21世纪经济报道· 2025-08-09 03:27
AI人才竞争格局 - Meta首席执行官扎克伯格积极争夺AI科学家 尤其针对华人AI人才 提供1亿至2亿美元薪酬包 [1][5] - 科技行业顶尖企业如Meta和OpenAI对顶级AI科学家的竞争趋于白热化 [5] 关键学术贡献 - 2015年由何恺明等人发表的深度残差网络(ResNets)论文成为AI领域被引用次数最多的研究 [2][3] - 该论文《Deep Residual Learning for Image Recognition》位列21世纪引用量最高论文Top 25首位 [3] - ResNets研究突破性证明数百层深度网络的训练可行性 对深度学习发展具有开创性意义 [4] 顶尖AI科学家背景 - 何恺明为论文主要作者 拥有清华大学背景 曾获广东省高考满分状元 [4] - 其职业轨迹涵盖微软亚洲研究院、Facebook AI研究院(FAIR) 现同时任职MIT终身教授与Google DeepMind兼职科学家 [4] - 被业界认定为"双轨天才" 学术研究成果均获得实践验证 与斯坦福李飞飞等华人科学家齐名 [4]