过拟合
搜索文档
字节跳动张一鸣隐退4年首次露面,不聊抖音不聊豆包,这次讲了啥?
搜狐财经· 2025-10-12 03:40
张一鸣公开亮相与个人关注点 - 字节跳动创始人张一鸣于10月9日在上海徐汇知春创新中心开业仪式上公开亮相,这是其自2021年5月卸任CEO后,四年多来首次在国内公开活动中出现 [2] - 张一鸣此次以创新中心发起人身份出席,未谈论抖音、豆包AI等公司核心业务,全程聚焦于人才培养话题 [4] - 活动氛围低调,更像一场专注于人才培养的交流会,现场展示了学生制作的敦煌风格AI游戏、火箭发射动力装置等作品 [2] 知春创新中心的背景与定位 - 知春创新中心由张一鸣与上海交通大学ACM班创始人俞勇教授共同发起,于2025年4月正式成立,筹备约半年时间 [5] - 该机构定位为民办非营利性,不进行商业布局,核心目标是培养对泛计算机和人工智能感兴趣的年轻人,培养周期约为5年 [7] - 培养期间不收费,免费提供学习办公设备及食宿,并向预备研究员发放月度津贴 [7] - 中心的创办参考了美国欧林工学院的模式,注重动手能力与项目制学习,张一鸣曾专门调研此类国内外新型理工类教育机构 [7] 张一鸣的人才观与历史脉络 - 张一鸣用机器学习中的“过拟合”概念比喻人才问题,指出部分人才专业知识扎实但缺乏创新能力 [8][10] - 其人才观强调好奇心、进取心、对不确定性的乐观态度优于五年工作经验,早在2012年字节跳动创立初期就敢任用毕业两年的工程师负责千万级用户产品 [10] - 张一鸣对人才培养的关注是长期行为,可追溯至2016年其对上海交大ACM班的关注,以及资助“高校计算机专业优秀教师奖励计划” [4][7] - 2021年卸任CEO时,其内部信已表明将更专注于远景战略、企业文化及社会责任等长期事项 [11][13] 行业竞争焦点的转变 - 张一鸣的露面与马云、刘强东等互联网大佬近期回归业务一线的动向,共同传递出行业竞争焦点变化的信号 [14] - 行业竞争正从过去的“抢用户时间”和流量争夺,转向大模型、云计算、智能硬件等需要长期技术积累的领域 [14] - 在用户和流量见顶的背景下,监管更侧重产业互联网,技术创新和人才培养成为站稳脚跟的关键 [18] 对字节跳动公司的直接影响 - 张一鸣卸任后仍持续关注技术,定期参加字节跳动Seed核心技术团队的会议,并参与AI路线、模型策略等前沿课题工作 [16] - 公司于2024年推出“TopSeed人才计划”,为AI多模态、大模型架构等领域人才提供超过300万元年薪及18个月期权激励 [16] - 2024年年初,DeepSeek的日活跃用户曾超过字节的豆包,促使公司调整方向,为豆包增加生成手办、视频通话等新功能,至8月其应用规模达到1.5亿,成为中国原生AI App月活榜首 [16]
张一鸣多年来首次露面,站台上海创新中心并发言
搜狐财经· 2025-10-11 17:19
张一鸣公开亮相与发言 - 字节跳动创始人张一鸣近年罕见公开亮相,现身上海徐汇知春创新中心开业现场 [1] - 张一鸣在发言中指出许多年轻人潜力被埋没,并以AI术语“过拟合”类比,指部分人才专业知识扎实但面对创新任务时表现不佳 [3] - 他强调创新中心旨在寻找思维活跃、敢于实践、独立思考的人才,并鼓励在创新路上敢于试错、保持平常心 [3] 知春创新中心背景与目标 - 上海徐汇知春创新中心由张一鸣与上海交通大学ACM班创始人俞勇教授共同发起,是一家民办非营利性机构 [3] - 中心计划招聘对泛计算机和人工智能感兴趣的年轻人 [3] - 其构想一定程度上受美国欧林工学院启发,该学院注重动手能力、项目制学习,虽规模小但毕业生质量高 [8] 相关人物背景 - 共同发起人俞勇教授为上海交通大学特聘教授、博士生导师,是国家高层次人才特殊支持计划领军人物,也是ACM班创始人 [5] - 俞勇教授自1986年入职上海交通大学,现任ACM国际大学生程序设计竞赛总教练及APEX实验室主任,长期致力于培养计算机科学与行业人才 [6] 张一鸣个人财富状况 - 根据《福布斯富豪榜》最新数据,截至2025年3月,张一鸣财富估值达655亿美元(约2902亿令吉) [3] - 其财富已超越马化腾和钟睒睒,成为中国首富,在全球富豪榜中排名第23位 [3]
张一鸣近年来首次公开露面,对字节跳动意味着什么
搜狐财经· 2025-10-10 13:39
创始人公开露面与角色转变 - 字节跳动创始人张一鸣近4年来首次在国内公开露面,其关注度极高[1] - 此次露面未讨论抖音、豆包AI等核心业务或公司战略,而是专注于人才与教育话题[3] - 张一鸣于2021年5月20日宣布卸任CEO,由联合创始人梁汝波接任,其卸任原因是希望公司能有更大的创新突破[5] 创始人的人才观与管理哲学 - 张一鸣长期关注人才招聘与培养,认为许多人才的潜力未被充分挖掘[3] - 其人才观强调好奇心、进取心和对不确定性的乐观心态,认为这些特质比五年工作经验更重要[4] - 他以机器学习中的“过拟合”现象类比,指出创新需要思维活跃、有热情和韧性的人才,核心是独立思考和重视实践[3] - 张一鸣自认不擅长传统管理和社交,更喜欢研究组织原理,并决定放下日常管理,聚焦于远景战略、企业文化等长期事项[6] 创始人的长期关注与公司动态 - 张一鸣喜欢思考理论上可能存在但现实中尚未发生的事情[7] - 卸任CEO后,他计划以十年为期,专注学习知识、研究新事物,为公司创造更多可能[8] - 他特别提到虚拟现实、生命科学、科学计算等领域正显现出对人类生活的曙光[9] - 卸任后张一鸣保持低调,但自2023年下半年起定期参加字节跳动Seed核心技术团队的复盘讨论会[10] 市场关注热点与公司上市传闻 - 字节跳动作为2010年后崛起的互联网巨头,凭借TikTok成为最成功的出海公司,市场关注度居高不下[11] - 围绕张一鸣的核心话题包括AI、算法、新首富、新加坡、字节跳动上市等关键词组合[11] - 关于张一鸣入籍新加坡和字节跳动上市的传闻屡次出现,但均被公司辟谣,从2018年至今公司被传上市至少7次[11] - 字节跳动上市迟迟未能实现,主要堵点在于监管、地缘环境及业务透明性等方面的不确定性[12] 公开露面的象征意义与TikTok选择 - 张一鸣此次公开露面的象征意义远大于企业经营意义,被视为公司迎来重大确定性的信号[15] - 公司于2024年9月20日发布公告,表示将按照中国法律要求推进相关工作,以确保TikTok美国公司继续服务美国用户[16] - 张一鸣的动向被视为公司发展的关键风向标[13]
张一鸣,罕见公开露面
21世纪经济报道· 2025-10-10 10:42
张一鸣近期动态与人才培养理念 - 字节跳动创始人张一鸣久未公开露面后,于10月9日出席上海徐汇知春创新中心开业活动并发言 [1] - 该创新中心是张一鸣与上海交通大学ACM班创始人俞勇教授共同发起的民办非营利性机构,面向对泛计算机与人工智能感兴趣的年轻人开放招聘 [1] - 张一鸣在活动中以人才培养者的身份分享了对创新与教育的思考,指出当前人才培养存在“过拟合”误区,即专业知识扎实但难以适应创新任务 [1] - 创新中心旨在培养思维活跃、富有热情与韧性、能够独立思考、重视实践并保持长期主义视角的青年人才 [1] 字节跳动的创业历史与核心哲学 - 字节跳动于2012年在知春路的一间民宅中创立 [2] - 公司创立初期,张一鸣认为仅做微创新无法取得根本突破,因此决心解决信息个性化问题,这成为公司产品开发的核心哲学 [2] 张一鸣卸任CEO的原因与未来规划 - 2021年5月20日,张一鸣宣布卸任字节跳动CEO,由联合创始人梁汝波接任 [3] - 卸任原因是希望公司能持续有更大的创新突破,变得更有创造力和意义,同时他感觉自己过去几年在“吃老本”,近三年学习不足 [3] - 张一鸣计划放下日常管理,聚焦于远景战略、企业文化和社会责任等长期事项,并希望用十年时间专注学习新知识、研究新事物 [3] - 他特别提到虚拟现实、生命科学、科学计算等科技领域正显现出对人类生活的深远影响 [3]
张一鸣,罕见公开露面
21世纪经济报道· 2025-10-10 10:27
张一鸣近况与角色转变 - 字节跳动创始人张一鸣久未公开露面后,以人才培养者的新身份在上海徐汇知春创新中心开业活动中发言 [1] - 张一鸣与上海交通大学ACM班创始人俞勇教授共同发起民办非营利性机构知春创新中心,该中心将面向对泛计算机与人工智能感兴趣的年轻人开放招聘 [1] 张一鸣的人才培养理念 - 张一鸣长期关注人才的招聘与培养,注意到许多人才的潜力尚未被充分挖掘 [1] - 张一鸣用机器学习中的"过拟合"概念类比当前人才培养误区,指出有些人才专业知识扎实但面对创新任务时难以发挥 [2] - 创新中心旨在培养思维活跃、富有热情与韧性、鼓励独立思考、重视实践并保持长期主义视角的青年人才 [2] 张一鸣的创业哲学与卸任原因 - 张一鸣的人才观源于其创业实践,2012年创立字节跳动时坚持"从根本上解决问题"的思维方式,认为不解决个性化问题只做微创新不可能取得根本突破 [2] - 张一鸣于2021年5月20日宣布卸任字节跳动CEO,由联合创始人梁汝波接任,卸任原因是希望公司能持续有更大创新突破,并感觉自己过去几年在"吃老本" [4] - 张一鸣决定放下公司日常管理,聚焦远景战略、企业文化和社会责任等长期重要事项,计划以十年为期专注学习知识、研究新事物为公司创造更多可能 [4]
张一鸣罕见露面,联合上海交大培育AI新锐
21世纪经济报道· 2025-10-10 08:04
张一鸣公开露面与身份转变 - 字节跳动创始人张一鸣于10月9日在上海徐汇知春创新中心开业活动上罕见公开露面 [1] - 其身份转变为创新中心发起人,与上海交通大学ACM班创始人俞勇教授共同发起该民办非营利机构 [1] - 该创新中心将面向对泛计算机与人工智能感兴趣的年轻人开放招聘 [1] 人才培养理念与“过拟合”概念 - 张一鸣以机器学习中的“过拟合”概念类比当前人才培养误区,即模型在训练数据上表现好却无法适应新数据 [2] - 指出部分人才专业知识扎实但面对创新任务时难以发挥 [3] - 创新中心旨在培养思维活跃、富有热情与韧性、能独立思考、重视实践并保持长期主义视角的青年人才 [3] 字节跳动的创新哲学与领导层变动 - 公司2012年创立于知春路民宅,早期即决心攻克推荐引擎与个性化问题,避免仅做微创新 [4] - “从根本上解决问题”的思维方式成为公司产品开发的核心哲学 [5] - 张一鸣于2021年5月20日卸任CEO,由联合创始人梁汝波接任,其卸任原因系希望公司实现更大创新突破,自身需聚焦远景战略与社会责任等长期事项 [5] 张一鸣的个人兴趣与长期规划 - 张一鸣偏好研究组织与市场原理而非传统管理,兴趣包括上网、看书、听歌和发呆 [5] - 卸任后计划以十年为期,专注学习知识、系统思考及研究新事物,为公司创造更多可能 [6] - 特别关注虚拟现实、生命科学、科学计算等科技领域对外部环境的变革性影响 [6]
别让成功的惯性“锁死” 未来
36氪· 2025-09-25 00:51
路径依赖现象 - 用户习惯依赖特定导航APP、报告模板和消费品牌 本质是对过往经验的依赖[1] - 电脑键盘QWERTY布局因用户习惯难以被更高效的DVORAK布局替代 后者可使打字速度提升30%以上[2] - 视频行业普遍采用MP4格式而非更先进的MKV、AV1格式 因设备兼容性和用户学习成本阻碍新技术普及[2] 商业案例表现 - 诺基亚过度依赖传统手机成功经验 未能及时转型智能手机导致市场地位丧失[3] - 柯达因对传统胶卷业务成功依赖 未大力发展数码技术最终走向衰落[3] - 企业依赖旧商业模式难以转型 管理者沿用过期激励机制管理新世代[3] 形成机制分析 - 路径依赖源于报酬递增机制 企业成功后会加大投入形成正反馈[5] - 转移成本包括经济成本、心理成本和组织成本 阻碍企业改变原有路径[5] - 大脑基于经验预判世界 通过"预测编码"理论验证猜测 逐渐强化经验依赖[6] - 成功归因偏差使企业将成功归因于方法本身 而忽略场景匹配的关键作用[6] 局部最优陷阱 - 决策时易被当下最优选择吸引 忽略进一步探索可能获得更优结果[7] - 爬山算法比喻显示 每一步局部最优可能无法达到全局最高峰[7] - 基层岗位熟练者不愿学习新技能 行业技术革新时因缺乏积累难以转型[9] - 职业探索中选择最容易转成功的岗位 导致始终在熟悉领域打转[9] 结构锁定效应 - 操作系统积累用户后形成应用生态 开发者被迫围绕其开发 despite更高效系统存在[10] - 企业数据架构偏离提升效率初衷 但因牵一发而动全身只能维持运转[10] - 结构锁定磨灭对长期价值的耐心 使企业无法忍受短期无反馈状态[10] 突破路径方案 - 主动引入扰动打破经验惯性 每月尝试跨领域交流、探索新技能或开启副业[12] - 在选择节点关注步骤是否拓宽未来选择空间 而非仅追求最快回报[13] - 定期从愿景反推路径 以全局地图参照审视是否困在局部高地[13] - 培养可迁移能力包括学习能力、系统思维能力和共情能力[14] - 第二曲线思维要求主业成功时即探索新方向 而非被动转型[14] - 提炼能力底层逻辑 掌握"为什么这么做"而非仅"怎么做"[15]
别让成功的惯性“锁死” 未来 | 创业Lifestyle
红杉汇· 2025-09-25 00:04
核心观点 - 企业在发展过程中容易陷入路径依赖和成功依赖,即过度依赖过往的成功经验和既定模式,当外部环境、市场需求或技术发生变革时,这种惯性会从优势转变为阻力,阻碍创新与转型 [4][6] - 路径依赖在认知上类似于机器学习中的“过拟合”现象,即对过去特定场景的解决方案掌握过精,却未能理解底层通用规律,导致无法适应新变化 [6] - 企业应通过主动求新、从愿景反推路径以及培养可迁移能力等策略,打破思维定式,避免被结构性锁定,以在快速变化的商业世界中保持竞争优势 [15][16][18] 路径依赖的表现与案例 - 商业案例显示,诺基亚因过度依赖传统手机领域的成功经验和技术路径,未能及时转型智能手机,最终错失市场机遇 [4] - 柯达作为胶卷行业巨头,因对传统业务的成功依赖,未大力发展数码业务,最终走向衰落 [4] - 行业普遍现象包括:管理者沿用过时激励机制管理新世代员工,品牌用上一代逻辑猜测新消费群体需求 [4] 路径依赖的成因 - 经济学角度:路径依赖形成源于报酬递增(成功模式带来更多投入与收益的正反馈)和转移成本(改变路径所需的经济、心理及组织成本过高) [6] - 认知科学角度:大脑基于经验进行“预测编码”,倾向于用个人认知加工现实,并会下意识将成功归因于方法本身,而忽略方法与场景匹配的关键作用 [7] - 个人特质因素:过度依赖及时反馈、追求确定性的人,在面对复杂新问题时更倾向从过去找答案,而非构建新模型 [8] 局部最优陷阱 - 局部最优指决策时容易被眼前可见的最优选择吸引,却忽略了通过进一步探索可能获得的更优结果,例如在熟悉岗位上得心应手而不愿学习新技能,导致行业革新时转型困难 [10][11][12] - 该思维在非线性系统中尤为危险,因不考虑全局路径结构、不允许暂时退步,最终导致结构性锁定,如成熟操作系统生态使开发者难以适配新系统,复杂企业数据架构因牵一发而动全身而难以优化 [12] 突破路径依赖的策略 - 主动求新:为系统引入扰动,例如每月尝试舒适区外的事、打破固定习惯,以跳出局部陷阱 [16] - 从愿景反推路径:定期更新并审视目标,以“全局地图”为参照,避免错把局部安稳当作全局终点 [16] - 培养可迁移能力:包括学习能力(快速理解新领域逻辑)、系统思维能力(分析整体业务链路)、共情能力(理解用户与团队需求)及第二曲线思维(主业成功时即探索新方向) [18]
华人团队终结Token危机:扩散模型数据潜力超自回归三倍
量子位· 2025-08-13 09:13
扩散语言模型的数据学习潜力 - 在token数量受限情况下,扩散语言模型的数据潜力可达自回归模型的三倍多 [1] - 一个参数规模为1B的扩散模型,仅用1B tokens训练480个周期,就在HellaSwag和MMLU基准上分别取得56%和33%的准确率 [5] - 即使在极端数据重复下,模型也未出现性能饱和,表明其还能从1B数据中挖掘出更多有用信息 [4] 扩散语言模型的技术优势 - 扩散目标和双向注意力机制使其能够进行双向建模,更充分地挖掘网络数据中的信息 [8] - 双向建模打破传统自回归模型的因果限制,能更全面捕捉语言及非因果数据的复杂模式 [8][9] - 扩散模型计算密度极高,在训练和推理中投入更多计算资源,通过多次处理数据和迭代优化提升性能 [11] - 扩散目标要求在预训练时对每个数据点进行多种掩码比例和组合的扰动,从而更有效地训练 [15] 扩散语言模型的过拟合特性 - 模型过拟合出现的训练周期数与独特数据量呈正相关,与模型规模呈负相关 [18] - 独特数据量越大,过拟合出现越晚;模型规模越大,过拟合发生越早 [18] - 模型在预训练验证集上"过拟合"时,下游任务性能不一定会下降,反而可能持续上升至训练结束 [19] - 绝对负对数似然值的变化不一定转化为相对顺序的变化,因此验证损失上升时模型判别能力仍可能提升 [21][22][25] 自回归模型的比较与行业背景 - 自回归模型优先考虑计算效率而非数据潜力,其transformer设计采用教师强制和因果掩码,限制了建模能力 [14] - 随着计算成本下降,数据可获得性成为关键瓶颈,这是研究团队开展扩散语言模型研究的出发点 [15]
token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升
机器之心· 2025-08-10 04:31
研究背景与问题 - 大语言模型发展面临高质量训练文本数据即将枯竭的挑战,成为限制模型性能提升的关键瓶颈 [2] - 新增高质量数据来源少、获取成本高,去重后更加稀缺,导致“优质token不够训练”的危机 [2] 研究方法与规模 - 团队从零开始预训练扩散语言模型与自回归模型,最高规模达80亿参数、4800亿tokens、480个epoch [3] 核心研究发现 - 在token数量受限情况下,DLMs优于自回归模型,数据潜力超出3倍以上 [5][8] - 仅用10亿tokens训练的10亿参数DLM,在HellaSwag上达56%准确率,在MMLU上达33%准确率 [5] - 模型性能未出现饱和,重复训练次数越多提升越明显 [5] 数据重复训练效果 - 将10亿token数据集重复训练480个epoch,总训练量达4800亿tokens,模型在HellaSwag和MMLU上的表现显著优于自回归模型 [14] - 即使在极端重复条件下性能仍未饱和,表明DLMs能从固定语料中提取远超预期的有效信息 [14] 模型能力提升机制 - 尽管验证集上出现过拟合,模型在下游任务表现持续提升,底层判别能力不断改善 [16][17] - 网页文本数据并非完全因果结构,DLMs通过双向建模能从数据中提取更多信息 [19] - DLMs是“超密集模型”,计算上的超高密度直接转化为更强智能 [22] 与自回归模型对比 - 自回归模型优先考虑计算效率而非数据潜力,其Transformer设计限制了建模能力 [24] - 随着计算成本下降,数据可得性成为关键瓶颈,这正是研究DLMs的动力所在 [24] 方法论批判 - 指出同期研究存在方法论缺陷,包括使用未经验证的损失函数形式 [25][26] - 批评该研究使用未训练到最佳状态的自回归模型检查点与最佳扩散模型检查点进行比较的不公平做法 [28] - 指出该研究使用的scaling law公式假设验证集损失不会下降,但实际过拟合会导致验证损失上升 [32]