Workflow
程序员的那些事
icon
搜索文档
见证历史!DeepSeek 跃居全球第二 AI 实验室,R1 登顶开源王座,R2 全网催更
程序员的那些事· 2025-06-01 02:04
模型性能升级 - DeepSeek-R1-0528在数学、编程、通用逻辑性能上媲美最强o3和Gemini 2.5 Pro [1][2] - 在AIME 2025测试中准确率从70%提升至87.5% [16] - MMLU-Pro (EM)得分从84.0提升至85.0,GPQA-Diamond (Pass@1)从71.5提升至81.0 [17] 技术优化亮点 - 幻觉率降低45%-50%,尤其在改写润色、总结摘要等场景表现更可靠 [24][25] - 支持JSON输出和函数调用,工具调用能力在Tau-Bench测评达airline 53.5%/retail 63.9% [7][31] - 前端代码生成能力增强,可快速生成完整应用(如单词复习卡片APP) [33][34] 开源模型突破 - 基于Qwen3-8B Base微调的DeepSeek-R1-0528-Qwen3-8B性能超越Qwen3-235B,参数仅为其1/30 [36][38] - 在AIME 2024测试中得分86.0,超越Gemini-2.5-Flash的82.3 [39][40] - 数学性能强于Phi-4 14B,与Qwen3-235B相当 [37][39] 行业地位提升 - DeepSeek成为全球第二大AI实验室,开源模型领导者 [9][44] - 智能指数从60分跃升至68分,进步幅度与OpenAI o1到o3相当 [46] - 性能超越xAI Grok 3 mini、Meta Llama 4 Maverick等,与Gemini 2.5 Pro并驾齐驱 [47] 训练与基准表现 - 基于DeepSeek V3 Base训练,后训练阶段增加计算资源与算法优化 [14] - 在AIME测试中平均token消耗从12K增至23K,Pass@2得分达70.7%与Claude 4 Opus相当 [18] - Codeforces-Div1评分从1230提升至1930,SWE Verified解决率从49.2%提升至57.6% [17]
趣图:女朋友是 model
程序员的那些事· 2025-05-31 10:41
人类与LLM对比 - 人类在特定领域表现优于大型语言模型(LLM) [1] - Redis创始人亲自验证人类能力优势 [1] - 网络趣图显示人类仍具不可替代性 [1] 技术发展趋势 - 出现"Make Human Great Again"的技术发展倾向 [1]
重写太成功反遭封杀!CTO 用 6 个月把 Rust 从神坛拽下,理由竟是 “它让我们显得太优秀”
程序员的那些事· 2025-05-31 00:57
Rust重写案例的核心观点 - 公司用Rust重写高流量服务后性能显著提升,但最终因组织文化冲突被禁用 [1][4][28] - Rust解决了内存泄漏、竞态条件等核心问题,运行速度和扩展能力远超原有技术栈 [7] - 技术优势暴露了组织低效问题,导致管理层恐慌性禁用 [8][22][26] Rust的技术优势 - **性能突破**:重写后服务运行速度"快得惊人",扩展能力优秀到让其他服务相形见绌 [7] - **开发效率**:3个月完成重写,新功能开发速度超出项目管理能力,新人上手仅需数周 [10] - **人才吸引**:Rust岗位收到数百份优质简历,候选人普遍具备大型开源项目经验 [12][13][14] - **工具链碾压**:Cargo和Clippy工具链的完善度使内部工具链显得原始落后 [15] 组织文化冲突 - **效率反噬**:开发速度飙升导致产品经理跟不上需求更新节奏,打破原有交付节奏 [10][18] - **能力暴露**:Rust的清晰架构使业务逻辑透明化,消除了交付缓慢的借口 [18] - **舒适区威胁**:技术债务积累和技术平庸现状被直接暴露,引发管理层不安 [20][22] 决策与后果 - **禁用过程**:CTO在零争议sprint会后紧急评审,最终以"显得太优秀"为由禁用Rust [19][21] - **技术倒退**:90%服务换回Go语言,主动选择"够慢"和"模糊"的技术特性 [23] - **持续影响**:团队每日怀念Rust的精准性,尤其在系统稳定性需求时感到后悔 [24][25] 行业启示 - **技术政治化**:技术选型本质是政治选择,高效工具在低效组织中可能被排斥 [22] - **变革阻力**:Rust的成功重写揭示了组织深层次问题,但公司选择维持现状 [26][27] - **讽刺现象**:网友评论指出该案例反映开发者对技术变革的集体不安全感 [30][31]
Redis 之父亲证:人类程序员仍力压 LLM!网友锐评:那是你没见过平庸码农被 AI 吊打的样子
程序员的那些事· 2025-05-30 07:10
AI与程序员能力对比 - 核心观点:人类程序员在复杂问题解决和创造性思维方面仍显著优于大语言模型(LLMs),AI当前主要作为辅助工具而非替代品[2][3][10] - Redis之父antirez通过修复HNSW图结构双向连接校验的案例,展示人类能提出LLM无法自主生成的优化方案(如异或累加器检测算法),将2000万向量集的校验时间从90秒优化至可接受范围[5][7][8][10] - 行业专家普遍认为LLM的价值在于充当"智能伙伴",帮助验证想法和代码审查,但无法替代需求分析、社交协作等软件工程核心环节[13][14] 技术实现细节 - Redis向量集修复方案: - 常规方法时间复杂度达O(N²),导致2000万向量加载时间翻倍至90秒[5][7] - LLM(Gemini 2.5 PRO)仅能建议排序+二分查找等基础优化,无法突破性解决指针校验问题[7][8] - 人类提出创新方案: - 哈希表存储连接关系(A:B:X格式),利用memcpy替代snprintf提升效率[8] - 128位寄存器异或累加检测,配合murmur-128哈希函数降低碰撞风险至可接受水平[9][14] 行业观点碰撞 - 能力边界争议: - 顶尖程序员(如antirez)的创造性解决方案能力远超LLM,但平庸程序员可能被AI工具缩小差距[15] - 软件工程的社交属性(需求分析、客户沟通)是AI难以替代的核心竞争力[14] - 技术演进预期: - 当前LLM在代码生成文档等标准化任务中表现最佳,但无法预判未来2年技术突破后的格局[13][16] 典型案例参考 - 高性能编程领域人类优势显著:日本工程师的PowerPC汇编代码性能可超越编译器生成代码达数量级差异[15] - AI生成代码现存缺陷:存在生成3000+行无法运行代码的案例,反映逻辑连贯性不足的问题[16]
34 岁程序员日均点外卖 2.5 次,需终身服药
程序员的那些事· 2025-05-30 00:03
外卖健康风险 - 34岁患者因日均点外卖2.5次导致心血管疾病 血压达160/100毫米汞柱 低密度脂蛋白胆固醇水平为4.8毫摩尔/升 冠脉狭窄40%~50% [2] - 塑料外卖盒在65℃以上会释放微塑料及全氟化合物 导致血管内皮损伤 加速心血管衰老 [2] - 盛装热汤的PP塑料餐盒在70℃时双酚A释放量超国标4.2倍 微塑料颗粒可穿透肠道屏障形成慢性炎症灶 [4] 外卖营养成分分析 - 高销量外卖脂肪含量普遍超标 单份含油量平均达45克 超出日推荐量50% [6] - 外卖含盐量较高 如一碗酸辣粉含盐8.6克 相当于世卫组织两天推荐量 钠离子过量引发水钠潴留 血压每升高10毫米汞柱中风风险增加30% [6] - 外卖订单中绿叶蔬菜占比不足12% 膳食纤维摄入量仅为推荐值1/3 镁钾等护心营养素严重缺乏 [7] 减少外卖健康危害的方法 - 选择标注"少油版""轻盐版"菜品 每份钠含量小于1克 要求商家菜饭分装避免隐形盐摄入 [9] - 用热水涮过油菜品减少15%表面油脂 餐后饮用蔬果汁补充钾离子中和钠离子 [9] - 周末花费2小时备餐注意荤素搭配 心血管疾病高危人群建议配备可穿戴设备预警心率异常 [9]
依维柯(中国)官网搜索结果现色情信息,内容低俗!
程序员的那些事· 2025-05-30 00:03
依维柯中国官网疑似被攻击事件 - 公司官网在搜索引擎结果中显示异常内容,出现低俗词汇替代原本的"依维柯中国官网-依维柯进口车"字样 [1] - 网站内部未发现低俗内容,但加载速度明显变慢,且提供的联系电话持续无人接听 [3] - 事件发生后约12小时内网站被修复,但部分搜索引擎已无法检索到该网站 [4] 关联行业动态 - 全球最大Deepfake成人网站近期关闭,引发网络热议 [5] - 推荐阅读内容涉及科技行业热点:马斯克工作模式、美国EDA断供事件、AI对编程行业影响的争议 [6][6][6] (注:根据任务要求,已过滤风险提示/免责声明等非核心内容,未对事件影响做主观分析)
苹果计划重命名操作系统
程序员的那些事· 2025-05-29 08:38
公司战略调整 - 苹果计划为旗下所有操作系统重新命名 采用年份标识而非版本号 例如iOS 26将取代原计划的iOS 19 [1][2] - 新命名涵盖iOS iPadOS macOS tvOS watchOS和visionOS六大系统 全部统一为"26系列" 取代原有分散的版本号体系 [2] - 命名规则参照汽车型号 以次年年份作为系统编号 2025至2026年周期内推送的系统将命名为iOS 26而非iOS 25 [2] 产品线整合 - 此次更名旨在实现产品线命名一致性 解决多个不匹配的零散版本号问题 [2] - 新命名规则反映公司正致力于在不同设备操作系统间打造更统一的设计语言 [2] - visionOS上应用的全新设计风格将同步更新至iOS iPadOS macOS tvOS和watchOS系统 [2] 发布计划 - 苹果计划在6月9日WWDC大会上正式公布这一全新命名方案 [2]
马斯克宣布即将离开特朗普政府
程序员的那些事· 2025-05-29 08:38
马斯克政府任期结束 - 马斯克宣布作为特朗普政府"特殊政府雇员"的任期于5月29日结束 [1] - 任期从1月20日起算,按照美国规定"特殊政府雇员"一年内任期不得超过130天 [2] - 马斯克在社交媒体向特朗普致谢,感谢给予机会削减政府浪费性支出 [1] 政府效率部(DOGE)相关情况 - 今年1月特朗普签署行政令成立由马斯克执掌的"政府效率部" [2] - 该部门旨在推动联邦政府大规模结构性改革,涵盖人事改革、盘活闲置资产等方面 [2] - 马斯克表示DOGE的使命将随时间推移不断强化,会成为整个政府体系中的运作模式 [2] 马斯克与特朗普政策分歧 - 近期马斯克与特朗普在联邦财政政策上出现分歧 [2] - 马斯克不满国会众议院通过的大规模税收与支出法案,认为其增加联邦赤字 [2] - 该法案与"政府效率部"削减浪费性支出的目标相悖 [2] 马斯克未来工作重心 - 马斯克已多次表示会减少"政府效率部"工作,将重心转回企业运营 [2] - 分析认为马斯克离任后专注企业事务,或对特斯拉等企业发展产生积极影响 [2]
突发!美国对中国断供 EDA。网友:真卡脖子
程序员的那些事· 2025-05-29 04:24
美国对华半导体设计软件出口限制 - 美国商务部下令要求半导体设计软件公司在未获得出口许可证前停止向中国供应技术,涉及楷登电子、新思科技、西门子EDA等厂商 [1] - 美国商务部表示将逐案审查对华出口许可申请,但实际意图尚不明确 [1] 资本市场反应 - 消息公布后楷登电子股价收盘下跌10.7%,新思科技下跌9.6% [3] - 新思科技CEO否认收到商务部通知,并重申2025年营收预测,带动公司股价盘后反弹3.5%,楷登电子股价也反弹3.5% [3] - 西门子EDA尚未对此事作出回应 [3] 行业影响分析 - EDA工具被前美国商务部官员称为"真正的瓶颈",此次限制措施是特朗普政府时期就考虑过的"卡脖子"行动 [5] - 新思科技16%年收入依赖中国市场,楷登电子12%年收入来自中国 [6] - 限制措施将同时影响中国企业和美国软件公司的业绩 [7]
突发!字节内部禁用 Cursor 等工具
程序员的那些事· 2025-05-29 00:15
字节跳动禁用第三方AI开发工具 - 字节跳动安全与风控部门发布内部邮件,宣布自6月30日起逐步禁用包括Cursor和Windsurf在内的多款第三方AI开发工具 [1] - 禁用第三方工具的主要原因是防范数据泄露风险 [1] - 公司将转而使用自家编程助手Trae [1] - Trae于2025年1月19日发布,3月3日发布国内版 [1] - Trae官方推特宣称其套餐内容优于Cursor,价格仅为Cursor的一半 [1] 相关行业动态 - 马斯克再次开启7x24工作模式 [2] - 亚马逊程序员反映AI技术使其工作变得机械化 [2] - Java创始人批评AI在编程领域的作用有限,主要价值在于生成文档 [2]