Workflow
大语言模型
icon
搜索文档
AI如何开启心理治疗领域新时代?
36氪· 2025-06-04 23:19
心理健康护理领域的现状与挑战 - 心理健康护理领域缺乏明确的生理指标来评估干预效果,主要依赖自我报告和临床医生的判断,容易出现漏洞和认知偏差 [1] - 标准化问卷和评分量表提供部分量化指标,但仍存在患者记录不准确和医生判断错误的风险 [1] - 数字技术如智能手机和可穿戴设备可通过被动监测行为数据提供更客观的评估方法 [1] 数字技术与AI在心理健康护理中的应用 - AI可分析地理定位数据、短信发送频率和通话时长来预测抑郁症或双相情感障碍发作 [1] - 大语言模型可分析大量治疗会话记录,识别不同情境下最有效的干预措施和咨询师行为 [2] - 2024年1月的一项研究分析了超过16万次匿名文本咨询会话和2000万条信息,发现"提供信息"与较差治疗结果相关,而"复杂反思"和"肯定"与更好结果相关 [2][3] AI在心理健康护理中的发展阶段 - 第一阶段:AI辅助用途,如将会话录音转换为正式诊疗记录和治疗计划 [4] - 第二阶段:协作参与,如评估实习心理咨询师的循证实践遵循程度或帮助患者完成表格填写 [4] - 第三阶段:完全自主护理,临床大语言模型能执行人类临床医生的所有任务和干预措施 [4] 心理健康护理的未来展望 - AI可能使心理健康护理变得更加便捷、经济、可扩展和个性化,类似于Spotify和奈飞的服务模式 [4] - 完全虚拟的心理咨询师平台可能以每月不到20美元的固定费用提供24小时服务,突破人类心理咨询师的局限性 [6][7] - AI平台可分析数千名相似患者的数据,优先推荐功效超过阈值的方法,并提供个性化治疗方案 [8] AI对心理健康护理行业的潜在影响 - AI系统可帮助培训更多人类心理咨询师,支持他们与更多患者互动 [9] - AI能让当前护理模式无法覆盖的数百万人获得负担得起的护理服务 [9] - 未来可能开创一个更全面、持续且深度融入日常生活的心理健康护理新时代 [9]
11.98万元起售,小鹏MONA M03加推四款新版型升级上市
北京商报· 2025-06-04 04:11
北京商报讯(记者 刘晓梦)5月28日,小鹏MONA M03升级上市,并加推四款全新版型,分别为小鹏MONA M03 502长续航Max、小鹏MONA M03 600超长 续航Max,以及小鹏MONA M03 515长续航 Plus、小鹏MONA M03 620超长续航Plus,官方指导价为11.98万—13.98万元。作为MONA系列的进阶产品,本次 更新在智能驾驶、座舱系统、外观配置等多方面集中升级,强化小鹏纯电市场的智能化竞争力。 与此同时,新车首次搭载全球首发的人机共驾功能,实现智能辅助驾驶过程中不强制接管控制,提升人机协同的平滑性与驾驶者掌控感。泊车能力也同步增 强,支持极窄车位、自主出库与全场景车位到车位路径规划,强调智能体验的日常可用性。 智能座舱方面,MONA M03 Max首发天玑系统5.7.0版本,新增超300项功能,语音控制覆盖率超过90%。依托小鹏自研的大语言模型XGPT,座舱实现推 理、百科查询、连续对话等复杂交互,语音响应时间控制在0.9秒内。系统兼容多家主流手机品牌,进一步拓展车机生态的使用边界。 在造型与舒适性方面,新车提供星暮紫、微月灰、星雨青三款原厂新车色,新增两种轮毂设计, ...
助力水稻研究与智能育种 种业大语言模型“丰登·水稻”向全球开放网站
海南日报· 2025-06-04 01:19
此外,研究团队还联合水稻领域专家,设计了一个高质量人工评测数据集HumanDesignRiceQA, 包含253道专业问题,聚焦基因功能、传统杂交育种、分子设计育种等核心主题。评测由326名评审参与 完成,其中83人为水稻研究领域的资深专家。结果表明,丰登模型在答题质量上全面超越OpenAI GPT4 及人类本科生平均水平,展现出其在农业垂直领域中的领先能力。 为进一步提升模型的科研实用性,"丰登"科研团队构建了全球首个水稻多组学知识图谱,整合了 1879篇关于水稻转录组和蛋白质组的文献数据,系统汇聚基因表达水平、蛋白丰度与基因组功能注释信 息。图谱包含超过40万个节点与157万条边,覆盖水稻研究中的关键知识单元与生物关系。 "丰登"科研团队有关负责人透露,大语言模型凭借强大的语言理解与知识推理能力,有望成为支撑 水稻研究与智能育种的关键工具。"丰登"服务实现了图谱协同推理,能够跨越纯文本的表达局限,调用 结构化图谱执行精准查询、整合多维证据。 海南日报讯(海南日报全媒体记者 黄媛艳)全球首个专为水稻生物育种打造的大语言模型"丰登·水 稻"近日正式向全球开放网站,该模型深度融合水稻生物学知识图谱,率先构建了全 ...
为什么DeepSeek还未能撼动OpenAI
虎嗅· 2025-06-04 00:27
AI行业竞争格局 - 2025年1月DeepSeek发布推理模型R1被视为AI全球竞争展开的标志事件 [2] - DeepSeek R1以开源和更高性价比达到OpenAI o1性能 导致英伟达股价单日下跌6000亿美元 [3] - OpenAI在DeepSeek R1发布后迎来爆发期 估值达3000亿美元 活跃用户从4亿增至8亿 年化收入从37亿美元增至127亿美元 [10] - DeepSeek R1在2月访问量一度超过OpenAI 但后续指标下滑 0528版本性能打平Gemini 2.5 Pro [11] - Anthropic的Claude 3.7成为最佳编程模型 Claude Opus 4支持智能体连续工作7小时 [11] 公司差异化竞争 - OpenAI凭借品牌优势和全球用户心智地位保持领先 [12] - Anthropic成为编程智能体首选 推出模型上下文协议(MCP)推动智能体生态 [11][12] - Gemini凭借统一多模态和视频生成能力 在谷歌用户生态中占据独特地位 [12] - DeepSeek最大程度开源推动AI在中国和国际推广 但模型性能差异性开始不明显 [12] 行业发展趋势 - AI商业化仍处早期 上半年DeepSeek和OpenAI用户均大幅增长 [13] - AI商业化下一阶段可能不是"赢家通吃" 而是融合与重构 关键在于掌握"工作逻辑" [14] - 大模型进入同质化和商品化竞争 性能差距缩小 差异性体现在应用层面 [12] - DeepSeek使命是实现AGI 需通过基础设施和产品验证 或成为超级横向平台 [15]
超越GPT-4o!华人团队新框架让Qwen跨领域推理提升10%,刷新12项基准测试
量子位· 2025-06-04 00:17
技术突破 - 提出全新训练框架General-Reasoner,显著提升Qwen系列大模型的跨领域推理准确率近10% [1][2] - 在多个基准测试中超越GPT-4o,如General-Reasoner-Qwen3-14B在GPQA任务准确率达56.1%,TheoremQA达54.4% [15] - 强化学习(RL)被视为提升模型推理能力的关键手段,但现有方法如Zero-RL局限于数据丰富、答案结构清晰的领域 [3] 方法创新 - 构建全领域推理数据集WebInstruct-verified,覆盖物理、化学、金融等领域约23万个高质量可验证推理问题 [5][9] - 开发生成式答案验证器General-Verifier,以1.5B参数小型模型取代传统规则式验证,显著提高跨领域答案验证准确率 [13] - 数据筛选过程严格,剔除模糊或过于简单的问题,确保数据集质量 [12] 数据集构建 - 初始数据来源于WebInstruct,包含约500万个从StackExchange和教育门户网站爬取的自然指令 [6] - 通过Gemini-1.5-Pro筛选出100万个候选问题,再经Gemini-2.0-Flash标注元数据并平衡数据 [7] - 最终数据集涵盖23万道具有不同答案格式和主题的推理问题 [9] 性能表现 - General-Reasoner在12个基准测试中表现优异,Qwen2.5-7B-Base在MMLU-Pro准确率达58.9%,高于基础模型的47.7% [15] - 在数学推理任务中略优于专业框架SimpleRL [15] - 生成式验证器与Gemini-2.0-Flash高度一致,鲁棒性与泛化能力显著超越传统方法 [13] 未来方向 - 研究团队计划优化模型性能,扩展更多领域的高质量推理数据,提升验证器鲁棒性 [17] - 推动大语言模型在复杂现实任务中的广泛应用 [17]
工银瑞信马丽娜:两大方向布局AI核心主线
券商中国· 2025-06-03 23:15
人工智能投资行情 - 2025年以来人工智能投资行情持续成为市场主线,DeepSeek是主要推动者 [1] - 公募基金布局备受关注,工银科技先锋混合发起式基金将于6月25日发行,聚焦人工智能产业链优质公司 [1] 基金经理马丽娜背景 - 马丽娜本科毕业于北大微电子系,硕士毕业于北大计算机系,2015年进入工银瑞信基金,从业10年专注科技产业研究和投资 [3] - 管理三只基金,工银新兴制造自2024年7月至2025年3月31日累计收益率达50.77%,同期业绩基准收益为23.46% [3] 工银科技先锋基金投资方向 - 聚焦人工智能产业链优质公司,细分方向包括AI硬件中的半导体、硬件基础设施和AI应用中的软件、互联网娱乐、智能驾驶、机器人等 [3] - 0—50%比例可投资港股,涵盖科技互联网、智能驾驶、半导体等优质龙头企业 [3] - 投资定位有别于其他在管基金,工银新兴制造聚焦半导体产业链,工银科技先锋覆盖更宽泛的AI应用 [3] 科技行业投资框架 - 科技投资核心是把握科技周期中的强主线,找到受益于产业趋势的个股 [2] - 选股三要素:业绩增长高、估值有提升弹性、有一定竞争壁垒 [5] - 自上而下选择成长空间大、竞争壁垒高的行业,自下而上选择成长空间大、增速快、竞争壁垒高的优秀企业 [4] 大语言模型发展趋势 - 生成式大语言模型的Scaling Law在放缓,未来关注方向是融合图像、视频、空间物理等多模态数据和合成数据的学习 [7] - 训练阶段的Test-Time Scaling仍有较大空间,后训练阶段加入强化学习和思维链可显著提升模型推理能力 [7] - 2025年由国内DeepSeek引领的产业趋势,通过工程优化降低模型训练和推理成本 [8] AI产业投资机会 - 看好两大方向:AI基础设施和AI半导体,2025—2026年海外云厂商资本开支快速增长,国内云厂商资本开支2024年底首次上修 [8] - AI应用随着模型性能提升和成本下降,更多应用将诞生,包括端侧AI应用、软件、具身智能等 [8] - 硬件基础设施端中国短板正在补齐,模型端中美差距缩小,应用端国内更具优势 [8]
“互联网女皇”AI报告图解版:AI采用速度前所未有,推理成本暴跌99.7%
36氪· 2025-06-03 12:14
在隐退五年后,被誉为"互联网女皇"的传奇风险投资家玛丽·米克尔于近日发布长达340页的《AI趋势报告》。这份被业界称为"AI圣 经"的文档,用51次"前所未有"的表述宣告:人工智能革命已进入不可逆的爆发期,人类正站在技术奇点的临界点。 在报告中,米克尔利用大量图表详尽呈现了人工智能技术在开发速度、应用广度、资金投入和使用规模方面的爆炸性增长,并质疑 OpenAI等AI巨头的"烧钱模式"是否能持续下去。 下面,就让我们以图表的形式解读下这份报告的核心内容: 用户的AI采用速度是前所未有的 报告显示, 人工智能时代的来临标志,是AI用户群的激增。 与互联网1.0革命的技术起步于美国,然后稳步向全球扩散不同的是,ChatGPT一下子登上了世界舞台,并在全球大部分地区同时增长。 作为衡量算力的基本计量单位,浮点运算次数在2010年以后开始增速显著增加,年增长率达到360%。 如果以美国计算相关专利授权数量为例,可以发现,第一次加速是在1995年,标志着互联网时代的开始。2004年起,其增速放缓,标志 着互联网时代的发展也开始变慢。在2022年ChatGPT发布之后,专利数量又一次开始爆发式增长,而且比1995年那次更 ...
“不用 Cursor和 ChatGPT、手写代码的开发者,怕不是疯了?”
36氪· 2025-06-03 08:53
AI编程工具的应用现状 - 大语言模型(LLM)已成为软件开发领域近30年来第二大技术突破,即使其发展停滞在当前水平也具备显著价值[2][11] - 智能体系统已能自主完成代码浏览、文件编写、工具运行、测试执行及迭代等全流程开发任务,远超早期Copilot等基础辅助工具[12] - Cloudflare工程师借助AI工具在几天内完成原本需数月的OAuth库开发,AI显著降低了复杂代码库的入门门槛[7] 开发者态度分歧 - 支持者认为拒绝使用AI辅助的开发者如同"精神病",2025年纯手工编码将变得不可理喻[4][5] - 反对者将AI狂热比作NFT泡沫,25年经验的开发者直言AI生成代码是"垃圾"且拒绝接触相关工具[1][8] - Hacker News相关讨论两小时内达700条(最终近1500条),创AI编程话题热度纪录[6] 技术实现细节 - Gemini 2.5凭借5-7万行代码的上下文窗口成为首选工具,虽需人工修改但大幅提升效率[17] - 编程领域的幻觉问题已通过智能体的编译检查、测试运行等机制基本解决[18] - 当前AI主要承担输入处理、搜索、测试用例生成等重复工作,人类仍掌控核心决策[19] 生产力变革 - AI工具使开发者效率呈数量级提升,团队内AI使用者与非使用者差距堪比互联网时代的上网能力差异[31] - AI能自动完成单元测试重构等琐碎工作,迫使开发者直面核心难题[15] - 平庸代码的自动化生产释放了开发者精力,使资源向高价值判断倾斜[23][25] 行业影响 - 编程领域抄袭争议存在双重标准,开发者文化本身具有强烈的反知识产权倾向[28][29] - AI可能大规模取代初级开发者岗位,延续30年来科技对就业的冲击趋势[27] - 技术保守派开发者开始承认变革必要性,认为AI重要性堪比2008年智能手机革命[32][34] 语言适配性 - Go语言因类型安全性和标准库优势与AI配合良好,Rust等语言存在适配挑战[21] - 编程语言选择需考虑与AI工具的兼容性,传统评判标准正在重构[21] - AI生成的重复性代码在稳定性上优于人类为追求优雅而制造的复杂表达[24]
重磅报告下载 | 2025生成式AI: 当DeepSeek颠覆行业, 近2万亿美元的市场有哪些机遇?
彭博Bloomberg· 2025-06-03 06:30
生成式AI市场前景 - 预计到2032年生成式AI市场将创造约1.8万亿美元收入 年复合增长率达30% [2][4] - 生成式AI占科技行业IT支出比例将从目前不足2%提升至14%-16% [4] - 个人和企业在生成式AI智能体方面的支出到2032年可能达到2140亿美元 [3] 技术发展趋势 - 推理支出超过训练支出的时间可能比此前预测提前三年 [2] - 大语言模型功能趋同 OpenAI GPT 谷歌Gemini Meta Llama等差距缩小 [2] - 模型应用从文本搜索扩展至图片 音频 视频分析 [2][3] - 大多数LLM公司致力于提高模型效率以实现大规模推理 [2][3] 应用场景拓展 - 现有用例包括合同审查和客服聊天机器人 [2] - 新兴应用包括编程助手 集成写作 文本/语音生成图像视频工具 [2][3] - 对话式AI产品和视觉AI产品需求将利好智能手机制造商和车企 [2] - 游戏公司可能利用AI加速开发并提升用户体验 [8] 硬件与基础设施 - 训练大语言模型的计算密集度可能推动高级RISC市场份额增长 [8] - HBM芯片采用率将因AI模型复杂度提升而进一步提高 [2] - 云业务有望超越服务器开发 [7] 细分市场影响 - 数字广告巨头或通过机器学习模型改善定向投放和转化率 [8] - 生成式AI广告支出到2032年将占数字广告总支出的13% [11] - 硬件领域可能成为增长最快的类别 [8] 市场表现与竞争 - 2024年彭博BAIAET指数回报率达29% 但2025年初累计下跌6% [11] - 中国和韩国市场AI概念股分别上涨21%和13% [11] - 微软 亚马逊 Meta等云服务巨头在市场中各显神通 [13]
思维链也会「跳帧」?浙大团队提出CoT-Bridge,显著提升数学推理性能
机器之心· 2025-06-03 06:26
核心观点 - 浙江大学联合微软亚洲研究院、香港中文大学提出CoT-Bridge方法,通过检测和补全思维链中的逻辑跳跃,显著提升大语言模型在数学和逻辑任务中的推理准确率[1][10][11] - 思维跳跃(Thought Leap)是CoT推理链中因专家经验性省略导致的中间步骤缺失,造成模型训练效果降低27 83%和收敛速度变慢[5][14] - CoT-Bridge作为即插即用模块,在知识蒸馏和强化学习流程中分别带来+3 02%和+3 1%的准确率提升[19] 技术方法 - **Leap检测与步骤补全**:识别推理链中的逻辑跳跃并生成缺失的中间步骤,基于ScaleQM+数据集训练Qwen2 5-Math-7B模型实现自动补全[11][12][13] - **数据集构建**:通过有控制地删除ScaleQuestMath原始推理链中的步骤,构造含Thought Leap的训练样本[13] - **模型训练**:使用MetaMathQA(395K样本)和NuminaMath(859K样本)进行监督微调,最大性能增益达+5 87%[17][18] 实验结果 - **数学推理任务**:在GSM8K和MATH基准上,CoT-Bridge使Meta-Llama3 1-8B准确率提升+2 24%,Qwen2 5-Math-1 5B提升+0 58%[18] - **逻辑推理任务**:OOD场景下,模型在FOLIO等数据集平均准确率提升2 99%,无效输出比例下降[21] - **蒸馏增强**:对Qwen2 5-Instruct-72B生成的蒸馏数据补全后,准确率额外提升3 02%[19] 性能指标 | 模型/数据集 | 基础准确率 | CoT-Bridge增益 | 关键指标变化 [18] |---------------------|------------|----------------|--------------------- | Meta-Llama3 1-8B | 78 90% | +2 24% | MATH任务+2 03% | Qwen2 5-Math-1 5B | 81 01% | +0 58% | NuminaMath+5 87% | 蒸馏数据增强 | - | +3 02% | 知识蒸馏流程优化[19]