模型训练

搜索文档
Alarum Technologies .(ALAR) - 2025 Q2 - Earnings Call Transcript
2025-08-28 13:30
财务数据和关键指标变化 - 第二季度收入880万美元 略低于去年同期的890万美元 [6][16] - 净利润30万美元 去年同期净亏损40万美元 [6][19] - 调整后EBITDA 100万美元 去年同期为340万美元 [6][19] - 非IFRS毛利率63% 去年同期为78% [17] - 运营费用540万美元 去年同期420万美元 主要因研发人员成本增加 [17] - 金融收入40万美元 去年同期金融费用250万美元 主要因认股权证公允价值变动 [18] - 股东权益增至2910万美元 去年底为2640万美元 [20] - 现金及长期投资余额2500万美元 与去年持平 [14][20] - 基本每股收益0.04美元 去年同期亏损0.05美元 [19][20] 各条业务线数据和关键指标变化 - AI客户群体显著增长 主要替代其他细分市场的客户 [16] - 新推出大规模AI数据收集和标注项目 涉及数据收集、标注和微调用例 [7][8] - 旗舰产品数据收集器和网站解锁器需求强劲 代理网络快速扩张 [8] - 客户结构变化导致净留存率NRR为0.98 [16] 各个市场数据和关键指标变化 - AI市场成为主要驱动力 客户包括大型科技公司和电商平台 [6][7] - 与亚洲最大在线市场之一达成合作 开展大规模数据收集项目 [7] - 客户范围从科技巨头到初创企业 数据价值显著提升 [7] 公司战略和发展方向和行业竞争 - 战略决策增加投资 利用盈利业务再投资于公司发展 [13] - 投资重点包括创新、基础设施、客户群扩张和与大公司合作 [13] - 代理网络基础设施投资增加销售成本但优化长期网络基础设施 [10] - 研发投入增加以扩展产品组合和能力 [11][17] - 目标成为AI数据收集的核心企业 满足各类公司需求 [12][13] - 行业处于早期阶段 高度动态和不可预测 [12] - 竞争激烈 公司利用盈利运营和专业知识扩大网络和服务器能力 [60] 管理层对经营环境和未来前景的评论 - 业绩超预期且符合6月上调的指引 [6] - 数据成为最有价值的商品 带来一代人一次的机会 [9] - 短期利润率下降是设计选择 为满足主要AI玩家需求 [10][13] - 市场仍处于婴儿期 客户需求难以预测超过几个月 [12] - 建议投资者以多季度而非单季度评判发展 [12] - 第三季度起与战略客户合作 预计增加季度收入约300万美元 [17] - 新项目初期利润率较低 影响整体盈利能力 [17][22] 其他重要信息 - 认股权证将在一个月内到期 消除未来影响 [18] - 2025年1月支付170万美元税款 影响现金流 [21] - 2025年收入指引1280万美元 同比增长78% [22] - 调整后EBITDA指引约110万美元 范围±5万美元 [22] - 指引包含新大型AI数据项目的初步影响 [22] 问答环节所有提问和回答 问题: 大客户利润率低的原因和恢复条件 [25] - 因新产品的技术基础设施成本高 特别是服务器和网络相关成本 [27][28][30] - 需要改善成本结构或增加标准毛利率项目来恢复利润率 [32] 问题: 新产品特点 [34] - 数据量、体积和带宽需求巨大 与以往项目有重大区别 [35] 问题: 更广泛客户群使用情况和新客户渠道 [36] - AI和数据需求趋势强劲 新客户不断涌入 渠道良好 [37] - 需求巨大 正投资网络基础设施和功能以满足需求 [38] 问题: 客户结构变化对客户终身价值的影响 [42][43] - NRR计算方法可能暂时误导 但季度间增长显著 [45][47] - AI客户需求可能持续 未来NRR将反映这种变化 [47] 问题: 大客户历史和对Q2的影响 [49] - 客户合作约1.5季度 Q2已有可观收入 现在显著增长 [50][51] 问题: Q3收入300万美元的可见性 [52] - 三分之二季度已过 对9月预测有信心 [55] - 项目持续时间不可预测 与其他项目相同 [56] 问题: 未来毛利率走势 [59] - 若增长来自当前业务模式 毛利率可能改善 - 若有新项目 可能再次影响毛利率 - 行业需求增长但竞争激烈 公司正投资扩大能力 [60]
热议!DeepSeek V3.1 惊现神秘 Bug,模型故障了?
程序员的那些事· 2025-08-26 12:35
DeepSeek V3.1 技术升级 - 采用混合推理架构,同时支持"思考模式"与"非思考模式",推理效率提升20%-50% [1] - 兼容128K长上下文处理,引入UE8M0 FP8参数精度格式,内存占用降低75% [1] - 适配国产下一代芯片,降低对进口GPU的依赖 [1] 模型输出异常现象 - 生成文本时随机出现「极」、「極」、「极速」或「extreme」等token,概率完全随机 [2][12][13] - 问题在火山引擎、chutes等第三方API平台出现频率较高 [4][6][7] - 腾讯Codebuddy AI编程工具在UI界面中自动添加"极速赛车开奖"、"极速电竞"等异常token [9] - DeepSeek官网同样存在该问题,但第三方平台出现概率更高 [12] 异常案例具体表现 - 火山引擎API输出数据中包含"极"字符,例如数组数据中插入"[0极,3,0.5]"等异常格式 [5] - 用户调用VolcEngine DeepSeek V3.1整理物理试卷时,输入包含"极板"等无关词汇 [6] - Reddit用户测试发现模型在编程场景下输出异常,如将"time.Second"错误生成"time.Se极"或"time.Se extreme" [15][17][21] - 异常token的ID分别为:简体中文"极"(ID:2577)、繁体中文"極"(ID:16411)、英文"extreme"(ID:15075) [15] 问题影响范围与历史关联 - 异常现象不仅存在于DeepSeek V3.1,早期版本DeepSeek V3 0324同样存在类似问题 [22] - Qwen3系列模型(包括235B A22B Instruct 2507和30B A3B Instruct)也出现相同症状,推测可能使用了相同被污染的数据 [22] - GLM 4.5模型未受该问题影响 [22] 技术分析与潜在原因 - 异常token"极"(ID:2577)紧邻省略号token(ID:2576),可能因训练数据清洗不彻底导致特殊字符残留 [25][26] - 推测训练数据中存在"极长的列表"等模式化表达,模型将"极"误学为语义边界符或终止符 [25][27] - 问题可能通过RL或自蒸馏阶段被放大,模型将统计规律误判为语言逻辑 [26][27] - 异常输出在编程、结构化数据生成等需高精度场景下会导致结果不稳定 [28]
GPT-oss太离谱:无提示自行想象编程问题,还重复求解5000次
量子位· 2025-08-11 08:32
GPT-oss模型行为分析 - 模型在没有提示词的情况下消耗超过30000个token凭空生成多米诺骨牌编程问题并反复求解5000多次 [2][17][18] - 模型训练数据覆盖几乎所有常见编程语言,其中Perl占比尤其高,但Java和Kotlin的实际占比可能被低估 [7][9] - 模型生成内容高度集中于数学和代码领域,主动进行推理且多用英语表达,不同于自然网页文本或普通聊天机器人交互内容 [11][13] 模型训练与语言特性 - 模型在推理过程中频繁进行语言转换,从英语演变为"Neuralese"并在多种语言间切换 [20][21][22] - 模型输出中出现特殊伪影如"OCRV ROOT",推测源于训练数据使用OCR技术扫描书籍时的识别偏差 [24][25][26] - 模型对unicode使用熟练但物理领域表现不佳,偶尔会创造不存在的物理学理论 [10][29] 模型性能与问题 - GPT-oss-20b在SimpleQA任务中准确率仅0.067,幻觉率高达0.914 [34] - 模型会花费2小时推理无解问题如"生成3x3字母矩阵",或创造不存在的理论名称如"量子重力波动理论" [36] - 模型在处理日常琐事时表现不稳定,可能拒绝谈论或完全崩溃 [37] 数据与建议 - 分析数据已公开在Hugging Face平台供研究使用 [31] - 建议对模型高度冗余输出进行去重,并对比不同规模模型的输出以深入理解机制 [32]
腾讯申请模型训练及信息投放相关专利,提高投放预测模型的准确性
金融界· 2025-08-07 03:21
腾讯科技专利技术 - 公司申请了一项名为"模型训练方法、信息投放方法、装置、设备及介质"的专利,公开号CN120430833A,申请日期为2024年02月,属于计算机技术领域 [1] - 专利方法包括获取正样本、负样本和无标签样本,训练标签预测模型,预测无标签样本的伪标签,并最终训练投放预测模型用于预测对象的投放分数 [1] 腾讯科技公司概况 - 公司成立于2000年,位于深圳市,主要从事软件和信息技术服务业,注册资本200万美元 [1] - 公司对外投资了15家企业,参与招投标项目263次,拥有商标信息5000条,专利信息5000条,行政许可527个 [1]
腾讯申请模型训练方法、装置、电子设备及存储介质专利,提升模型推理准确性
金融界· 2025-08-05 13:22
公司专利技术动态 - 腾讯科技申请模型训练方法专利 公开号CN120431962A 申请日期2025年6月 [1] - 专利采用分阶段训练机制 按样本数据难度由易到难排序训练 [1] - 通过多轮推理生成正负样本优化模型 结合强化学习提升推理准确性 [1] 公司基本信息 - 腾讯科技成立于2000年 注册资本200万美元 位于深圳市 [2] - 公司属软件和信息技术服务业 对外投资15家企业 [2] - 参与招投标263次 拥有商标信息5000条 专利信息5000条 行政许可527个 [2]
腾讯申请模型训练方法相关专利,保证目标模型迭代方向的正确性
金融界· 2025-08-05 07:19
公司专利技术动态 - 腾讯科技申请模型训练方法专利 公开号CN120409606A 申请日期2025年4月 [1] - 专利通过计算目标模型与参考模型的偏好差异确定损失值 结合收敛趋势调整损失比例因子 [1] - 技术方案能保证目标模型迭代方向的正确性 涉及存储介质及计算机程序产品 [1] 企业基本信息 - 腾讯科技(深圳)有限公司成立于2000年 注册资本200万美元 主营软件和信息技术服务业 [2] - 公司拥有5000条专利信息 5000条商标信息 527个行政许可 [2] - 对外投资15家企业 参与招投标项目263次 [2]
周鸿祎:360最近都采购华为芯片,国产性价比高
南方都市报· 2025-07-23 14:03
国产芯片与英伟达竞争 - 360集团近期采购华为芯片产品,认为国产芯片与英伟达存在差距但必须坚持使用以推动产品改进[1] - 英伟达H20芯片获准销往中国,更适合模型推理场景,而华为芯片在推理场景性价比高于H20[2] - 国产AI芯片在模型推理市场存在机会,因技术要求低于模型训练[2] DeepSeek模型发展 - DeepSeek在推理模型领域贡献显著,但6月首次出现月活用户负增长[2] - DeepSeek创始人专注AGI和大模型研发,未重点投入To C应用或流量运营[2] - 尽管应用流量下降,DeepSeek开源基座模型仍被云厂商和AI应用公司广泛调用[2] AI智能体发展趋势 - 开源模型性能提升推动AI智能体发展,智能体具备任务推理、规划和执行能力,成为AI落地关键方向[3] - AI Coding是智能体热门垂直方向,工程化能力如上下文工程和提示词工程发挥关键作用[3] - 智能体应走向专业化,结合行业建立技术壁垒,避免与大模型通用性竞争[3] - 360计划通过智能体优化市场部效率,未来不掌握智能体技术的人员可能被淘汰[3]
中国移动山东公司及总公司申请模型训练与问答方法专利,可得到训练完成的问答模型
金融界· 2025-05-24 04:49
专利申请 - 中国移动通信集团山东有限公司与中国移动通信集团有限公司联合申请了一项名为"模型训练方法、问答方法"的专利,公开号为CN120030353A,申请日期为2025年03月 [1] - 专利涉及多模态模型训练技术,通过模态参数平衡不同模态的贡献度,根据第一模态问题生成第二模态答案,并迭代调整参数直至模型训练完成 [1] - 技术核心包括模态参数动态调整、跨模态答案生成及预设答案比对优化模型 [1] 公司背景 - 中国移动通信集团山东有限公司成立于2000年,注册资本63418513万人民币,主营电信、广播电视和卫星传输服务,注册地位于济南市 [2] - 该公司对外投资1家企业,参与招投标5000次,持有商标21条、专利617条、行政许可18个 [2] - 中国移动通信集团有限公司成立于1999年,注册资本30000000万人民币,注册地位于北京市,同属电信服务行业 [2] - 集团公司对外投资51家企业,参与招投标5000次,持有商标2205条、专利5000条、行政许可51个 [2]