训练数据

搜索文档
海天瑞声: 海天瑞声2025年半年度报告
证券之星· 2025-08-29 10:25
核心观点 - 公司2025年上半年营业收入1.57亿元,同比增长69.54%,主要受益于全球AI技术快速发展和商业化落地,三大业务板块全面增长 [4] - 归属于上市公司股东的净利润380.46万元,同比增长813.65%,扣除非经常性损益的净利润98.35万元,实现扭亏为盈 [4][5] - 经营活动现金流量净额为-3,375.12万元,同比下降315.29%,主要因海外业务采购支出增加及年终奖支付影响 [4][5] 行业发展趋势 - 全球AI产业迎来历史性发展拐点,IDC预计2028年全球AI IT总投资规模达8,159亿美元,年复合增长率32.9% [7] - 中国AI产业保持32.1%年均复合增长率,2029年市场规模突破1万亿元 [7] - 训练数据成为AI发展关键驱动因素,Cognilytica预计2027年全球训练数据市场规模达220亿美元,年复合增长率32% [8] - 中国人工智能基础数据服务市场规模2024年为58亿元,2028年达170亿元,年复合增长率30.84% [8] - 多模态大模型成为发展趋势,推动跨模态数据需求显著上升 [13] - 大模型发展从"规模驱动"转向"推理驱动",高质量思维链(CoT)数据成为提升复杂推理能力的关键 [14] - 行业应用从通用向垂直领域深化,专业数据需求提升 [16] - 具身智能兴起带来物理世界交互数据需求,当前存在巨大供需缺口 [17] - 数据安全合规要求持续提升,《数据安全法》《个人信息保护法》等法规密集落地 [18] 公司业务表现 - 智能语音、计算机视觉、自然语言处理三大业务板块全面增长 [4] - 海外业务收入7,351.14万元,同比增长68.24%,东南亚数据交付基地进入稳定运营阶段 [33] - 境内业务收入8,318.45万元,同比增长70.70% [34] - 客户累计数量超过1,100家,覆盖科技互联网、社交、IoT、智能驾驶、大模型等领域主流企业 [20][23] - 拥有成品训练数据集近1,800个,覆盖41种语言/方言 [20][35] 技术研发实力 - 已取得41项专利授权(39项发明专利) [20] - 拥有181项计算机软件著作权 [20] - 具备ISO27001信息安全体系认证、ISO27701隐私信息管理体系认证等资质 [20] - 在语音语言学基础研究方面有深厚积累,覆盖多语种、多音色、音素集等能力 [19] 战略布局进展 - 与成都、长沙、保定等地政府成立合资公司,参与数据标注基地建设 [36] - 与内蒙古呼和浩特签署战略合作协议,聚焦当地特色产业共建高质量数据集 [36] - 正拓展与上海、广州、宜宾等十余地的战略合作,完善全国业务布局 [36] - 强化北美、欧洲及日韩销售团队,深化本地化服务能力 [33] - 通过参与CVPR、ACL、Tech-AD等全球顶级AI学术会议提升技术品牌影响力 [33] 产品服务矩阵 - 提供标准化产品、定制化服务、应用服务全覆盖的解决方案 [22] - 训练数据涵盖智能语音、计算机视觉、自然语言三大核心领域 [23] - 应用于人机交互、智能家居、智能驾驶、智慧金融等22种创新应用场景 [20][23] - 开放数据处理工具集及平台,提供公有云访问、私有化部署及SaaS化服务 [28]
GPT-oss太离谱:无提示自行想象编程问题,还重复求解5000次
量子位· 2025-08-11 08:32
GPT-oss模型行为分析 - 模型在没有提示词的情况下消耗超过30000个token凭空生成多米诺骨牌编程问题并反复求解5000多次 [2][17][18] - 模型训练数据覆盖几乎所有常见编程语言,其中Perl占比尤其高,但Java和Kotlin的实际占比可能被低估 [7][9] - 模型生成内容高度集中于数学和代码领域,主动进行推理且多用英语表达,不同于自然网页文本或普通聊天机器人交互内容 [11][13] 模型训练与语言特性 - 模型在推理过程中频繁进行语言转换,从英语演变为"Neuralese"并在多种语言间切换 [20][21][22] - 模型输出中出现特殊伪影如"OCRV ROOT",推测源于训练数据使用OCR技术扫描书籍时的识别偏差 [24][25][26] - 模型对unicode使用熟练但物理领域表现不佳,偶尔会创造不存在的物理学理论 [10][29] 模型性能与问题 - GPT-oss-20b在SimpleQA任务中准确率仅0.067,幻觉率高达0.914 [34] - 模型会花费2小时推理无解问题如"生成3x3字母矩阵",或创造不存在的理论名称如"量子重力波动理论" [36] - 模型在处理日常琐事时表现不稳定,可能拒绝谈论或完全崩溃 [37] 数据与建议 - 分析数据已公开在Hugging Face平台供研究使用 [31] - 建议对模型高度冗余输出进行去重,并对比不同规模模型的输出以深入理解机制 [32]