Workflow
Cuzco核心
icon
搜索文档
一颗RISC-V芯片,打破常规!
半导体行业观察· 2025-09-01 01:17
公司背景与产品定位 - Condor Computing是晶心科技子公司 专注于开发可授权RISC-V内核 商业模式与Arm和SiFive类似[2] - 公司于2023年成立 但晶心科技在成立前已具备RISC-V设计经验并开发过多个RISC-V内核[2] - 核心产品Cuzco定位高性能RISC-V领域 与SiFive P870和Veyron V1同级 性能超越阿里巴巴T-HEAD C910和SiFive P550等已量产核心[2] 核心架构设计 - Cuzco采用8位宽乱序设计 配备256个ROB条目 在台积电5nm工艺下目标时钟频率为2GHz(慢速-慢速)至2.5GHz(典型-典型)[6] - 流水线包含12个阶段 错误预测惩罚为10周期 采用高度可配置设计 支持可变执行片数量 L2 TLB大小 簇外总线宽度及L2/L3容量调整[6][7] - 核心可组成最多8核心的簇 通过CHI总线连接系统 支持客户自定义片上网络实现多簇扩展[7] 前端与分支预测 - 采用TAGE-SC-L分支预测器 结合标记几何 统计校正器和循环预测器技术 基础组件使用16K双峰计数器条目表[11][12] - 配备8K入口两级分支目标缓冲区(BTB) 32入口返回堆栈及间接分支预测器[14] - 指令缓存为64KB八路组相联 配合64条目全相联TLB 每周期最多处理8条指令[14] 重命名与调度创新 - 首创"基于时间"的静态调度方案 通过时间资源矩阵(TRM)预测未来256周期资源利用率 搜索窗口为8周期[18][23] - 与传统动态调度相比 该方案节省功耗并降低复杂度 无需修改ISA或编译器即可获得最佳性能[4][18] - 在基准测试中 Specint2k6/GHz性能与默认配置相比变化范围在-1%至+4.2%之间[27] 执行单元配置 - 执行资源分组为多个切片 每个切片包含一对流水线 支持所有RISC-V指令[33] - 每个切片配备4个寄存器读取端口和2个写入端口 每周期最多执行2个微操作[33] - 支持256/512位VLEN矢量处理 每切片含1个FMA单元 FP32峰值吞吐达每周期8次FMA操作 FP加法延迟2周期 乘法及乘加延迟4周期[34] 内存子系统 - 加载/存储单元含64项加载队列 64项存储队列和64项数据缓存未命中队列[36] - L1D缓存为64KB八路组相联 延迟4周期 带宽64B/周期 L2缓存最大8MB 延迟18周期 L3缓存最大256MB 延迟38周期[38] - 采用物理索引物理寻址(PIPT)机制 配备64条目全相联数据TLB L2 TLB支持1K/2K/4K条目可配置[38] 集群与缓存系统 - 每集群8核心共享L3缓存 通过交叉开关连接 切片数量与核心数量匹配 每切片提供64B/周期带宽[43] - 系统请求通过64B/周期CHI接口发出 集群外拓扑由实施者自定义[43] - 缓存未命中采用重放机制 L3命中会导致消费指令执行三次(分别对应L1D命中预测 L2命中预测和实际L3命中)[50] 技术突破与行业意义 - 首次在RISC-V领域实现基于时间的静态调度方案 突破传统乱序执行设计范式[52] - 保持完全软件兼容性 无需依赖编译后微码缓存 避免代码局部性差时的性能衰减[52] - 通过指令重放机制有效处理可变延迟指令 重放率为每1000条指令70.07次[27][29]