10月18日,在韩国首尔举办的第58届国际微体系结构会议(MICRO 2025)的学术教程环节中,清华大学集成电路学院何虎副教授及其团队组织了一场题为《Ventus:基于RISC-V及其向量扩展的高性能开源GPGPU》的专题教程,系统展示了团队在开源通用图形处理器(GPGPU)领域的全栈研究成果,引起国际学术界与工业界的广泛关注。

教程由8场专题报告和一场实践演示组成,全面介绍了清华大学“乘影”(Ventus)GPGPU项目的设计理念、硬件架构、软件工具链及验证体系,覆盖从指令集、微架构、缓存与内存管理、AI加速单元,到编译器、差分验证框架与FPGA原型系统的完整技术链条。
何虎在项目总览报告中介绍了Ventus项目的发起背景、关键技术路径与开源社区建设规划,展现了项目在指令集、硬件设计、编译工具和验证平台等方面的完整布局。
在核心架构方面,博士生马鸣远从指令、数据与线程三个并行维度出发,深入剖析了GPGPU作为硬件多线程SIMD处理器的本质,并阐述了Ventus如何在RISC-V Vector扩展基础上构建完整的SIMT(单指令多线程)架构,介绍了包括CTA调度器、warp调度器在内的核心微架构设计。
缓存子系统与内存管理单元(MMU)由博士生孙浩楠详细讲解。该设计在RISC-V RVWMO内存模型下采用释放一致性引导的缓存一致性机制(RCC),通过快通路与稳健通路的协同,兼顾性能与正确性。测试数据显示,该MMU设计在保持功能正确的同时,实现了L1 DTLB命中率超95%,L2 TLB命中率超85%。
针对AI负载优化,博士生刘威介绍了Ventus新一代多精度可复用张量核心(Tensor Core),支持从FP16到INT4乃至MX FP8/FP6/FP4等多种精度,并集成稀疏加速技术。基准测试显示,集成该模块后,特定负载的指令数与执行周期分别优化了69.1%与68.4%。
在验证与软件生态方面,硕士生谢文轩介绍了团队开发的GVM差分验证框架,有效解决了GPGPU指令乱序完成带来的验证挑战。兆松科技CTO伍华林博士则分享了基于MLIR与LLVM的OpenCL与Triton编译器设计,助力Ventus支持现代AI算子开发。工程师孔荔进一步介绍了工具链的整体架构,涵盖编译、运行时、驱动与仿真器等模块,已通过OpenCL-CTS等测试验证。
教程最后设置了动手实践环节。硕士生王俣翰通过Jupyter交互环境演示了如何部署Ventus环境并运行OpenCL程序;硕士生陈笑川则展示了基于VCU128 FPGA的硬件验证平台,成功运行了多项关键测试,完成了从仿真到实际硬件加速的全流程验证。
此次教程是清华大学集成电路学院在RISC-V与GPGPU交叉领域系统性研究能力的一次集中展示,标志着我国在开源高性能计算架构方面取得了重要进展,为全球开源硬件社区注入新活力。
文章来源: https://mp.weixin.qq.com/s/IfLo3lu1V_97UKzaxK0bdw