NVIDIA 推出 CUTLASS 4.0,引入 Python 接口,利用 CUDA Tensors 和空间微内核,提升深度学习和高性能计算的 GPU 性能。 NVIDIA 宣布发布 CUTLASS 4.0,这是一个重要更新,引入了面向 CUDA 库的 Python 接口,旨在优化深度学习 (DL) 和高性能计算 (HPC) 中的 GPU 性能。据 NVIDIA称,此 ...