HPC / Parallel / AI

(SC‘19)Conflict-Free Symmetric Sparse Matrix-Vector Multiplication on Multicore Architectures

内容简要 这是发表在SC'19的一篇文章。看这篇文章的目的是了解目前关于矩阵对称性如何优化性能的:利用稀疏矩阵的对称性可以减少SpMV的内存占用和访存次数。存储矩阵的上三角部分或下三角部分在并行执行中引入了输出向量的访问竞争。以往的研究建议使用每个线程的本地向量来规避这个问题,但这引入了一个效率低下


I/O lower bounds for auto-tuning of convolutions in CNNs

前言 访存优化永远是HPC核心课题之一。我们将结合论文,介绍的S-切分计算理论。将程序之前的运算抽象为DAG(有向无环图),通过S-切分理论计算出其访存下界以及访存下界所满足的条件,能够有效的指导我们为高性能计算过程寻求最优配置。这种理论能够在自动搜索最优配置的过程,减小搜索空间,降低搜索成本,并有


DSP: Efficient GNN Training with Multiple GPUs

DSP: Efficient GNN Training with Multiple GPUs 论文阅读 图神经网络介绍 图数据大体上有两种主要特征: 图的拓扑关系,图每个节点自己的特征。训练图神经网络需要用到这两种特征。 特点:图的拓扑关系特征存储远小于节点特征。 用于处理图数据的图神经网络(GNN


Temporal Vectorization for Stencils

1. 提出一种考虑整个迭代空间的“时间向量化”方法 2. 设计一系列优化来弥补“时间向量化”的劣势,调整数据结构来扩展其潜力 3. 时间向量化+时间分块 4. 用时间向量化首次实现Gauss-Seidel模板向量化