当前位置:
X-MOL 学术
›
Cluster Comput.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
带有AVX-512的Intel KNL处理器上矩阵矩阵乘法的实现
Cluster Computing ( IF 3.6 ) Pub Date : 2018-06-01 , DOI: 10.1007/s10586-018-2810-y
Roktaek Lim , Yeongha Lee , Raehyun Kim , Jaeyoung Choi
Cluster Computing ( IF 3.6 ) Pub Date : 2018-06-01 , DOI: 10.1007/s10586-018-2810-y
Roktaek Lim , Yeongha Lee , Raehyun Kim , Jaeyoung Choi
代号为Knights Landing(KNL)的第二代Intel Xeon Phi处理器最近出现了2D瓦片网格体系结构和Intel AVX-512指令。但是,由于一般用户不熟悉最佳的缓存重用,有效的矢量化和汇编语言,因此使新用户很难获得最佳性能。在本文中,我们说明了几种开发策略,可通过执行常规矩阵-矩阵乘法而不使用汇编语言来使用C编程语言实现良好的性能。我们对矩阵-矩阵乘法的实现基于阻塞式矩阵乘法,它是一种优化技术,可提高数据重用性。我们使用数据预取,循环展开和Intel AVX-512来优化分块矩阵乘法。当我们使用KNL的单个内核时,我们的实现使用Intel MKL(当前最新的库)实现了SGEMM的98%和DGEMM的99%。我们使用KNL的所有68个内核对并行DGEMM的实现,使用英特尔MKL最多可实现90%的DGEMM。
"点击查看英文标题和摘要"
更新日期:2018-06-01

"点击查看英文标题和摘要"