个人简介
招生方向
高性能计算
体系结构
并行编程
教育背景
2006-08--2007-08 University of Delaware 访问学者
2002-09--2008-03 中国科学院计算技术研究所 工学博士
1998-09--2002-07 湘潭大学 理学学士
专利与奖励
2007年 中国科学院院长优秀奖
2008年 中国计算机学会优秀博士论文奖
2010年 中国科学院卢嘉锡青年人才奖
2011年 中国科学院青年创新促进会
2013年 国家科技进步奖二等奖
科研活动
从事高性能计算领域的算法设计和优化的研究工作,作为曙光高性能计算机团队中算法和性能优化方向负责人,参与了曙光4000、曙光5000和曙光6000(星云)系列国产超级计算机系统的研制。在高性能算法设计、基础数学库优化和领域专用加速计算三个方面取得了若干创新性和系统性的研究成果,发表了数十篇论文(包括顶级国际会议如超级计算领域的SC、并行编程领域PPoPP和程序优化领域PLDI等,其中SC’06和SPAA’07论文是中国大陆学者的首次突破),对曙光高性能计算机的性能优化和应用推广贡献了关键技术。获得1项国家科技进步二等奖
科研项目
( 1 ) 面向稀疏矩阵和图计算的自适应优化方法研究, 主持, 国家级, 2013-01--2016-12
( 2 ) 面向深度测序大数据量的计算模型与体系结构研究, 参与, 国家级, 2012-01--2016-12
( 3 ) 高通量计算系统的构建原理、支撑技术及云服务应用, 参与, 国家级, 2011-01--2015-12
( 4 ) 海量图像数据处理高效算法及加速计算平台 , 主持, 国家级, 2015-01--2018-12
( 5 ) 十亿亿科学计算中共性算法的高效能实现研究, 主持, 国家级, 2015-01--2018-12
( 6 ) 十亿亿次高性能科学计算算法设计和性能优化, 主持, 市地级, 2014-01--2017-12
( 7 ) GRAPHINE 框架 E 级版研制及应用示范, 主持, 国家级, 2016-07--2020-12
项目协作单位
Argonne National Laboratory(两位博士研究生学习访问一年)
University of Delaware
MSRA(一位博士实习半年、两位硕士实习3个月)
北京应用物理与计算数学研究所
Intel (联合实验室)
NVIDIA
AMD
中科曙光(联合实验室)
工作简历
2014-10--今 中国科学院计算技术研究所 研究员
2011-11--今 计算体系结构国家重点实验室 副研究员
2008-03--今 中国科学院计算技术研究所 副研究员
2006-08--2007-08 University of Delaware 访问学者
研究领域
并行算法设计与分析、并行编程和优化、计算机体系结构、生物信息学、大数据
近期论文
查看导师新发文章
(温馨提示:请注意重名现象,建议点开原文通过作者单位确认)
(1) Understanding GPU Microarchitectureto Achieve Bare-Metal Performance Tuning, ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, 2017, 第 2 作者
(2) A Performance Analysis Framework for Exploiting GPU Microarchitectural Capability, International Conference on Supercomputing, 2017, 第 2 作者
(3) Graphine: Programming Graph-Parallel Computation of Large Natural Graphs on Multicore Cluster, IEEE Transactions on Parallel and Distributed Systems, 2016, 第 2 作者
(4) Accelerating Irregular Computation in Massive Short Reads Mapping on FPGA Co-Processor, IEEE Transactions on Parallel and Distributed Systems, 2016, 第 1 作者
(5) Study on Partitioning Real-world Directed Graphs of Skewed Degree Distribution, International Conference on Parallel Processing (ICPP), 2015, 第 2 作者
(6) FAST: A Fast Stencil Autotuning Framework Based On An Optimal-solution Space Model, 29th ACM International Conference on Supercomputing (ICS)., 2015, 第 2 作者
(7) SuperDragon: A Heterogeneous Parallel System for Accelerating 3D Reconstruction of Cryo-Electron Microscopy Images, ACM Transactions on Reconfigurable Technology and Systems, 2015, 第 1 作者
(8) Exploiting fine-grained parallelism in graph traversal algorithms via lock virtualization on multi-core architecture, The Journal of Supercomputing , 2015, 第 2 作者
(9) SMAT: An Input Adaptive Auto-Tuner for Sparse Matrix-Vector Multiplication, 34th annual ACM SIGPLAN conference on Programming Language Design and Implementation (PLDI), 2013, 第 2 作者
(10) vLock: Lock Virtualization Mechanism for Exploiting Fine-grained Parallelism in Graph Traversal Algorithms, ACM/IEEE International Symposium on Code Generation and Optimization (CGO), 2013, 第 2 作者
(11) Optimizing Parallel Sn Sweeps on Unstructured Grids for Multi-core Clusters, Journal of Computer Science and Technology, 2013, 第 2 作者
(12) An Optimized Large-Scale Hybrid DGEMM Design for CPUs and ATI GPUs, 26th ACM International Conference on Supercomputing(ICS), 2012, 第 3 作者
(13) Scalability study of molecular dynamics simulation on Godson-Tmany-core architecture, Journal of Parallel and Distributed Computing, 2012, 第 2 作者
(14) Fast Implementation of DGEMM on Fermi GPU, ACM/IEEE Supercomputing (SC), 2011, 第 1 作者
(15) Experience of Parallelizing cryo-EM 3D Reconstruction on a CPU-GPU Heterogeneous System, 20th ACM Symposium on High Performance on Parallel and Distributed Computing (HPDC), 2011, 第 3 作者
(16) Analysis and Performance Results of Computing Betwenness Centrality on IBM Cyclops64, The Journa of Supercomputing, 2009, 第 1 作者
(17) Single-particle 3D Reconstruction from Cryo-Electron Microscopy Images on GPU, 23rd ACM International Conference on Supercomputing (ICS), 2009, 第 1 作者
(18) Improving Performance of Dynamic Programming via Parallelism and Locality on Multi-core Architectures, IEEE Transactions on Parallel and Distributed Systems, 2009, 第 1 作者
(19) A Parallel Algorithm for Computing Betweenness Centrality, 38th IEEE International Conference on Parallel Processing (ICPP), 2009, 第 1 作者
(20) Experience on optimizing irregular computation for memory hierarchy in manycore architecture, ACM SIGPLAN Symposium on Principles andPractice of Parallel Programming (PPoPP) , 2008, 第 1 作者
(21) A Study of Architectural Optimization Methods in Bioinformatics Applications, International Journal of High Performance Computing Applications, 2007, 第 1 作者
(22) Cache Oblivious Algorithms for Nonserial Polyadic Dynamic Programming, The Journal of Supercomputing, 2007, 第 1 作者
(23) A Parallel Dynamic Programming Algorithm on a Multi-core Architecture, 19th Annual ACM Symposium on Parallelism in Algorithms and Architectures (SPAA), 2007, 第 1 作者
(24) Locality and Parallelism Optimization for Dynamic Programming Algorithm in Bioinformatics, ACM/IEEE Supercomputing (SC), 2006, 第 1 作者
学术兼职
担任IEEE TPDS编委(Associate Editor),多个国际会议的程序委员会委员(ISC2013、ICPP2015/2012、ICS2010、HiPC2011-12、ICPADS2009等),从2010年起担任Graph500基准测试的指导委员会(steering committee)委员。