当前位置:
X-MOL 学术
›
Gigascience
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Apache Spark上的生物信息学应用程序
GigaScience ( IF 11.8 ) Pub Date : 2018-08-07 , DOI: 10.1093/gigascience/giy098 Runxin Guo 1 , Yi Zhao 2 , Quan Zou 3 , Xiaodong Fang 4 , Shaoliang Peng 1, 5
GigaScience ( IF 11.8 ) Pub Date : 2018-08-07 , DOI: 10.1093/gigascience/giy098 Runxin Guo 1 , Yi Zhao 2 , Quan Zou 3 , Xiaodong Fang 4 , Shaoliang Peng 1, 5
Affiliation
随着下一代测序技术的飞速发展,基因组数据的不断增加对数据处理提出了巨大的挑战。因此,迫切需要高度可扩展且功能强大的计算系统。在最先进的并行计算平台中,Apache Spark是用于大型数据处理的快速,通用的内存中迭代计算框架,通过引入弹性分布式数据集可确保高容错性和高可伸缩性抽象。就性能而言,Spark的内存访问速度可比Hadoop快100倍,磁盘访问速度可快10倍。此外,它还提供Java,Scala,Python和R中的高级应用程序编程接口。它还支持一些高级组件,包括用于结构化数据处理的Spark SQL,用于机器学习的MLlib,用于计算图形的GraphX和用于流计算的Spark Streaming。我们调查了下一代测序和其他生物领域(例如表观遗传学,系统发育和药物发现)中使用的基于Spark的应用程序。这项调查的结果用于提供全面的指导方针,使生物信息学研究人员可以将Spark应用于自己的领域。
"点击查看英文标题和摘要"
更新日期:2018-08-07
"点击查看英文标题和摘要"