期刊:Data Science and Engineering
微信:点击阅读微信原文
文章介绍
许多研究领域的出版物数量空前增长,为跟踪和分析研究主题的演变和发展带来了极大的便利。尽管现有研究做出了重大贡献,但它们通常从论文标题中提取主题,而不是从权威会议(例如AAAI、NeurIPS和SIGMOD)中获取主题。为了弥补现有工作的不足,本文开发了一个新的框架,即RTTP(Research Topic Trend Prediction,研究主题趋势预测)。具体来说,该框架包含以下两个组成部分:(1)设计了一个名为TAS的主题对齐策略,以获取各年度研究主题的详细内容,(2)设计了一个名为EPN的增强预测网络,以捕捉已知年份的研究趋势进行预测。此外,本文构建了计算机科学中特定研究领域的两个现实世界数据集,即:数据库和数据挖掘(DBDM)、计算机架构和并行编程(CAPP)。实验结果表明,该问题得到了很好的解决,提出的解决方案优于最先进的方法。该论文在已有工作基础上的主要贡献如下:
(1) 率先研究了基于事实标注的研究主题趋势预测问题,为研究人员跟上研究主题的发展提供了新的视角。
(2) 正式将该问题定义为序列预测问题,并提出了一个统一的框架RTTP。该框架由一个主题对齐策略TAS和一个基于深度学习的预测网络EPN组成,前者旨在获取每年研究主题的详细内容,后者旨在捕获已知序列的潜在趋势信息。
(3) 在两个真实世界的数据集上进行了实验,以探究提出的框架RTTP的有效性,并提供了一些深入的分析。实验结果表明,与基线相比,RTTP具有更高的性能。
实验效果
各方法在RMSE、MAE和NDCG@K方面的预测性能如表1和表2所示。表1展示了各方法在DBDM数据集上的性能比较,表2展示了各方法在CAPP数据集上的性能比较。DBDM和CAPP的详细统计数据见表3,在测试集上预测时间的比较见表4。总的来说,RTTP在两个数据集中都比所有比较方法获得了更高的性能。基于这些结果,本文总结了以下一些重要的发现。
Transformer可以有效捕获研究趋势演化的相互关联性。基于transformer的框架RTTP和其他三个时间序列模型显著超过了经典的时间序列方法ARIMA,因为ARIMA单独对每个研究主题的时间序列建模,而不是对整个先验研究趋势序列建模。此外,RTTP的表现也优于基于RNN的模型,包括RNN、GRU和NNCP。可以观察到,在DBDM的RMSE指标上,提出的框架比RNN、GRU、NNCP的性能分别提高了3.87%、3.07%、3.54%,在CAPP上分别提高了1.22%、0.9%、2.98%。在不同指标上,使用长短期记忆的研究趋势预测模型DNTP的性能在两个数据集上不够稳定。结果表明,transformer具有更好的能力捕捉研究趋势演变的潜在属性,因为transformer利用多头自注意力从全局序列中提取感兴趣的信息,而不是按顺序接收序列信息。我们还观察到,基于RNN的模型表现出较高的能力,其中RNN和GRU都比MEY和LR取得了更好的性能,表明基于RNN的模型是序列建模和预测任务的强大基线。
表1. 各方法在DBDM数据集上的性能比较
表2. 各方法在CAPP数据集上的性能比较
RTTP在排名靠前的研究主题趋势预测方面是有效的。Top-K研究主题可以指引当前领域有前途的分支。为了更详细的分析,将更加关注未来各个研究主题的排名,使用排名指标NDCG@K。从表1和表2可以看出,对于K的所有取值,RTTP都取得了最好的结果,这表明该方法在预测排名靠前的研究主题方面具有更强的能力。对于相同的K, CAPP上的表现往往高于DBDM上的表现,因为前者只包含10个研究主题,而DBDM上考虑了24个研究主题,NDCG@10表示CAPP上所有研究主题的排名。此外,可以发现RTTP在DBDM上的提升比在CAPP上的提升更明显,由此推断,划分的研究主题粒度可能会影响top-K研究主题的预测准确度。
表3.两个数据集的数据统计
表4. 各方法在两个数据集上的预测时间比较(ms)
RTTP在预测时间上具有竞争力。从表4可以观察到,ARIMA比其他方法花费更多的预测时间,因为ARIMA需要对每个研究主题进行预测,而不是一次性生成所有研究主题的研究主题流行度评分。此外,在所有比较方法中,RNN在预测时间上的表现最好。RTTP在DBDM上的预测时间非常接近最优,而在CAPP上则较差。原因是DBDM的规模比CAPP大,基于transformer方法的并行计算优势随着数据集规模的增加而体现出来。自注意力机制可以并行计算序列中的所有位置,而递归神经网络则逐个计算序列中的每个位置。RTTP在较小的数据集上实现了负担得起的预测时间和最佳的预测性能。我们认为RTTP在大规模数据集上的预测时间更具竞争力。
结语
本文提出了一个名为RTTP的新框架,利用基于事实的标注来预测研究主题的趋势。具体而言,首先设计了一种兼顾全局和局部信息的新颖主题对齐策略,以克服不同年份和发表场所的语义差异,并进一步获取各年度研究主题的详细内容。接着,利用一个由嵌入模块、编码器、解码器和预测模块组成的增强型预测网络EPN,捕捉已知年份的研究趋势进行预测。在两个真实数据集上的实验结果证明了所提框架的有效性。此外,本文还提供了从科学论文中获取研究主题的新视角,未来的工作可以通过涉及更丰富的信息来进一步提高提出框架的性能。考虑被引论文的差异化影响是一个值得扩展的有趣想法。在研究主题趋势预测中也应该考虑作者的影响力,因为影响力高的作者或团队更有可能引领研究领域中某个分支主题的发展。此外,受万物互联和跨学科发展的启发,了解不同研究领域之间的相互作用(如人工智能和数据挖掘)对研究主题趋势的影响可能是一个潜在的研究方向。
点击此处,免费阅读全文
作者简介
王嘉晨,女,1998年生,硕士研究生,CCF学生会员(会员号G2920G),研究方向为数据驱动的智能计算。
许佳捷,男,博士,苏州大学计算机学院教授、博士生导师。中国计算机学会数据库专委会执行委员,苏州YOCEF学术AC。主要从事数据库、数据挖掘领域研究。以第一/通讯作者身份发表CCF-A/B类国际会议与期刊论文40余篇(TKDE、PVLDB、ICDE、SIGKDD、IJCAI、AAAI等),多次获得CCF推荐会议的最佳论文奖,谷歌学术引用 2500余次,多次担任ICDE、KDD、AAAI、IJCAI、CIKM等高水平会议的SPC/PC。
陈伟,男,博士,苏州大学计算机学院副教授、硕士生导师。2015年至2016年在新加坡管理大学担任研究助理,2016年至2017年在澳大利亚昆士兰大学进行联合培养博士的学习,2018年获得苏州大学工学博士学位。目前主持国家自然科学基金项目两项,江苏省高校面上项目两项。主要研究领域包括:数据挖掘、深度学习、知识图谱等。近五年以第一/通讯作者身份发表VLDBJ、ICDE、CIKM、JCST等CCF-A/B类论文近20篇,获得2016年国际会议DASFAA最佳论文奖。曾担任AAAI、CIKM、GeoInformatica等会议期刊的审稿人。
赵雷,男,博士,苏州大学计算机学院教授、博士生导师,CCF高级会员。中国计算机学会数据库专业委员会执行委员,江苏省计算机学会软件专业委员会。近年来在ICDE、KDD、CIKM、DASFAA、VLDB Journal、TKDE、JCST等CCF-A/B类国际会议与期刊上发表论文50余篇。多次担任CIKM、DASFAA、WISE、NDBC、CCF BigData等重要学术会议程序委员会成员,长期担任TKDE、WWW Journal、JCST、计算机学报、软件学报等重要期刊审稿人。
期刊简介
Data Science and Engineering(DSE)是由中国计算机学会(CCF)主办、数据库专业委员会承办、施普林格 自然(Springer Nature)出版的Open Access期刊。为了迎合相关领域的快速发展需求,DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点,以大数据作为研究重点,征稿范畴主要包括4方面:(1)数据本身,(2)数据信息提取方法,(3)数据计算理论,和(4)用来分析与管理数据的技术和系统。
目前期刊已被EI、ESCI与SCOPUS收录,CiteScore 2021为6.4,在Computer Science Applications领域排名# 157/747(位列前21%)。稿件处理费由赞助商中新赛克(Sinovatio)承担,欢迎大家免费下载阅读期刊全文,并积极投稿。
欢迎点击此处,进入期刊主页
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!