作者 | 吴史文、张远行、高成良、边凯归、崔斌,北京大学计算机系
移动设备和定位技术的进步显著提高了移动网络中基于位置的服务(Location-based Service, LBS)的准确性。工业界试图基于用户的历史到访记录挖掘用户兴趣,进而为用户更好地推荐未来可能感兴趣的到访地点(Point-of-Interest, POI),从而提高商业收益。但大多数情况下,LBS相关应用无法获取用户画像和POI的特征信息。因此基于用户历史到访序列和POI的经纬度信息的精确的POI推荐,有重大的实际应用价值,也受到了学者的广泛关注。考虑到POI的时空属性,POI推荐的核心是如何有效地建模不同POI之间的地理影响,捕捉到访历史中的序列转移信息以及用户对POI的一般偏好。目前的研究中,一些研究采用POI之间的距离关系来度量地理影响但忽视了序列信息,另一些研究采用循环神经网络捕捉序列信息,却忽略了地理影响。所以充分地综合利用地理影响、到访序列和交互信息,对于更有效的POI推荐有重要影响。
北京大学计算机系崔斌教授所带领的团队针对POI特有的时空属性,提出了一种综合利用协同过滤信息和时空信息的基于图神经网络的POI推荐模型,可以进一步显著提升POI推荐上的效果。具体而言,模型设计了图神经网络捕捉地点间的地理影响,利用结合注意力机制的序列网络捕捉到访序列的移动模式,基于协同偏好模块刻画用户对POI的基本偏好。主要内容发表于 Data Science and Engineering 上的 GARG: Anonymous Recommendation of Point-of-Interest in Mobile Networks by Graph Convolution Network 论文中。
模型设计
时空信息在POI推荐中起着至关重要的作用。在较短时间内,用户的轨迹总是集中在较小的区域内。一般POI推荐中有三类重要的信息:(1)地理信息,鉴于用户到访地点的聚集现象,POI之间的距离信息可以反应POI之间的地理影响;(2)序列信息,用户到访历史构成一个序列,该序列隐含了用户兴趣的转变,核心活动区域转移等信息;(3)协同信息,通过用户曾到访的POI推断用户的基础偏好。
为了充分利用地理影响、到访序列和交互信息,作者提出了基于图神经网络和注意力机制的POI推荐模型—GARG。图1展示了该模型的核心框架,具体包含协同偏好和地理偏好两个模块:(1)协同偏好模块,旨在刻画用户对POI的基础偏好,认为每个用户有静态的基础兴趣,每个POI有对应的基础特征,两者的余弦相似度反应用户对POI的基础偏好;(2)地理偏好模块,包含序列信息的刻画和地理影响的建模。
图1. 基于图神经网络的POI推荐模型(GARG)框架,包含地理偏好模块和协同偏好模块
对于历史到访序列,模型采用了结合注意力机制的门控循环神经网络(GRU)来捕捉序列偏好和活动范围。循环神经网络被广泛用于建模序列,但其局限性在于无法过滤序列中可能不重要的节点信息。为了克服这一局限性,模型利用注意力机制区分不同位置的POI的重要性,从而加权各位置的表征得到整体的序列表征。该表征反映了用户近期的兴趣偏好以及活动范围。对于地理信息,考虑到用户更可能访问曾经去过的地方的周围的POI,建模POI之间的地理影响是十分重要的。由于POI的经纬度是唯一可获得的信息,因此POI之间的距离信息是刻画POI之间相关性的重要信息。POI的邻里关系可以看作是图结构,而图神经网络与传统图学习方法相比,能够得到包含邻居影响的语义更丰富的节点表征,在刻画图结构数据有较大的优势。
GARG基于POI之间的距离构造了地理图的邻接矩阵,在此基础上,用两层图卷积神经网络学习POI表征。在每一层图卷积神经网络上,中心节点的表征会被该节点自身和邻居节点的整合表征所更新。因此,图神经网络结构使得最终的POI表征融合了邻居节点的影响,使得相邻的POI之间会有语义上的相似性。最终包含邻域语义的POI表征和到访序列的整合表征的相似性,从序列角度刻画了用户到访该POI的可能性。最终用户访问POI的意图强弱是协同偏好和地理偏好两部分的加权结果。此外,考虑到实际可获得的只有用户到访的正样本,GARG采用随机负采样的方式与正样本进行配对训练。
实验结果
为了评估模型的效果,作者在三个公开数据集(Gowalla、Foursquare和Brightkite)上进行了实验。实验结果(图2)表明,与现有方法相比,GARG有较好的表现,尤其对于用户历史到访相对丰富的Gowalla数据集,GARG的优越性更加明显。在历史序列较为丰富时,结合注意力机制的GRU结构能够较为充分地得到训练,序列信息能够被更好被捕捉。
图2. Gowalla数据集上各个对比方法的实验结果
总结
移动设备上的基于位置的相关服务应用极大地便利了人们的日常生活,而用户的满意度一定程度上依赖于应用对未来用户到访地点的推荐。作者提出了一个端到端的模型,综合利用了历史到访序列、地理距离和交互信息,来刻画用户对POI的固定偏好及根据用户近期活动范围和兴趣到访POI的可能性。在多个数据集上,对比现有方法,模型效果都得到了进一步的提升。该研究得到了国家自然基金和北大-百度基金等的支持。
作者简介
崔斌,北京大学计算机系长江学者特聘教授,担任计算机系副主任、网络与信息系统研究所所长。主要研究领域包括数据库系统、大数据管理与分析等,在相关领域重要会议与期刊发表论文100余篇。担任中国计算机学会数据库专委会副主任,VLDB理事会理事,IEEE TKDE、VLDB Journal等期刊编委,SIGMOD、VLDB、KDD等国际会议程序委员会委员。曾获微软青年教授奖、CCF青年科学家奖、教育部自然科学二等奖等。
期刊简介(点击进入期刊主页)
Data Science and Engineering(DSE)是由中国计算机学会(CCF)主办、数据库专业委员会承办、施普林格 自然(Springer Nature)出版的 Open Access 期刊。为了迎合相关领域的快速发展需求,DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点,以大数据作为研究重点,主要涉及4方面:(1)数据本身,(2)数据信息提取方法,(3)数据计算理论,和(4)用来分析与管理数据的技术和系统。
目前期刊已被SCOPUS收录(CiteScore2019为4.4,在Computer Science Applications领域排名#174/636,72nd Percentile),所有出版费用均由协会和赞助商承担,欢迎大家免费下载阅读期刊全文,并积极投稿。
© 2020 Springer, part of Springer Nature.
All Rights Reserved.
如果篇首注明了授权来源,任何转载需获得来源方的许可!如果篇首未特别注明出处,本文版权属于 X-MOL ( x-mol.com ), 未经许可,谢绝转载!