当前位置:
X-MOL 学术
›
J. Netw. Comput. Appl.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Node and relevant data selection in distributed predictive analytics: A query-centric approach
Journal of Network and Computer Applications ( IF 7.7 ) Pub Date : 2024-09-19 , DOI: 10.1016/j.jnca.2024.104029 Tahani Aladwani, Christos Anagnostopoulos, Kostas Kolomvatsos
Journal of Network and Computer Applications ( IF 7.7 ) Pub Date : 2024-09-19 , DOI: 10.1016/j.jnca.2024.104029 Tahani Aladwani, Christos Anagnostopoulos, Kostas Kolomvatsos
Distributed Predictive Analytics (DPA) refers to constructing predictive models based on data distributed across nodes. DPA reduces the need for data centralization, thus, alleviating concerns about data privacy, decreasing the load on central servers, and minimizing communication overhead. However, data collected by nodes are inherently different; each node can have different distributions, volumes, access patterns, and features space. This heterogeneity hinders the development of accurate models in a distributed fashion. Many state-of-the-art methods adopt random node selection as a straightforward approach. Such method is particularly ineffective when dealing with data and access pattern heterogeneity, as it increases the likelihood of selecting nodes with low-quality or irrelevant data for DPA. Consequently, it is only after training models over randomly selected nodes that the most suitable ones can be identified based on the predictive performance. This results in more time and resource consumption, and increased network load. In this work, holistic knowledge of nodes’ data characteristics and access patterns is crucial. Such knowledge enables the successful selection of a subset of suitable nodes for each DPA task (query) before model training. Our method engages the most suitable nodes by predicting their relevant distributed data and learning predictive models per query. We introduce a novel DPA query-centric mechanism for node and relevant data selection. We contribute with (i) predictive selection mechanisms based on the availability and relevance of data per DPA query and (ii) various distributed machine learning mechanisms that engage the most suitable nodes for model training. We evaluate the efficiency of our mechanism and provide a comparative assessment with other methods found in the literature. Our experiments showcase that our mechanism significantly outperforms other approaches being applicable in DPA.
中文翻译:
分布式预测分析中的节点和相关数据选择:一种以查询为中心的方法
分布式预测分析 (DPA) 是指基于跨节点分布的数据构建预测模型。DPA 减少了对数据集中化的需求,从而减轻了对数据隐私的担忧,减少了中央服务器的负载,并最大限度地减少了通信开销。但是,节点收集的数据本质上是不同的;每个节点可以具有不同的分布、卷、访问模式和功能空间。这种异构性阻碍了以分布式方式开发准确的模型。许多最先进的方法采用随机节点选择作为一种简单的方法。这种方法在处理数据和访问模式异构性时尤其无效,因为它增加了为 DPA 选择具有低质量或不相关数据的节点的可能性。因此,只有在对随机选择的节点进行训练模型后,才能根据预测性能确定最合适的节点。这会导致更多的时间和资源消耗,并增加网络负载。在这项工作中,全面了解节点的数据特征和访问模式至关重要。通过这些知识,可以在模型训练之前为每个 DPA 任务(查询)成功选择合适节点的子集。我们的方法通过预测节点的相关分布式数据并学习每个查询的预测模型来吸引最合适的节点。我们引入了一种新颖的以 DPA 查询为中心的机制,用于节点和相关数据的选择。我们贡献了 (i) 基于每个 DPA 查询数据的可用性和相关性的预测选择机制,以及 (ii) 各种分布式机器学习机制,这些机制使用最适合模型训练的节点。 我们评估了我们机制的效率,并与文献中的其他方法进行了比较评估。我们的实验表明,我们的机制明显优于适用于 DPA 的其他方法。
更新日期:2024-09-19
中文翻译:
分布式预测分析中的节点和相关数据选择:一种以查询为中心的方法
分布式预测分析 (DPA) 是指基于跨节点分布的数据构建预测模型。DPA 减少了对数据集中化的需求,从而减轻了对数据隐私的担忧,减少了中央服务器的负载,并最大限度地减少了通信开销。但是,节点收集的数据本质上是不同的;每个节点可以具有不同的分布、卷、访问模式和功能空间。这种异构性阻碍了以分布式方式开发准确的模型。许多最先进的方法采用随机节点选择作为一种简单的方法。这种方法在处理数据和访问模式异构性时尤其无效,因为它增加了为 DPA 选择具有低质量或不相关数据的节点的可能性。因此,只有在对随机选择的节点进行训练模型后,才能根据预测性能确定最合适的节点。这会导致更多的时间和资源消耗,并增加网络负载。在这项工作中,全面了解节点的数据特征和访问模式至关重要。通过这些知识,可以在模型训练之前为每个 DPA 任务(查询)成功选择合适节点的子集。我们的方法通过预测节点的相关分布式数据并学习每个查询的预测模型来吸引最合适的节点。我们引入了一种新颖的以 DPA 查询为中心的机制,用于节点和相关数据的选择。我们贡献了 (i) 基于每个 DPA 查询数据的可用性和相关性的预测选择机制,以及 (ii) 各种分布式机器学习机制,这些机制使用最适合模型训练的节点。 我们评估了我们机制的效率,并与文献中的其他方法进行了比较评估。我们的实验表明,我们的机制明显优于适用于 DPA 的其他方法。