当前位置:
X-MOL 学术
›
ACM Comput. Surv.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
A Comprehensive Survey on Rare Event Prediction
ACM Computing Surveys ( IF 23.8 ) Pub Date : 2024-10-14 , DOI: 10.1145/3699955 Chathurangi Shyalika, Ruwan Wickramarachchi, Amit P. Sheth
ACM Computing Surveys ( IF 23.8 ) Pub Date : 2024-10-14 , DOI: 10.1145/3699955 Chathurangi Shyalika, Ruwan Wickramarachchi, Amit P. Sheth
Rare event prediction involves identifying and forecasting events with a low probability using machine learning (ML) and data analysis. Due to the imbalanced data distributions, where the frequency of common events vastly outweighs that of rare events, it requires using specialized methods within each step of the ML pipeline, i.e., from data processing to algorithms to evaluation protocols. Predicting the occurrences of rare events is important for real-world applications, such as Industry 4.0, and is an active research area in statistical and ML. This paper comprehensively reviews the current approaches for rare event prediction along four dimensions: rare event data, data processing, algorithmic approaches, and evaluation approaches. Specifically, we consider 73 datasets from different modalities (i.e., numerical, image, text, and audio), four major categories of data processing, five major algorithmic groupings, and two broader evaluation approaches. This paper aims to identify gaps in the current literature and highlight the challenges of predicting rare events. It also suggests potential research directions, which can help guide practitioners and researchers.
中文翻译:
关于罕见事件预测的全面调查
罕见事件预测涉及使用机器学习 (ML) 和数据分析来识别和预测低概率的事件。由于数据分布不平衡,常见事件的频率大大超过罕见事件的频率,因此需要在 ML 管道的每个步骤中使用专门的方法,即从数据处理到算法再到评估协议。预测罕见事件的发生对于实际应用(如工业 4.0)非常重要,并且是统计和 ML 的一个活跃研究领域。本文从罕见事件数据、数据处理、算法方法和评估方法四个维度全面综述了目前罕见事件预测的方法。具体来说,我们考虑了来自不同模态(即数字、图像、文本和音频)的 73 个数据集、四大数据处理类别、五大算法分组和两种更广泛的评估方法。本文旨在确定当前文献中的空白,并强调预测罕见事件的挑战。它还提出了潜在的研究方向,可以帮助指导从业者和研究人员。
更新日期:2024-10-14
中文翻译:
关于罕见事件预测的全面调查
罕见事件预测涉及使用机器学习 (ML) 和数据分析来识别和预测低概率的事件。由于数据分布不平衡,常见事件的频率大大超过罕见事件的频率,因此需要在 ML 管道的每个步骤中使用专门的方法,即从数据处理到算法再到评估协议。预测罕见事件的发生对于实际应用(如工业 4.0)非常重要,并且是统计和 ML 的一个活跃研究领域。本文从罕见事件数据、数据处理、算法方法和评估方法四个维度全面综述了目前罕见事件预测的方法。具体来说,我们考虑了来自不同模态(即数字、图像、文本和音频)的 73 个数据集、四大数据处理类别、五大算法分组和两种更广泛的评估方法。本文旨在确定当前文献中的空白,并强调预测罕见事件的挑战。它还提出了潜在的研究方向,可以帮助指导从业者和研究人员。