当前位置: X-MOL 学术J. Big Data › 论文详情
Our official English website, www.x-mol.net, welcomes your feedback! (Note: you will need to create a separate account there.)
An enhanced random forest approach using CoClust clustering: MIMIC-III and SMS spam collection application
Journal of Big Data ( IF 8.6 ) Pub Date : 2023-03-30 , DOI: 10.1186/s40537-023-00720-9
Zeynep Ilhan Taskin , Kasirga Yildirak , Cagdas Hakan Aladag

The random forest algorithm could be enhanced and produce better results with a well-designed and organized feature selection phase. The dependency structure between the variables is considered to be the most important criterion behind selecting the variables to be used in the algorithm during the feature selection phase. As the dependency structure is mostly nonlinear, making use of a tool that considers nonlinearity would be a more beneficial approach. Copula-Based Clustering technique (CoClust) clusters variables with copulas according to nonlinear dependency. We show that it is possible to achieve a remarkable improvement in CPU times and accuracy by adding the CoClust-based feature selection step to the random forest technique. We work with two different large datasets, namely, the MIMIC-III Sepsis Dataset and the SMS Spam Collection Dataset. The first dataset is large in terms of rows referring to individual IDs, while the latter is an example of longer column length data with many variables to be considered. In the proposed approach, first, random forest is employed without adding the CoClust step. Then, random forest is repeated in the clusters obtained with CoClust. The obtained results are compared in terms of CPU time, accuracy and ROC (receiver operating characteristic) curve. CoClust clustering results are compared with K-means and hierarchical clustering techniques. The Random Forest, Gradient Boosting and Logistic Regression results obtained with these clusters and the success of RF and CoClust working together are examined.



中文翻译:

使用 CoClust 聚类的增强型随机森林方法:MIMIC-III 和 SMS 垃圾邮件收集应用程序

通过精心设计和组织的特征选择阶段,可以增强随机森林算法并产生更好的结果。变量之间的依赖结构被认为是在特征选择阶段选择要在算法中使用的变量的最重要标准。由于依赖结构大多是非线性的,因此使用考虑非线性的工具将是一种更有益的方法。基于 Copula 的聚类技术 (CoClust) 根据非线性依赖关系使用 copula 对变量进行聚类。我们表明,通过将基于 CoClust 的特征选择步骤添加到随机森林技术中,可以显着提高 CPU 时间和准确性。我们使用两个不同的大型数据集,即 MIMIC-III Sepsis 数据集和 SMS 垃圾邮件收集数据集。第一个数据集在引用各个 ID 的行方面很大,而后者是一个较长的列长度数据的示例,需要考虑许多变量。在所提出的方法中,首先,在不添加 CoClust 步骤的情况下使用随机森林。然后,在使用 CoClust 获得的集群中重复随机森林。将获得的结果在 CPU 时间、准确性和 ROC(接收器操作特性)曲线方面进行比较。CoClust 聚类结果与 K 均值和层次聚类技术进行了比较。检验了使用这些集群获得的随机森林、梯度提升和逻辑回归结果,以及 RF 和 CoClust 协同工作的成功。而后者是较长列长度数据的示例,需要考虑许多变量。在所提出的方法中,首先,在不添加 CoClust 步骤的情况下使用随机森林。然后,在使用 CoClust 获得的集群中重复随机森林。将获得的结果在 CPU 时间、准确性和 ROC(接收器操作特性)曲线方面进行比较。CoClust 聚类结果与 K 均值和层次聚类技术进行了比较。检验了使用这些集群获得的随机森林、梯度提升和逻辑回归结果,以及 RF 和 CoClust 协同工作的成功。而后者是较长列长度数据的示例,需要考虑许多变量。在所提出的方法中,首先,在不添加 CoClust 步骤的情况下使用随机森林。然后,在使用 CoClust 获得的集群中重复随机森林。将获得的结果在 CPU 时间、准确性和 ROC(接收器操作特性)曲线方面进行比较。CoClust 聚类结果与 K 均值和层次聚类技术进行了比较。检验了使用这些集群获得的随机森林、梯度提升和逻辑回归结果,以及 RF 和 CoClust 协同工作的成功。将获得的结果在 CPU 时间、准确性和 ROC(接收器操作特性)曲线方面进行比较。CoClust 聚类结果与 K 均值和层次聚类技术进行了比较。检验了使用这些集群获得的随机森林、梯度提升和逻辑回归结果,以及 RF 和 CoClust 协同工作的成功。将获得的结果在 CPU 时间、准确性和 ROC(接收器操作特性)曲线方面进行比较。CoClust 聚类结果与 K 均值和层次聚类技术进行了比较。检验了使用这些集群获得的随机森林、梯度提升和逻辑回归结果,以及 RF 和 CoClust 协同工作的成功。

更新日期:2023-03-31
down
wechat
bug