王竹卿教授团队Micromachines：一种通过PCA和SMOTE算法增强气体传感器数据分类能力的方法 - 课题组新闻

一、研究介绍

近日，四川大学机械工程学院王竹卿教授团队在小样本气体传感器数据分类领域取得了重要进展，提出了一种结合主成分分析（PCA）和合成少数类过采样技术（SMOTE）算法的数据分类方法。该方法通过提升机器学习算法的分类准确性，有效解决了小样本、高维气体数据分类的难题。相关研究成果以题为“An Enhanced Gas Sensor Data Classification Method Using Principal Component Analysis and Synthetic Minority Over-Sampling Technique Algorithms”的论文，发表在期刊《Micromachines》上（川大D刊，IF=3.5）。论文的第一作者为曾显彰，通讯作者为王竹卿教授。

图1 气体传感器数据采集以及分类流程图

二、研究内容

气体传感器是人机交互中不可或缺的组件，用于模拟机器人嗅觉功能。然而，复杂的传感器信号数据和有限的样本数量对分类准确性提出了巨大挑战。本研究针对这一问题，结合机器学习技术与数据增强方法，提出了以下关键改进：

主成分分析（PCA）：用于降维处理，提取关键数据特征，显著提升分类效率。
SMOTE算法：通过插值生成少数类数据点，平衡数据集，优化模型性能。
分类器选择：利用支持向量机（SVM）与K最近邻（KNN）算法，在小样本条件下实现高效分类。

实验结果表明，结合PCA与SMOTE的框架能够将SVM的分类准确性提升25.2%，并将KNN的准确性提高至接近100%。该研究还通过生成合成样本和降维技术，显著改善了少样本数据集的适用性，为气体分类任务提供了更高的可靠性。

图2 不同分类技术的ROC曲线和AUC值

三、结论和展望

研究表明，结合PCA和SMOTE的数据分类框架能够显著提升气体传感器数据的分类效率，为小样本、复杂数据环境下的可靠性提供了新方法。未来，该方法有望广泛应用于高维、小样本数据场景，例如化学传感、环境监测以及生物医学传感器的开发。