大气污染对人类有重要的健康效应,长期的大气污染物监测对于制定空气质量管理政策和评估其对公共健康的影响至关重要,同时解耦并量化气象条件和人为排放对大气污染物长期变化的贡献有助于评估政策和防控措施的减排成效。然而,不同监测站进行大气污染物长期观测过程中不可避免地会遇到仪器故障、操作失误等不可控因素导致观测数据缺失,进而影响空气污染物长期趋势的分析,并阻碍污染防控成效的评估。经过了多年的大气污染防治工作,珠三角地区在空气污染治理工作取得长足的进步,特别是在污染减排上取得有目共睹的成绩。为了更好地评估长期的减排政策和措施对空气质量变化的影响,我们有必要量化出人为排放对大气污染物变化的贡献量,从而可以更清晰地反映防治工作的成效和排放贡献的变化规律,为将来防治工作的开展和政策制定提供科学依据。
近年来,机器学习算法技术不断迭代发展,机器学习广泛且有效地应用在大气环境的研究中。为了解决长期观测中数据缺失的痛点问题,本研究提出了一种基于机器学习模型重建相邻站点缺失的大气污染物数据的方法,位于珠江三角洲(PRD)地区的三个相邻监测站(南村站(NC)、吉祥路站(JXL)和番禺中学站(PYZX))的每小时观测数据被用于空气质量数据反演,其中NC的数据为2006-2015年, PYZX的数据为2011-2022年,JXL 的数据为2014-2015年,NC和PYZX重叠的数据(2011年1月-2015年12月)以及NC和JXL重叠的数据(2014年5月-2015年12月)被用于训练和评估机器学习模型。通过一组评估指标对11种算法(CatBoost、XGBoost、LightGBM、LightGBMXT、LightGBMLarge、RandomForestMSE、ExtraTreeMSE、NeuralNetTorch、NeuralNetFastAI、KNeighborsDwast和KNeighborsUnif)在反演大气污染物(包括O3、NO2、PM2.5、PM10和SO2)方面的性能进行了基准测试。CatBoost表现最佳,因此被用于NC(2016-2022年)和PYZX(2008-2010年)的空气污染物数据反演。另外,本研究获取了2011-2022年PYZX大气污染物的观测数据并基于机器学习模型分析了气象条件和人为排放对PYZX大气污染物的影响贡献,量化了人为排放贡献的年际变化和长期变化率。
在相邻站点空气质量数据反演中,CatBoost 在11种模型的综合表现中脱颖而出,在NCPYZX情景(即使用PYZX数据作为输入进行NC空气质量数据重建)污染物的反演结果与观测值的R2(相关系数)处于0.72~0.90,RMSE(均方根误差)为4.25 ~ 7.74 ppb(PM为9.38 ~ 13.80 μg m-3),MB(平均偏差)为0.03 ~ 0.18 ppb (PM为0.07 ~ 0.10 μg m-3)。CatBoost模型的评估指标达到最优,其被用于NC(2016-2022年)和PYZX(2008-2010年)的空气污染物数据反演。通过将观测数据和反演数据相结合,获得了NC的长期大气污染物数据(2006-2022年)。在过去的15年中,NC的O3浓度以0.83±0.21 ppb a-1(3.2% a-1)速率增加了72%;相反,NO2、PM2.5和PM10降低了61%、51%和42%,其年变化率分别为-1.27±0.06 ppb a-1(-5.9% a-1)、-1.96±0.12 μg m-3 a-1(-5.8% a-1)和-2.32±0.20 μg m-3 a-1(-5.2% a-1)。SO2表现出最显著的下降趋势(79%),其中2008-2012年和2012-2022年的减少率分别为-4.10±0.31 ppb a-1(-27.4% a-1)和-0.40±0.04 ppb a-1(-6.2% a-1)。
文献信息:
Wu, B., Wu, C.*, Ye, Y., Pei, C., Deng, T., Li, Y. J., Lu, X., Wang, L., Hu, B., Li, M., and Wu, D.: Long-term hourly air quality data bridging of neighboring sites using automated machine learning: A case study in the Greater Bay area of China, Atmos. Environ., 321, 120347, doi: https://doi.org/10.1016/j.atmosenv.2024.120347,2024.