当前位置:
X-MOL 学术
›
Atmos. Res.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Revitalizing temperature records: A novel framework towards continuous data reconstruction using univariate and multivariate imputation techniques
Atmospheric Research ( IF 4.5 ) Pub Date : 2024-11-02 , DOI: 10.1016/j.atmosres.2024.107754 Hanumapura Kumaraswamy Yashas Kumar, Kumble Varija
Atmospheric Research ( IF 4.5 ) Pub Date : 2024-11-02 , DOI: 10.1016/j.atmosres.2024.107754 Hanumapura Kumaraswamy Yashas Kumar, Kumble Varija
Data gaps are a recurring challenge in climate research, hindering effective time series analysis and modeling. This study proposes a novel two-step data imputation framework to address temperature time series with a long continuous gap surrounded by predictor stations with sporadic missingness. The method leverages iterative gap-filling Singular Spectrum Analysis (SSA) for the small sporadic gaps, followed by multivariate techniques like Inverse Distance Weightage (IDW), Kriging, Spatial Regression Test (SRT), Point Estimation method of Biased Sentinel Hospital-based Area Disease Estimation (P-BSHADE), Random Forest (RF), Support Vector Machines (SVM), and MissForest (MF) for the longer gap. Once the sporadic gaps are effectively addressed with SSA, the method carefully applies multivariate techniques to impute the long continuous gap. Prioritizing accuracy, comprehensive cross-validation with class-based statistical indicators are employed to minimize any potential biases introduced by the imputation process. The study shows the effectiveness of SSA in filling small sporadic gaps using an optimal window length (M ≈ 365 days) and eigentriple grouping (ET = 30). Notably, for maximum temperature, P-BSHADE and SVM achieve an impressive accuracy (e.g., Legates's Coefficient of Efficiency (LCE), 0.75∼0.44, Combined Performance Index (CPI), 6.3%∼19.1%) attributed to their ability to capture spatial and/or temporal heterogeneity. While SRT and P-BSHADE offers acceptable performance for minimum temperature (e.g., LCE, 0.51∼0.27, CPI, 0.7%∼23.7%), the study also uncovers a complex interplay between missing data, predictor stations, and autocorrelation affecting imputation accuracy. This suggests that the reduced performance of certain techniques likely stems from the decline in spatial and spatiotemporal autocorrelation between the target station and its predictors. Overall, this study presents a promising framework for handling complex missing data scenarios often encountered in climate time series analysis, paving the way for more robust and reliable analysis and modeling.
中文翻译:
振兴温度记录:使用单变量和多变量插补技术进行连续数据重建的新框架
数据缺口是气候研究中反复出现的挑战,阻碍了有效的时间序列分析和建模。本研究提出了一种新的两步数据插补框架,以解决温度时间序列,该时间序列具有较长的连续间隙,周围环绕着具有零星缺失的预测站。该方法利用迭代填隙奇异谱分析 (SSA) 来处理小的零星差距,然后使用多变量技术,如反距离权重 (IDW)、克里金法、空间回归检验 (SRT)、偏倚哨兵医院面积疾病估计的点估计方法 (P-BSHADE)、随机森林 (RF)、支持向量机 (SVM) 和 MissForest (MF) 对于较长的间隙。一旦 SSA 有效地解决了零星的差距,该方法就会仔细应用多变量技术来估算较长的连续差距。优先考虑准确性,采用基于类的统计指标的全面交叉验证,以最大限度地减少插补过程引入的任何潜在偏差。该研究表明,SSA 使用最佳窗口长度 (M ≈ 365 天) 和特征三重分组 (ET = 30) 填充小的零星空白的有效性。值得注意的是,对于最高温度,P-BSHADE 和 SVM 实现了令人印象深刻的精度(例如,Legates 效率系数 (LCE),0.75∼0.44,综合性能指数 (CPI),6.3%∼19.1%),这归因于它们捕获空间和/或时间异质性的能力。虽然 SRT 和 P-BSHADE 在最低温度下提供了可接受的性能(例如,LCE,0.51∼0.27,CPI,0.7%∼23.7%),但该研究还揭示了缺失数据、预测站和影响插补准确性的自相关之间的复杂相互作用。 这表明某些技术的性能降低可能源于目标台站与其预测器之间的空间和时空自相关性的下降。总体而言,本研究为处理气候时间序列分析中经常遇到的复杂缺失数据情景提供了一个有前途的框架,为更稳健和可靠的分析和建模铺平了道路。
更新日期:2024-11-02
中文翻译:
振兴温度记录:使用单变量和多变量插补技术进行连续数据重建的新框架
数据缺口是气候研究中反复出现的挑战,阻碍了有效的时间序列分析和建模。本研究提出了一种新的两步数据插补框架,以解决温度时间序列,该时间序列具有较长的连续间隙,周围环绕着具有零星缺失的预测站。该方法利用迭代填隙奇异谱分析 (SSA) 来处理小的零星差距,然后使用多变量技术,如反距离权重 (IDW)、克里金法、空间回归检验 (SRT)、偏倚哨兵医院面积疾病估计的点估计方法 (P-BSHADE)、随机森林 (RF)、支持向量机 (SVM) 和 MissForest (MF) 对于较长的间隙。一旦 SSA 有效地解决了零星的差距,该方法就会仔细应用多变量技术来估算较长的连续差距。优先考虑准确性,采用基于类的统计指标的全面交叉验证,以最大限度地减少插补过程引入的任何潜在偏差。该研究表明,SSA 使用最佳窗口长度 (M ≈ 365 天) 和特征三重分组 (ET = 30) 填充小的零星空白的有效性。值得注意的是,对于最高温度,P-BSHADE 和 SVM 实现了令人印象深刻的精度(例如,Legates 效率系数 (LCE),0.75∼0.44,综合性能指数 (CPI),6.3%∼19.1%),这归因于它们捕获空间和/或时间异质性的能力。虽然 SRT 和 P-BSHADE 在最低温度下提供了可接受的性能(例如,LCE,0.51∼0.27,CPI,0.7%∼23.7%),但该研究还揭示了缺失数据、预测站和影响插补准确性的自相关之间的复杂相互作用。 这表明某些技术的性能降低可能源于目标台站与其预测器之间的空间和时空自相关性的下降。总体而言,本研究为处理气候时间序列分析中经常遇到的复杂缺失数据情景提供了一个有前途的框架,为更稳健和可靠的分析和建模铺平了道路。