当前位置:
X-MOL 学术
›
Eur. J. Agron.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Machine learning based on functional principal component analysis to quantify the effects of the main drivers of wheat yields
European Journal of Agronomy ( IF 4.5 ) Pub Date : 2024-06-28 , DOI: 10.1016/j.eja.2024.127254 Florent Bonneu , David Makowski , Julien Joly , Denis Allard
European Journal of Agronomy ( IF 4.5 ) Pub Date : 2024-06-28 , DOI: 10.1016/j.eja.2024.127254 Florent Bonneu , David Makowski , Julien Joly , Denis Allard
Assessing the response of crop yield to year-to-year climate variability at the field scale is often done using process-based models and regression techniques. Although powerful, these tools rely on strong assumptions and can lead to substantial prediction errors. In this study, we investigate the use of a flexible machine learning algorithm combining Functional Principal Component Analysis and Random Forest, to relate field scale wheat yield to local daily climate variables. Instead of computing seasonal, monthly or any other arbitrary time-frame climate averages, climate time series are decomposed by Functional Principal Component Analysis into a few data-driven basis functions, called Principal Curves, in order to summarize the dynamic of key climate variables by a limited number of interpretable components. Scores associated to these components are then used as inputs of a Random Forest algorithm for yield prediction and for analysing important factors responsible for yield variability. To evaluate our approach, we use a French national database including wheat yield data as well as climate and management practice data for 298 farm fields from 2011 to 2016 in four main producing regions. Depending on the regions, our approach can explain from 62 % to 81 % of the yield variability when both agronomic and climate variables are included, down to 56–81 % when ignoring agronomic variables and 51–74 % when ignoring climate variables. Based on a year-by-year cross-validation, RMSE ranges from 0.5 t ha to 2.1 t ha in non-extreme years (2012–2015). However, prediction error can reach 3.6 t ha in case of exceptional weather conditions, such as those experienced in 2016 in Northern France. We find that this new approach performs in most cases better than the same machine learning algorithm using the usual time averages of climate variables, without the need to choose an arbitrary time-frame. We then show how important patterns in weather time series can be identified and how their effects on yield can be interpreted using the proposed modelling framework.
中文翻译:
基于函数主成分分析的机器学习,以量化小麦产量主要驱动因素的影响
在田间规模上评估作物产量对逐年气候变化的响应通常是使用基于过程的模型和回归技术来完成的。尽管这些工具功能强大,但它们依赖于强有力的假设,可能会导致严重的预测错误。在本研究中,我们研究了结合函数主成分分析和随机森林的灵活机器学习算法的使用,将田间规模的小麦产量与当地日常气候变量联系起来。气候时间序列不是计算季节性、每月或任何其他任意时间范围的气候平均值,而是通过函数主成分分析将气候时间序列分解为一些数据驱动的基本函数,称为主曲线,以便通过以下方式总结关键气候变量的动态:有限数量的可解释组件。然后,与这些成分相关的分数被用作随机森林算法的输入,用于产量预测和分析导致产量变异性的重要因素。为了评估我们的方法,我们使用了法国国家数据库,其中包括 2011 年至 2016 年四个主要产区 298 个农田的小麦产量数据以及气候和管理实践数据。根据地区的不同,当同时考虑农艺和气候变量时,我们的方法可以解释 62% 至 81% 的产量变异性;当忽略农艺变量时,我们的方法可以解释 56-81% 的产量变异性;当忽略气候变量时,我们的方法可以解释 51-74% 的产量变异性。根据逐年交叉验证,非极端年份(2012-2015 年)的 RMSE 范围为 0.5 吨公顷至 2.1 吨公顷。然而,在特殊天气条件下,例如 2016 年法国北部经历的情况,预测误差可能达到 3.6 吨公顷。 我们发现,这种新方法在大多数情况下比使用气候变量的通常时间平均值的相同机器学习算法表现更好,而无需选择任意时间范围。然后,我们展示了如何识别天气时间序列中的重要模式以及如何使用所提出的建模框架来解释它们对产量的影响。
更新日期:2024-06-28
中文翻译:
基于函数主成分分析的机器学习,以量化小麦产量主要驱动因素的影响
在田间规模上评估作物产量对逐年气候变化的响应通常是使用基于过程的模型和回归技术来完成的。尽管这些工具功能强大,但它们依赖于强有力的假设,可能会导致严重的预测错误。在本研究中,我们研究了结合函数主成分分析和随机森林的灵活机器学习算法的使用,将田间规模的小麦产量与当地日常气候变量联系起来。气候时间序列不是计算季节性、每月或任何其他任意时间范围的气候平均值,而是通过函数主成分分析将气候时间序列分解为一些数据驱动的基本函数,称为主曲线,以便通过以下方式总结关键气候变量的动态:有限数量的可解释组件。然后,与这些成分相关的分数被用作随机森林算法的输入,用于产量预测和分析导致产量变异性的重要因素。为了评估我们的方法,我们使用了法国国家数据库,其中包括 2011 年至 2016 年四个主要产区 298 个农田的小麦产量数据以及气候和管理实践数据。根据地区的不同,当同时考虑农艺和气候变量时,我们的方法可以解释 62% 至 81% 的产量变异性;当忽略农艺变量时,我们的方法可以解释 56-81% 的产量变异性;当忽略气候变量时,我们的方法可以解释 51-74% 的产量变异性。根据逐年交叉验证,非极端年份(2012-2015 年)的 RMSE 范围为 0.5 吨公顷至 2.1 吨公顷。然而,在特殊天气条件下,例如 2016 年法国北部经历的情况,预测误差可能达到 3.6 吨公顷。 我们发现,这种新方法在大多数情况下比使用气候变量的通常时间平均值的相同机器学习算法表现更好,而无需选择任意时间范围。然后,我们展示了如何识别天气时间序列中的重要模式以及如何使用所提出的建模框架来解释它们对产量的影响。