当前位置:
X-MOL 学术
›
IEEE Trans. Softw. Eng.
›
论文详情
Our official English website, www.x-mol.net, welcomes your
feedback! (Note: you will need to create a separate account there.)
Predicting the First Response Latency of Maintainers and Contributors in Pull Requests
IEEE Transactions on Software Engineering ( IF 6.5 ) Pub Date : 2024-08-13 , DOI: 10.1109/tse.2024.3443741 SayedHassan Khatoonabadi 1 , Ahmad Abdellatif 2 , Diego Elias Costa 1 , Emad Shihab 1
IEEE Transactions on Software Engineering ( IF 6.5 ) Pub Date : 2024-08-13 , DOI: 10.1109/tse.2024.3443741 SayedHassan Khatoonabadi 1 , Ahmad Abdellatif 2 , Diego Elias Costa 1 , Emad Shihab 1
Affiliation
The success of a Pull Request (PR) depends on the responsiveness of the maintainers and the contributor during the review process. Being aware of the expected waiting times can lead to better interactions and managed expectations for both the maintainers and the contributor. In this paper, we propose a machine-learning approach to predict the first response latency of the maintainers following the submission of a PR, and the first response latency of the contributor after receiving the first response from the maintainers. We curate a dataset of 20 large and popular open-source projects on GitHub and extract 21 features to characterize projects, contributors, PRs, and review processes. Using these features, we then evaluate seven types of classifiers to identify the best-performing models. We also conduct permutation feature importance and SHAP analyses to understand the importance and the impact of different features on the predicted response latencies. We find that our CatBoost models are the most effective for predicting the first response latencies of both maintainers and contributors. Compared to a dummy classifier that always returns the majority class, these models achieved an average improvement of 29% in AUC-ROC and 51% in AUC-PR for maintainers, as well as 39% in AUC-ROC and 89% in AUC-PR for contributors across the studied projects. The results indicate that our models can aptly predict the first response latencies using the selected features. We also observe that PRs submitted earlier in the week, containing an average number of commits, and with concise descriptions are more likely to receive faster first responses from the maintainers. Similarly, PRs with a lower first response latency from maintainers, that received the first response of maintainers earlier in the week, and containing an average number of commits tend to receive faster first responses from the contributors. Additionally, contributors with a higher acceptance rate and a history of timely responses in the project are likely to both obtain and provide faster first responses. Moreover, we show the effectiveness of our approach in a cross-project setting. Finally, we discuss key guidelines for maintainers, contributors, and researchers to help facilitate the PR review process.
中文翻译:
预测 Pull Request 中 Maintainer 和 Contributors 的首次响应延迟
拉取请求 (PR) 的成功取决于维护者和贡献者在审查过程中的响应能力。了解预期的等待时间可以为维护者和贡献者带来更好的互动和管理期望。在本文中,我们提出了一种机器学习方法来预测维护者在提交 PR 后的首次响应延迟,以及贡献者在收到维护者的第一个响应后的首次响应延迟。我们在 GitHub 上策划了一个包含 20 个大型热门开源项目的数据集,并提取了 21 个特征来描述项目、贡献者、PR 和审查流程。然后,利用这些功能,我们评估了七种类型的分类器,以确定性能最佳的模型。我们还进行了排列特征重要性和 SHAP 分析,以了解不同特征对预测响应延迟的重要性和影响。我们发现我们的 CatBoost 模型对于预测维护者和贡献者的首次响应延迟最有效。与始终返回多数类的虚拟分类器相比,这些模型在维护者的 AUC-ROC 和 AUC-PR 方面实现了 29% 的平均改进,在研究项目中为贡献者实现了 39% 的 AUC-ROC 和 89% 的 AUC-PR 改进。结果表明,我们的模型可以使用选定的特征恰当地预测第一响应延迟。我们还观察到,在本周早些时候提交的 PR,包含平均提交数量,并且描述简洁,更有可能更快地从维护者那里收到第一回复。 同样,维护者首次响应延迟较低、在本周早些时候收到维护者首次响应且包含平均提交数量的 PR 往往会更快地从贡献者那里收到首次响应。此外,接受率较高且在项目中有及时回复历史的贡献者可能会获得并提供更快的第一回复。此外,我们在跨项目环境中展示了我们的方法的有效性。最后,我们讨论了维护者、贡献者和研究人员的关键指导方针,以帮助促进 PR 审查过程。
更新日期:2024-08-13
中文翻译:
预测 Pull Request 中 Maintainer 和 Contributors 的首次响应延迟
拉取请求 (PR) 的成功取决于维护者和贡献者在审查过程中的响应能力。了解预期的等待时间可以为维护者和贡献者带来更好的互动和管理期望。在本文中,我们提出了一种机器学习方法来预测维护者在提交 PR 后的首次响应延迟,以及贡献者在收到维护者的第一个响应后的首次响应延迟。我们在 GitHub 上策划了一个包含 20 个大型热门开源项目的数据集,并提取了 21 个特征来描述项目、贡献者、PR 和审查流程。然后,利用这些功能,我们评估了七种类型的分类器,以确定性能最佳的模型。我们还进行了排列特征重要性和 SHAP 分析,以了解不同特征对预测响应延迟的重要性和影响。我们发现我们的 CatBoost 模型对于预测维护者和贡献者的首次响应延迟最有效。与始终返回多数类的虚拟分类器相比,这些模型在维护者的 AUC-ROC 和 AUC-PR 方面实现了 29% 的平均改进,在研究项目中为贡献者实现了 39% 的 AUC-ROC 和 89% 的 AUC-PR 改进。结果表明,我们的模型可以使用选定的特征恰当地预测第一响应延迟。我们还观察到,在本周早些时候提交的 PR,包含平均提交数量,并且描述简洁,更有可能更快地从维护者那里收到第一回复。 同样,维护者首次响应延迟较低、在本周早些时候收到维护者首次响应且包含平均提交数量的 PR 往往会更快地从贡献者那里收到首次响应。此外,接受率较高且在项目中有及时回复历史的贡献者可能会获得并提供更快的第一回复。此外,我们在跨项目环境中展示了我们的方法的有效性。最后,我们讨论了维护者、贡献者和研究人员的关键指导方针,以帮助促进 PR 审查过程。