通过对多个开源项目的实验,他们发现基于IR的错误分类方法具有更好的性能,还关注基于错误报告的错误分类,缺乏对运行时信息和重复数据删除的研究,
之前的工作主要以调查与错误报告,相关的相关研究为目标,相比之前的调查,这次不仅包括错误报告,还包括与运行时信息相关的研究作为分析主题,
相关调查与我们的工作之间的比较重复数据删除和分类从根本上涉及,考虑错误之间的相似性,错误特征的提取和相似度的计算,是主要的研究课题。
2010年左右,传统的文本匹配和机器学习方法,是确定相似性的主流方法,传统的文本匹配方法主要使用,基于动态规划的技术,例如最长公共子序列和最长公共子字符串。
随着时间的推移,信息检索方法开始得到广泛开发和应用,包括主题建模、模糊集和文本特征提取。
这些方法可以更准确地对,错误报告进行建模,提取特征向量,并使用相似性计算技术测量文本之间的距离。
后来得益于深度学习方法的快速发展,特别是各种神经网络模型,如基于NLP的模型,调整后的深度学习方法在大规模,相似性分析中表现出突出的效果,其他典型的神经网络模型,如CNN,也已应用于特征提取。