面向软件工程的人工智能自动化测试方法研究

2023-12-29 02:54狄宏林

信息记录材料 2023年11期

周勇，狄宏林，吴瑕

（东莞开放大学广东东莞 523000）

0 引言

随着技术的迅速进步和软件产业的快速增长，软件测试已经成为软件开发过程中不可或缺的部分。有效的软件测试能够确保软件的质量，降低错误率，提高用户满意度，并为企业节省大量的时间和资源。然而，传统的软件测试方法面临许多挑战，例如测试工作的复杂性、高昂的人工成本和漏洞的风险。为了解决这些问题，近年来研究者和开发者开始探索将人工智能（artificial intelligence，AI）技术应用于软件测试的可能性。人工智能作为一个跨学科的领域，已经在众多领域取得了令人瞩目的成果，如计算机视觉、自然语言处理和机器学习等。这些技术和方法为自动化测试带来了新的可能性。而软件测试作为一个深入研究软件性能、功能和安全性的活动，与AI 之间有着天然的互补性。基于这种观点，本文将探讨AI 在软件自动化测试中的应用和研究进展。

1 软件测试的基本概念

1.1 软件测试的定义与目标

软件测试是一个系统化的过程，旨在验证和确保软件的行为与预期的需求和功能相匹配。这个过程需要设计和执行特定的测试用例，模拟用户或其他系统与软件交互的各种情境。通过这些交互，可以检测软件中可能存在的错误、缺陷或其他不一致之处。软件测试不仅仅是找出软件中的错误，更重要的是确保软件在各种条件下都能稳定工作，不会导致不可预期的结果或危及数据的安全性。测试还可以帮助开发团队理解软件的性能瓶颈，从而进行优化以满足用户的期望。从单一的函数或方法开始，到整个系统或应用程序，每一层都有其特定的测试方法。单元测试专注于单一的功能或方法，确保它们正确执行。集成测试则关注不同部分或模块如何协同工作。系统测试考虑的是整个系统作为一个整体的行为，而验收测试则集中于软件是否满足用户的需求和期望。

软件的复杂性意味着错误和缺陷在开发过程中是难以避免的。软件测试的目标之一是尽早、尽量多地发现这些问题，从而减少修复的时间和成本。一个早期发现的问题比在软件发布后发现的问题能更容易、更经济地修复。此外，测试有助于提高软件的质量和可靠性。一个经过充分测试的软件可以增加用户的信心，确保他们在使用该软件时不会遇到报错［1］。测试还可以为软件的进一步发展和迭代提供反馈，使开发团队更好地了解软件的强弱之处。

1.2 软件测试的主要测试方法与策略

软件测试包括多种方法和策略，每种都有其独特的目标和用途。软件测试方法通常根据测试的覆盖范围、测试的阶段或测试的目的来分类。单元测试关注于软件的最小单元，通常是一个函数或方法。在这种测试中，验证单个代码单元是否按照预期正常工作。单元测试通常是自动化的，可以频繁地运行，确保代码的改动不会导致已有功能的损坏；集成测试专注于软件的多个单元之间的交互。当多个单元组合在一起工作时，可能会出现问题，能够通过集成测试检测到。例如，两个不同的功能模块可能会因为数据不匹配或接口问题而无法正常交互，系统测试则将软件看作一个整体。此时，测试的重点不仅仅是功能，还包括性能、稳定性和其他非功能性需求。系统测试确保软件在真实环境中的行为与预期相符，验收测试是在软件即将交付给用户或客户之前进行的［2］，这种测试的重点是确保软件满足业务需求和用户的预期。通常，验收测试由非技术团队或真实的用户来执行，以确保软件的实用性和用户友好性。性能测试是一种特殊的系统测试，关注于软件在不同的环境和负载下的行为，这包括了负载测试、压力测试和稳定性测试。负载测试模拟预期的用户负载，以确保软件可以在这种负载下稳定运行。而压力测试则试图找出软件的极限，看看它在超出正常负载时的表现如何。回归测试确保新的代码更改没有对现有功能产生不良影响，每当软件被修改，都会运行回归测试来验证所有功能仍然正常。探索性测试不像其他的测试方法那样基于预定义的测试用例，测试人员使用他们的经验和直觉，自由地探索软件，寻找可能的错误和问题。安全性测试旨在发现软件中的安全漏洞和风险，这包括尝试对软件进行各种攻击，以确定其对外部威胁的抵抗能力。自动化测试使用工具和脚本来自动执行预定义的测试用例，自动化测试可以节省时间和精力，尤其是在频繁更改或大型项目中。持续集成是一种策略，要求开发人员频繁地将他们的代码更改合并到主分支，并对这些更改进行自动化测试，这确保了任何新的或现有的问题都能在早期被捕获。黑盒测试和白盒测试是两种常用的测试策略。黑盒测试只关注软件的输入和输出，而不考虑其内部工作原理。白盒测试则深入到软件的内部，使用代码、逻辑和内部结构来设计测试用例。敏捷测试是一种与敏捷软件开发方法相匹配的策略。敏捷测试要求测试人员和开发人员紧密合作，确保在每个开发迭代中都进行充分的测试。图1 展示了软件测试的具体流程［3］。

图1 软件测试的具体流程

2 人工智能的基本概念与AI 在软件测试中的应用背景

2.1 人工智能的定义与分类、应用领域

人工智能的历史可以追溯到20 世纪40 年代和50 年代。从那时起，研究人员开始探索如何让机器“思考”和“学习”。早期的AI 研究集中在符号逻辑和基本搜索算法上，但随着时间的推移，这个领域已经演变成一个多学科的交叉领域，包括计算机科学、数学、神经科学、心理学和经济学等。人工智能可以分为几个主要的类别：第一类是基于规则的系统，它们遵循预定的规则和算法来执行任务。这些系统通常在特定的应用场景中非常有效，但它们缺乏灵活性和适应性。第二类是机器学习，它允许系统从数据中学习并改进它们的性能。机器学习算法可以进一步分为监督学习、非监督学习和强化学习等子类别。第三类是神经网络和深度学习，这些技术受到人类大脑工作方式的启发，并在图像和声音识别等任务中取得了令人瞩目的成果［4］。

人工智能的应用领域广泛，在医学领域AI 可以帮助诊断疾病、预测疾病的进展和推荐治疗方案；在金融领域，算法可以预测股市的走势、帮助银行检测欺诈活动并为投资者提供投资建议；在交通领域，自动驾驶汽车和无人机使用AI 技术来导航和避免碰撞；在娱乐领域，AI 用于视频游戏的角色行为和电影的特效；此外AI 还在零售、制造、能源和农业等众多其他行业中得到了应用。

2.2 人工智能技术在自动化软件测试中的应用

人工智能在自动化软件测试中的应用已经成为一个重要的趋势，其目的是提高软件的质量和可靠性，同时降低测试的时间和成本［5］。传统的软件测试方法往往依赖于人工执行和预先定义的测试场景，但随着软件的复杂性增加和迭代速度加快，这种方法变得越来越不可行。

自动化软件测试通过模拟用户的行为来检查软件的功能和性能。与此同时，人工智能为自动化测试带来了新的可能性。例如，机器学习算法可以从大量的测试数据中学习，从而预测软件中可能存在的缺陷和故障。这种方法不仅可以提高测试的效率，还可以发现传统测试方法难以发现的问题［6］。在自动化测试中，人工智能主要用于以下几个方面：

（1）测试用例的生成：通过分析软件的代码和文档，机器学习模型可以自动生成测试用例，确保软件的每一个功能都被充分测试。这不仅可以减少测试的人工工作量，还可以提高测试的全面性。

（2）缺陷预测：机器学习模型可以从历史的缺陷数据中学习，预测软件中可能存在的缺陷。这可以帮助测试人员更有针对性地进行测试，提高测试的效果。

（3）图形用户界面（graphical user interface， GUI）测试：通过分析软件的用户界面，机器学习模型可以模拟用户的行为，自动进行点击、滑动和输入等操作，检查软件的用户界面是否正常工作。

（4）性能测试：人工智能可以模拟大量的用户并发访问软件，检查软件在高并发情况下的性能和稳定性。

（5）持续集成和持续部署：在软件的开发过程中，人工智能可以自动执行测试，确保每一次代码的提交都不会引入新的缺陷，这可以大大提高软件的开发速度和质量。

3 AI 驱动的自动化测试方法

3.1 使用自然语言处理（natural language processing，NLP）的测试用例生成

NLP 是人工智能的一个重要分支，它专注于使计算机能够理解、解释和生成人类语言。在软件测试领域，NLP的技术已经开始改变测试用例的生成方式，使其更为高效和智能。传统上，测试用例的生成是一个费时费力的过程。测试工程师需要仔细阅读需求文档，然后基于这些需求手工编写测试用例。这种方法不仅工作量大，而且容易出错。与此同时，随着软件需求的不断变化，测试用例也需要不断地进行更新，这增加了测试的复杂性。 NLP 为解决这一问题提供了新的方法。通过使用NLP 技术，系统可以自动分析软件的需求文档，提取关键信息，并基于这些信息自动生成测试用例。例如，如果需求文档中描述了一个功能为“用户应该能够在登录页面输入用户名和密码”，NLP 系统可以自动识别这一需求，并生成相应的测试用例，如“测试登录页面的用户名输入框”和“测试登录页面的密码输入框”。

除了基于需求文档的测试用例生成，NLP 还可以用于其他方面的测试用例生成。例如，NLP 可以分析用户的反馈和评论，识别其中的问题和建议，并基于这些信息生成测试用例。这可以帮助测试团队更好地理解用户的需求和期望，从而提高软件的质量。 NLP 在测试用例生成中的另一个应用是模糊测试。模糊测试是一种通过向软件输入大量随机或异常数据来检查其稳定性和安全性的测试方法。 NLP 可以自动生成这些数据，确保它们涵盖了所有可能的情况。

NLP 还可以与其他AI 技术结合，提供更高级的测试用例生成方法。例如，NLP 可以与机器学习模型结合，预测软件中可能存在的缺陷，并基于这些预测生成测试用例。这可以帮助测试团队更有针对性地进行测试，提高测试的效果。尽管NLP 为测试用例生成带来了许多好处，但它也存在一些挑战。首先，NLP 系统需要大量的数据进行训练，而获取高质量的训练数据并不容易。此外，NLP系统可能不总是完美的，它可能会误解或遗漏需求文档中的某些信息。因此，尽管NLP 可以大大提高测试用例生成的效率，但人工检查仍然是必要的。

3.2 基于强化学习的测试策略优化

强化学习是人工智能中的一个重要分支，专注于如何让机器通过与环境互动来学习和做出决策。在软件测试领域，强化学习被用于优化测试策略，使测试过程更加高效和智能。在传统的软件测试过程中，测试策略往往是基于经验和直觉来定义的。例如，测试工程师可能会优先测试最近修改过的代码，或者优先测试那些在过去发现过缺陷的模块。然而，随着软件的复杂性增加，这种基于经验的方法可能不再适用，需要更加智能的方法来优化测试策略。在基于强化学习的测试策略优化中，测试过程被视为一个决策问题。测试系统（代理）通过与软件（环境）互动，执行测试用例，并观察软件的反应。如果测试发现了缺陷，系统会得到一个正面的奖励；如果没有发现缺陷，系统可能会得到一个负面的奖励。通过这种方式，系统可以学习如何选择和执行测试用例，以最大化发现缺陷的概率。

强化学习的一个关键概念是探索与利用的权衡。在测试过程中，系统既需要探索那些未被测试过的代码和功能，也需要利用那些在过去发现过缺陷的知识。强化学习为这种权衡提供了一个框架，使系统能够根据当前的知识和环境状态做出决策。基于强化学习的测试策略优化还有其他的应用，例如，它可以用于优化模糊测试，这是一种通过向软件输入大量随机或异常数据来检查其稳定性和安全性的测试方法。强化学习可以帮助系统学习如何生成更有可能触发缺陷的输入数据；此外，强化学习还可以用于优化持续集成和持续部署中的测试策略。在这种环境中，软件经常被更新和部署，需要快速而有效的测试策略来确保软件的质量。强化学习可以帮助系统学习如何在有限的时间内选择和执行最重要的测试用例［7］。

尽管基于强化学习的测试策略优化有很多好处，但它也带来了一些挑战。首先强化学习需要大量的数据和计算资源来训练模型，其次强化学习的结果可能难以理解和解释，这给测试工程师带来了额外的困难。然而，随着技术的进步，这些问题有望得到解决。强化学习为软件测试策略优化提供了新的可能性。通过学习和做出决策，系统可以更加智能地选择和执行测试用例，提高测试的效率和质量。随着技术的进步，强化学习在软件测试中的应用会更加广泛和深入。

3.3 深度学习在GUI 测试中的应用

GUI 是软件中与用户直接交互的部分，其质量直接影响到用户的体验。因此，对GUI 的测试至关重要。深度学习，作为人工智能的一个前沿领域，已经开始在GUI 测试中展现其潜能。在传统的GUI 测试中，测试工程师需要手工定义测试用例，模拟用户的各种操作，如点击、滑动和输入。这种方法工作量大、效率低，且容易遗漏某些场景。深度学习技术为这一问题提供了新的解决方案。

深度学习可以用于自动识别GUI 中的元素，如按钮、文本框和图像。通过训练一个深度神经网络，系统可以自动定位这些元素，无须人工介入。这为自动化测试提供了基础，使系统能够模拟用户的真实操作。此外深度学习还可以用于生成测试用例。系统可以通过观察用户的真实操作，学习其行为模式，并基于这些模式自动生成测试用例。这不仅可以提高测试的效率，还可以确保测试覆盖了真实用户的所有可能操作。

在GUI 测试中，另一个重要的问题是视觉效果的测试。例如，测试工程师需要检查GUI 的布局、颜色和动画是否与设计稿相符。传统的方法是人工进行比对，但这种方法既费时又容易出错。深度学习为这一问题提供了解决方案［8］。通过训练一个卷积神经网络，系统可以自动比对GUI 的视觉效果与设计稿，检查其中的差异。这不仅可以提高测试的准确性，还可以大大减少测试的工作量。深度学习还可以用于检测GUI 中的缺陷。例如，系统可以通过学习大量的正常和异常的GUI 截图，自动识别其中的缺陷，如遮挡、错位和颜色异常，可以帮助测试团队更早地发现问题，提高软件的质量。

尽管深度学习在GUI 测试中有很多应用，但它也存在一些挑战，例如深度学习模型需要大量的数据进行训练，而获取高质量的训练数据并不容易。然而，随着技术的进步，这些问题有望得到解决。深度学习为GUI 测试提供了新的可能性。通过自动识别GUI 元素、生成测试用例和检测视觉效果，深度学习可以大大提高GUI 测试的效率和质量，随着技术的进步，深度学习在GUI 测试中的应用会更加广泛和深入。

4 AI 自动化测试的发展挑战与未来研究方向

4.1 数据的质量和数量问题

数据在AI 自动化软件测试的应用中起到了关键的作用。高质量的数据是训练和验证模型的基础，而数据的数量决定了模型的复杂性和泛化能力。但在AI 自动化测试的领域中，数据的质量和数量问题成了一个主要的挑战。首先是数据的质量，软件测试中需要的数据是准确、完整和有代表性的。但在实际应用中，测试数据往往存在噪声、遗漏和偏见。例如，测试数据可能会包含错误的标注，或者只覆盖了部分的测试场景。这种低质量的数据会导致模型的性能下降，甚至产生错误的测试结果。其次由于软件的需求和环境经常发生变化，测试数据需要不断地更新，以保持其时效性和相关性。再次是数据的数量问题，深度学习和其他AI 技术需要大量的数据来训练模型，但在软件测试的领域中，获取足够的数据并不容易。尤其是对于新的软件或功能，可能只有有限的测试数据可用，这导致模型可能会过度拟合，失去泛化能力。最后过多的数据也会带来问题，处理和存储大量的测试数据需要大量地计算和存储资源，增加了测试的成本。

数据的质量和数量问题还与其他的挑战相互关联，例如数据的隐私和安全问题。测试数据往往包含敏感的用户信息，如用户名、密码和个人信息，如何在保护数据隐私的前提下进行AI 自动化测试，是一个亟待解决的问题。此外数据的多样性和分布也是一个挑战，软件测试需要考虑各种各样的环境和场景，如不同的操作系统、浏览器和网络条件，如何确保测试数据覆盖了这些多样性，是一个重要的研究方向。

4.2 模型的可解释性与透明度

模型的可解释性与透明度在AI 自动化软件测试中的重要性逐渐上升。随着AI 模型变得越来越复杂，如何理解和解释这些模型的行为成为当下研究的关键问题。尤其在软件测试领域，模型的决策直接影响到软件的质量和安全性，因此模型的可解释性与透明度尤为重要。

模型的可解释性是指模型的决策过程可以被人类理解和解释。例如，当一个AI 测试模型发现一个缺陷时，测试工程师需要知道模型是基于哪些信息和逻辑做出这个决策的，不仅可以帮助工程师验证模型的正确性，还可以提供对缺陷的深入理解，从而更好地修复缺陷。然而当前的许多AI 模型，尤其是深度学习模型，往往被视为“黑盒”。该模型由数百万甚至数十亿的参数组成，其决策过程复杂且难以追踪，使得模型的决策难以被人类理解和解释，增加了测试的风险和不确定性。模型的透明度是指模型的结构、参数和训练数据都是公开和可访问的。透明度可以增强模型的信任度，使测试团队更有信心地使用模型。此外模型的透明度还可以帮助测试团队找到模型的潜在问题，如过度拟合和偏见，从而提高模型的质量。但在实际应用中，模型的透明度往往受到限制：一方面，模型的结构和参数可能被视为商业机密，不被公开；另一方面，模型的训练数据可能包含敏感的用户信息，如用户名、密码和个人信息，不能被公开。

4.3 测试结果的准确性与可靠性

测试结果的准确性与可靠性是AI 自动化软件测试的核心目标。当AI 技术被应用于软件测试时，测试结果不仅需要反映软件的真实状态，还需要在不同的环境和条件下保持稳定。但在实际应用中，测试结果的准确性与可靠性成为研发过程中的主要挑战。

准确性是指测试结果与软件的真实状态相符，例如当测试系统发现一个缺陷时，此缺陷确实存在于软件中，但由于各种原因，如模型的不完善、数据的噪声和测试环境的不稳定，测试结果可能会出现偏差。这种偏差可能导致真实的缺陷被遗漏，或者产生错误的报警，不仅增加了测试的工作量，还可能影响到软件的质量和安全性。可靠性是指测试结果在不同的环境和条件下保持稳定。但由于AI 模型的复杂性和非线性，测试结果可能会受到各种因素的影响，如模型的初始化、训练数据的分布和测试环境的噪声，这使得测试结果难以复现，增加了测试的不确定性。图2 展示了自动化软件测试平台的整体架构。

图2 自动化软件测试平台的架构

为了提高测试结果的准确性与可靠性，一些方法和技术已经被提出和应用。例如，集成学习和模型融合可以通过组合多个模型的预测来提高测试结果的稳定性。一方面，模型验证和交叉验证可以帮助测试团队评估模型的性能和健壮性，从而选择最合适的模型和参数。但在实际应用中，提高测试结果的准确性与可靠性还面临其他的挑战，例如，软件的需求和环境经常发生变化，测试系统需要不断地适应这些变化，以保持其准确性和可靠性。另一方面，软件的复杂性和多样性也增加了测试的难度，使得测试结果难以达到理想的标准。图3 展示了自动化软件测试平台在使用过程中的交互方式。

图3 自动化软件测试平台的交互方式

4.4 未来研究趋势与方向

AI 自动化软件测试正面临深刻的变革，其中的未来研究趋势与方向预示着一个充满机遇和挑战的新时代。随着技术的进步，新的研究领域和应用场景不断浮现。

跨领域集成正在改变AI 自动化测试的面貌，物联网、边缘计算、量子计算等技术与AI 测试结合，为软件测试带来前所未有的多元性和综合性。这种技术融合为测试提供了更广阔的应用领域，也为测试的深度和广度提供了新的空间。数据作为AI 的核心，正在成为研究的中心，如何采集、管理和利用测试数据成为关键。同时，数据的隐私和安全问题也逐渐进入人们的视野。高质量的数据不仅可以提高测试的准确性，还可以帮助模型更好地泛化到新的场景。模型验证与解释也受到了越来越多的关注，面对日益复杂的AI 模型，如何确保它们的行为是正确和可靠的成了一个大问题。研究者们正在寻找新的方法来验证和解释模型的决策过程，使其更加透明和可控。持续集成与部署不仅可以提高测试的效率，还可以确保软件的质量和稳定性。人机协同也正逐渐成为主流，结合人的经验和直觉与机器的计算能力，人机协同可以实现更加智能和高效的测试。这种协同不仅可以提高测试的效率，还可以确保测试的质量和准确性。随着技术的发展，多模态测试和绿色测试也开始受到关注。新的软件形态，如移动应用、虚拟现实和增强现实，为测试带来了新的挑战和机遇。

5 结语

综上所述，AI 自动化测试软件正走在变革的道路上。在技术的推动下，测试软件不断涉足更多的应用领域，如物联网、边缘计算和量子计算。数据作为核心，其采集、管理和利用变得尤为关键。同时，数据隐私和安全问题日益受到重视。复杂的AI 模型需要更加严格的验证和解释，以确保其决策过程的透明性和可控性。持续集成与部署正在改变软件测试的速度和效率，使其更加适应快速迭代的软件开发模式。人机协同为测试带来了新的思路和方法，结合人的经验与机器的能力，实现更智能的测试。新的软件形态和环境挑战也催生了多模态测试和绿色测试的研究。这些变革和挑战预示着AI 自动化测试软件的未来充满了无限的可能和机遇。