Часть экосистемы Forge DevKit
◇ forge-qa
Тесты с прослеживаемостью к требованиям
Проблема
AI пишет тесты, которые ничего не тестируют
Unit-тесты фейковые. Используют моковые данные. Тесты проходят, но не проверяют реальное поведение.
Нет связи с требованиями
Невозможно определить, какой тест покрывает какой критерий приемки. Пробелы невидимы.
Тестовая стратегия - последняя мысль
AI генерирует случайные тесты. Нет плана покрытия, нет приоритизации, нет консистентности фреймворка.
Как это работает
Настройка
Тестовый аудитор сканирует проект: фреймворк, паттерны, инструменты покрытия, уровень зрелости.
Генерация
Из продуктовых артефактов или анализа кода - unit, integration, component, E2E и acceptance тесты.
Прослеживаемость
4 уровня: AC→unit, UC→E2E, UX→component. Каждый тест привязан к требованию.
Оценка
LLM-as-Judge оценивает качество тестов по рубрикам. Ловит фейковые моки и бессмысленные ассерты.
Ключевые возможности
◇4 уровня прослеживаемости
AC→unit-тесты, UC→E2E-тесты, UX→компонентные тесты, LLM-as-Judge для качества.
◇8+ тестовых фреймворков
Vitest, Jest, Playwright, Cypress, Testing Library, Supertest и другие. Автодетекция.
◇LLM-as-Judge
Оценка по рубрикам ловит фейковые тесты, бессмысленные моки и пропущенные крайние случаи.
◇Интеграция с продуктовыми артефактами
Если артефакты forge-product есть - тесты генерируются из требований. Без них - из анализа кода.
◇10 режимов выполнения
Unit, integration, component, E2E, acceptance, coverage, plan, generate, quality, upgrade.
forge-qa vs Virtuoso / TestSprite
Смотрите полное сравнение для деталей.
| Критерий | Virtuoso / TestSprite | Forge DevKit |
|---|---|---|
| Источник тестов | AI угадывает по коду | Прослеживаемость к критериям приемки и use cases |
| Проверка качества | Нет - тесты просто должны пройти | LLM-as-Judge оценивает по рубрикам |
| Карта покрытия | Только покрытие строк | Матрица прослеживаемости требований |