Вплив обробки лог-файлів на швидкість навчання та точність класифікації дефектів
DOI:
https://doi.org/10.30857/2786-5371.2025.2.2Ключові слова:
регулярні вирази, лематизація, векторизація, машинне навчання, автоматизація тестуванняАнотація
Метою було дослідити вплив попередньої обробки лог-файлів автоматизованого тестування на швидкість векторизації та навчання моделей машинного навчання. Використано набір HDFS_v3_TraceBench, що містить понад 370 тисяч трасувань, зібраних у середовищі Hadoop Distributed File System. Обробка включала видалення шуму, лематизацію та зменшення дублікатів. Дані векторизовано методом Term frequency – inverse document frequency, після чого навчено модель RandomForestClassifier. Результати експериментів показали, що оптимізація вхідних даних дозволила зменшити загальний час обробки майже вп’ятеро. Час, необхідний для векторизації тексту та навчання моделі, скоротився, що дає змогу пришвидшити роботу з великими обсягами логів. При цьому точність класифікації не лише збереглася, а й продемонструвала незначне покращення: показники F1-score та коефіцієнта кореляції Метьюса залишилися стабільно високими. Також спостерігалося зниження значення Log Loss, що свідчило про підвищення впевненості моделі у власних прогнозах. Це особливо важливо в умовах незбалансованих класів, характерних для задач класифікації дефектів. Детальний аналіз виявив, що значна частина службової та повторюваної інформації в логах не є критичною для навчання моделі, а її видалення навпаки покращує якість підготовки даних. У ході роботи також було підтверджено, що отримані цільові мітки для логів відповідають типовим класам помилок. Реалізована обробка лог-файлів не лише скорочує обчислювальні витрати, але й підтримує або покращує якість прогнозування. Ці результати підтвердили доцільність включення етапу очищення та оптимізації логів у загальний процес побудови моделей машинного навчання для автоматизованого тестування. Отримані результати можуть бути інтегровані в автоматизовані пайплайни для класифікації дефектів і формування баг-репортів. Це сприятиме зменшенню обсягу ручної праці та підвищенню ефективності команд