THE EFFECT OF TRAINING SAMPLE SIZE ON THE STABILITY OF CLASSIFICATION MODELS

Владислав ПИЛИПЕНКО

doi:10.30857/2786-5371.2025.6.3

Автор(и)

Владислав ПИЛИПЕНКО Київський національний університет технологій та дизайну, Україна

DOI:

https://doi.org/10.30857/2786-5371.2025.6.3

Ключові слова:

розмір навчальної вибірки, стабільність моделей, класифікація, машинне навчання, крива навчання, алгоритми машинного навчання, ансамблеві методи, Python

Анотація

Мета. Дослідження спрямоване на комплексний аналіз впливу розміру навчальної вибірки на стабільність моделей класифікації та визначення оптимальних стратегій вибору розміру вибірки для різних типів алгоритмів машинного навчання. Метою роботи є розробка методології оцінки стабільності моделей залежно від обсягу навчальних даних та визначення рекомендацій щодо вибору оптимального розміру вибірки для досягнення високої стабільності та узагальнюючої здатності моделей класифікації.

Методика. Методика дослідження ґрунтується на експериментальному аналізі продуктивності та стабільності різних типів моделей класифікації (логістична регресія, Random Forest, Gradient Boosting, нейронні мережі) при навчанні на вибірках різного розміру (від 100 до 10000 прикладів). Оцінка стабільності моделей виконується за допомогою метрик коефіцієнта варіації точності, дисперсії точності та інтерквантильного розмаху при множинному навчанні моделей на різних підмножинах даних. Застосовано методи аналізу кривих навчання для визначення точок насичення, оцінки складності моделей та прогресивної кросс-валідації. Досліджено ефективність методів підвищення стабільності, включаючи техніки аугментації даних, регуляризацію та ансамблеві методи.

Результати. Експериментальні результати демонструють значну залежність стабільності моделей класифікації від розміру навчальної вибірки. Для простих лінійних моделей (логістична регресія) стабільна продуктивність досягається при розмірі вибірки близько 2000-3000 прикладів, тоді як для складних моделей (нейронні мережі) потрібно 5000-10000 прикладів. Коефіцієнт варіації точності зменшується зі збільшенням розміру вибірки: для логістичної регресії з 0.25 до 0.08, для Random Forest з 0.18 до 0.05, для Gradient Boosting з 0.15 до 0.04, для нейронних мереж з 0.22 до 0.06. Виявлено, що техніки аугментації даних дозволяють знизити коефіцієнт варіації на 52-68% при малих розмірах вибірок, а ансамблеві методи забезпечують стабільність з коефіцієнтом варіації менше 0.05 навіть для вибірок розміру 500 прикладів. Встановлено вплив дисбалансу класів та розмірності простору ознак на стабільність моделей, що потребує корекції оптимального розміру вибірки.

Наукова новизна. Розроблено комплексну методологію оцінки стабільності моделей класифікації залежно від розміру навчальної вибірки, що включає теоретичний аналіз залежності між розміром вибірки та дисперсійною компонентою помилки узагальнення, емпіричні методи визначення точок насичення та порівняльний аналіз ефективності різних методів підвищення стабільності. Вперше систематично досліджено вплив дисбалансу класів та розмірності простору ознак на залежність між розміром вибірки та стабільністю моделей. Розроблено класифікацію моделей за залежністю від розміру навчальної вибірки з урахуванням типу алгоритму, складності моделі та характеру даних.

Практична значимість. Отримані результати дозволяють обґрунтувати вибір оптимального розміру навчальної вибірки для конкретної задачі класифікації залежно від типу алгоритму, складності моделі та характеру даних. Розроблені рекомендації можуть бути застосовані у різних галузях, де потрібна висока стабільність моделей класифікації, включаючи медичну діагностику, фінансовий аналіз, кібербезпеку та академічну успішність. Методика визначення оптимального розміру вибірки дозволяє оптимізувати використання обчислювальних ресурсів та забезпечити високу надійність результатів класифікації в умовах обмежених навчальних даних.

Завантаження

Дані завантаження ще не доступні.

Біографія автора

Владислав ПИЛИПЕНКО, Київський національний університет технологій та дизайну, Україна

Phd Student, Department of Information and Computer Technologies

https://orcid.org/0000-0002-2761-4817

Scopus Author ID: 58089336700

ВПЛИВ РОЗМІРУ НАВЧАЛЬНОЇ ВИБІРКИ НА СТАБІЛЬНІСТЬ МОДЕЛЕЙ КЛАСИФІКАЦІЇ

Автор(и)

DOI:

Ключові слова:

Анотація

Завантаження

Біографія автора

Владислав ПИЛИПЕНКО, Київський національний університет технологій та дизайну, Україна

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Статті цього автора (авторів), які найбільше читають

Мова