НАВЧАННЯ З ПІДКРІПЛЕННЯМ ДЛЯ АВТОНОМНОЇ НАВІГАЦІЇ РОБОТИЗОВАНИХ ПЛАТФОРМ В УМОВАХ НЕВИЗНАЧЕНОСТІ: РАНДОМІЗАЦІЯ ДОМЕНІВ ТА ПЕРЕНЕСЕННЯ СИМУЛЯЦІЇ В РЕАЛЬНІ УМОВИ
DOI:
https://doi.org/10.30857/2786-5371.2025.5.5Ключові слова:
навчання з підкріпленням, Proximal Policy Optimization, автономна навігація, Sim-to-Real трансфер, Domain Randomization, мобільна робототехніка, квантизація нейронних мереж, вбудовані системи, ESP32, TensorFlow Lite MicroАнотація
Мета. Розробити та експериментально оцінити ефективність системи автономної навігації для чотириколісної мобільної робототехнічної платформи на основі алгоритму Proximal Policy Optimization (PPO) з подальшим розгортанням моделі на мікроконтролері ESP32 та забезпеченням надійного Sim-to-Real трансферу в умовах невизначеного та динамічного середовища.
Методика. У дослідженні застосовано підхід глибокого навчання з підкріпленням із використанням алгоритму PPO. Проведено порівняльний аналіз із алгоритмами TD3, SAC, DDPG, A2C, Bug Algorithm та Random Policy. Оцінювання здійснювалося за показниками: успішність досягнення цілі, частота зіткнень, ефективність траєкторії, стабільність навчання (середня винагорода та стандартне відхилення).
Для подолання розриву між симуляцією та реальністю використано метод Domain Randomization із варіюванням шести фізичних параметрів: коефіцієнта тертя, маси робота, шуму гіроскопа, затримки двигунів, розміру та кількості перешкод. Нейронна мережа з архітектурою 64→32 нейрони була квантизована до формату INT8 з використанням TensorFlow Lite Micro та оптимізована для виконання на ESP32.
Результати. Алгоритм PPO продемонстрував найвищу ефективність серед усіх протестованих методів: успішність досягнення цілі 82.0%, середня винагорода — 847.3, найнижча варіативність результатів (σ = 12.3).
Статистичний аналіз підтвердив значущу перевагу PPO над альтернативними підходами (p < 0.01, Cohen’s d > 0.8). Модель після квантизації до INT8 зменшилася до 2.8 КБ при втраті точності лише 2.3%. Час інференсу на ESP32 становив 1.2 мс, що забезпечує роботу в реальному часі на ресурсно-обмеженій платформі.
Наукова новизна. Запропоновано комплексний підхід до автономної навігації з використанням PPO з інтеграцією Domain Randomization для підвищення якості Sim-to-Real трансферу.
Виконано систематичне експериментальне порівняння сучасних алгоритмів глибокого навчання з підкріпленням у задачі автономної навігації мобільного робота.
Реалізовано ефективну квантизацію моделі PPO до формату INT8 з мінімальною втратою точності та успішним розгортанням на мікроконтролері ESP32.
Практична значимість. Отримані результати демонструють можливість впровадження алгоритмів глибокого навчання з підкріпленням у реальні мобільні робототехнічні системи з обмеженими обчислювальними ресурсами. Розроблена система може бути використана у сервісній робототехніці, автономних транспортних засобах малого класу, системах моніторингу та інспекції, забезпечуючи високу надійність навігації та швидкодію в реальному часі.