REINFORCEMENT LEARNING FOR AUTONOMOUS NAVIGATION OF ROBOTIC PLATFORMS UNDER UNCERTAINTY: DOMAIN RANDOMIZATION AND SIM-TO-REAL TRANSFER

Владислав ПИЛИПЕНКО; Владислава СКІДАН; Антоніна ВОЛІВАЧ; Олена МИТЕЛЬСЬКА; Вадим АФТАНДІЛЯНЦ

doi:10.30857/2786-5371.2025.5.5

Автор(и)

Владислав ПИЛИПЕНКО Київський національний університет технологій та дизайну, Україна
Владислава СКІДАН Київський національний університет технологій та дизайну, Україна
Антоніна ВОЛІВАЧ Київський національний університет технологій та дизайну, Україна
Олена МИТЕЛЬСЬКА Київський національний університет технологій та дизайну, Україна
Вадим АФТАНДІЛЯНЦ Київський національний університет технологій та дизайну, Україна

DOI:

https://doi.org/10.30857/2786-5371.2025.5.5

Ключові слова:

навчання з підкріпленням, Proximal Policy Optimization, автономна навігація, Sim-to-Real трансфер, Domain Randomization, мобільна робототехніка, квантизація нейронних мереж, вбудовані системи, ESP32, TensorFlow Lite Micro

Анотація

Мета. Розробити та експериментально оцінити ефективність системи автономної навігації для чотириколісної мобільної робототехнічної платформи на основі алгоритму Proximal Policy Optimization (PPO) з подальшим розгортанням моделі на мікроконтролері ESP32 та забезпеченням надійного Sim-to-Real трансферу в умовах невизначеного та динамічного середовища.

Методика. У дослідженні застосовано підхід глибокого навчання з підкріпленням із використанням алгоритму PPO. Проведено порівняльний аналіз із алгоритмами TD3, SAC, DDPG, A2C, Bug Algorithm та Random Policy. Оцінювання здійснювалося за показниками: успішність досягнення цілі, частота зіткнень, ефективність траєкторії, стабільність навчання (середня винагорода та стандартне відхилення).

Для подолання розриву між симуляцією та реальністю використано метод Domain Randomization із варіюванням шести фізичних параметрів: коефіцієнта тертя, маси робота, шуму гіроскопа, затримки двигунів, розміру та кількості перешкод. Нейронна мережа з архітектурою 64→32 нейрони була квантизована до формату INT8 з використанням TensorFlow Lite Micro та оптимізована для виконання на ESP32.

Результати. Алгоритм PPO продемонстрував найвищу ефективність серед усіх протестованих методів: успішність досягнення цілі 82.0%, середня винагорода — 847.3, найнижча варіативність результатів (σ = 12.3).

Статистичний аналіз підтвердив значущу перевагу PPO над альтернативними підходами (p < 0.01, Cohen’s d > 0.8). Модель після квантизації до INT8 зменшилася до 2.8 КБ при втраті точності лише 2.3%. Час інференсу на ESP32 становив 1.2 мс, що забезпечує роботу в реальному часі на ресурсно-обмеженій платформі.

Наукова новизна. Запропоновано комплексний підхід до автономної навігації з використанням PPO з інтеграцією Domain Randomization для підвищення якості Sim-to-Real трансферу.

Виконано систематичне експериментальне порівняння сучасних алгоритмів глибокого навчання з підкріпленням у задачі автономної навігації мобільного робота.

Реалізовано ефективну квантизацію моделі PPO до формату INT8 з мінімальною втратою точності та успішним розгортанням на мікроконтролері ESP32.

Практична значимість. Отримані результати демонструють можливість впровадження алгоритмів глибокого навчання з підкріпленням у реальні мобільні робототехнічні системи з обмеженими обчислювальними ресурсами. Розроблена система може бути використана у сервісній робототехніці, автономних транспортних засобах малого класу, системах моніторингу та інспекції, забезпечуючи високу надійність навігації та швидкодію в реальному часі.

Завантаження

Дані завантаження ще не доступні.

Біографії авторів

Владислав ПИЛИПЕНКО, Київський національний університет технологій та дизайну, Україна

Phd Student, Department of Information and Computer Technologies

https://orcid.org/0000-0002-2761-4817

Scopus Author ID: 58089336700

Владислава СКІДАН, Київський національний університет технологій та дизайну, Україна

Candidate of technical sciences, Associate Professor, Head of the Department of Information and Computer Technologies

https://orcid.org/0000-0002-8358-9759

Scopus Author ID: 57210393405

Антоніна ВОЛІВАЧ, Київський національний університет технологій та дизайну, Україна

Candidate of technical sciences, Associate Professor, Department of Information and Computer Technologies

https://orcid.org/0000-0002-7119-7774

Олена МИТЕЛЬСЬКА, Київський національний університет технологій та дизайну, Україна

Candidate of technical sciences, Associate Professor

https://orcid.org/0009-0004-4147-0866

Вадим АФТАНДІЛЯНЦ, Київський національний університет технологій та дизайну, Україна

Candidate of sciences, Associate Professor

https://orcid.org/0000-0003-0660-1395

ResearcherID: Q-3511-2016

НАВЧАННЯ З ПІДКРІПЛЕННЯМ ДЛЯ АВТОНОМНОЇ НАВІГАЦІЇ РОБОТИЗОВАНИХ ПЛАТФОРМ В УМОВАХ НЕВИЗНАЧЕНОСТІ: РАНДОМІЗАЦІЯ ДОМЕНІВ ТА ПЕРЕНЕСЕННЯ СИМУЛЯЦІЇ В РЕАЛЬНІ УМОВИ

Автор(и)

DOI:

Ключові слова:

Анотація

Завантаження

Біографії авторів

Владислав ПИЛИПЕНКО, Київський національний університет технологій та дизайну, Україна

Владислава СКІДАН, Київський національний університет технологій та дизайну, Україна

Антоніна ВОЛІВАЧ, Київський національний університет технологій та дизайну, Україна

Олена МИТЕЛЬСЬКА, Київський національний університет технологій та дизайну, Україна

Вадим АФТАНДІЛЯНЦ, Київський національний університет технологій та дизайну, Україна

##submission.downloads##

Опубліковано

Як цитувати

Номер

Розділ

Статті цього автора (авторів), які найбільше читають

Мова