Kvadkopterek adaptív irányítása megerősítő tanulással/Adaptive control of quadcopters by reinforcement learning

Konzulens:
Dr. Harmati István
Külső konzulens vagy kontakt:
Péni Tamás
External supervisor e-mail:
peni.tamas@sztaki.mta.hu
Tárgy:
Önálló laboratórium - Irányítórendszerek ágazat, BSc Vill.
Önálló laboratórium 1 - Irányítórendszerek főspecializáció, MSc Vill.
Önálló laboratórium 2 - Irányítórendszerek főspecializáció, MSc Vill.
Önálló laboratórium 1 - Irányító és látórendszerek MSc. főspec.
Hallgatói létszám:
1
Folytatás:
Szakdolgozat / Diplomaterv
Leírás:

Autonomous quadcopters have great potential in many application fields e.g. surveillance, exploration or cooperative robotics. These applications often require high speed maneuvering in a dynamically varying environment. The goal of this project is to develop and implement reinforcement learning based control algorithms that allow the quadcopter to learn new skills, adapt to varying operating conditions, and perform complex maneuvers at high speed. The algorithms have to be implemented in Matlab/Python environment and should be developed specifically for Bitcraze CrazyFly quadcopters. Before the real experiments, all of the algorithms have to work in a high-fidelity simulation environment (e.g. gym-pybullet-drones). The Msc project should start by analysing how the PILCO design method can be adapted to the quadcopter control task. PILCO (Probabilistic Inference and Learning for COntrol) is an efficient, model based RL method exploiting the powerful modeling capabilities of Gaussian Processes. PILCO has successful applications in control of mechatronic systems.

 

Requirements: solid background in linear algebra and mathematical analysis; basic knowledge in probability theory, mechanical systems modelling and system theory; programming skills; experience in Matlab and Python.


Az autonóm kvadkopterek számos fontos területen alkalmazhatók, például megfigyelési, felderítési feladatok vagy kooperatív robotrendszerek. Ezekben az alkalmazásokban fontos követelmény a nagysebességű manőverezés változó működési körülmények között. Jelen Önálló labor célja olyan megerősítő tanulásra épülő irányítási algoritmusok kifejlesztése és implementációja, melyek révén a kvadkopter képes új képességeket megtanulni, alkalmazkodni a változó működési környezethez és ennek révén alkalmassá válik összetett manőverek nagy sebességű végrehajtására. Az algoritmusokat Matlab/Python környezetben kell megvalósítani és specifikusan a Bitcraze cég CrazyFly kvadkopterére kell implementálni. A valós kísérletek előtt minden eljárást megbízható szimulációs környezetben (pl. gym-pybullet-drones) kell kipróbálni. Az irányítási algoritmus fejlesztésének első lépéseként meg kell vizsgálni, hogy a PILCO tervezési módszer miként adaptálható az adott kvadkopter irányítási feladatra. A PILCO (Probabilistic Inference and Learning for COntrol) egy Gauss folyamatokra épülő, hatékony, modell alapú RL irányítási módszer, amely sikeresen alkalmazható mechatronikai rendszerek irányítására.

 

Szükséges előismeretek: lineáris algebra és analízis ismeretek; valószínűségszámítás, mechanikai rendszerek modellezése és rendszerelmélet alapok; programozói képesség; Matlab és Python programozási nyelvek ismerete