Kvadkopterek adaptív irányítása megerősítő tanulással/Adaptive control of quadcopters by reinforcement learning
Önálló laboratórium - Irányítórendszerek ágazat, BSc Vill.
Autonomous
quadcopters have great potential in many application fields e.g. surveillance,
exploration or cooperative robotics. These applications often require high
speed maneuvering in a dynamically
varying environment. The goal of this project is to develop and implement
reinforcement learning based control algorithms that allow the quadcopter to
learn new skills, adapt to varying operating conditions, and perform complex
maneuvers at high speed. The algorithms have to be implemented in Matlab/Python
environment and should be developed specifically for Bitcraze CrazyFly
quadcopters. Before the real experiments, all of the algorithms have to work in
a high-fidelity simulation environment (e.g. gym-pybullet-drones). The Msc project should start by analysing how the
PILCO design method can be adapted to the quadcopter control task. PILCO (Probabilistic Inference and Learning for COntrol) is an
efficient, model based RL method exploiting the powerful modeling capabilities
of Gaussian Processes. PILCO has successful applications in control of
mechatronic systems.
Requirements: solid background in linear algebra and mathematical analysis; basic knowledge in probability theory, mechanical systems modelling and system theory; programming skills; experience in Matlab and Python.
Az autonóm kvadkopterek számos fontos területen alkalmazhatók, például megfigyelési, felderítési
feladatok vagy kooperatív robotrendszerek. Ezekben az alkalmazásokban fontos
követelmény a nagysebességű manőverezés változó működési körülmények között.
Jelen Önálló labor célja olyan megerősítő tanulásra épülő irányítási
algoritmusok kifejlesztése és implementációja, melyek révén a kvadkopter képes
új képességeket megtanulni, alkalmazkodni a változó működési környezethez és
ennek révén alkalmassá válik összetett manőverek nagy sebességű végrehajtására.
Az algoritmusokat Matlab/Python környezetben kell megvalósítani és specifikusan
a Bitcraze cég CrazyFly kvadkopterére kell implementálni. A valós kísérletek
előtt minden eljárást megbízható szimulációs környezetben (pl.
gym-pybullet-drones) kell kipróbálni. Az irányítási algoritmus fejlesztésének
első lépéseként meg kell vizsgálni, hogy a PILCO tervezési módszer miként
adaptálható az adott kvadkopter irányítási feladatra. A PILCO (Probabilistic
Inference and Learning for COntrol) egy
Gauss folyamatokra épülő, hatékony, modell alapú RL irányítási módszer, amely
sikeresen alkalmazható mechatronikai rendszerek irányítására.
Szükséges előismeretek: lineáris algebra és analízis ismeretek;
valószínűségszámítás, mechanikai rendszerek modellezése és rendszerelmélet
alapok; programozói képesség; Matlab és Python programozási nyelvek ismerete