Підмайстрове навчанняУ сфері штучного інтелекту підмайстрове навчання (або навчання на основі демонстрації чи імітаційне навчання) — це процес навчання шляхом спостереження експерта.[1][2] Його можна розглядати як форму навчання під керівництвом, де навчальний набір даних складається з виконання завдань учителем-демонстрацією.[2] Підхід функції відображенняМетоди відображення намагаються імітувати експерта, шляхом формування прямого відображення або від станів до дій,[2] або від станів до значень винагороди[1]. Наприклад, у 2002 році дослідники використали такий підхід, щоб навчити робота AIBO базовим футбольним навичкам.[2] Навчальний підхід із зворотним підкріпленнямНавчання зі зворотним підкріпленням (IRL) — це процес виведення функції винагороди з поведінки, що спостерігається. У той час як звичайне «навчання з підкріпленням» передбачає використання винагород і покарань для вивчення поведінки, у IRL напрямок змінюється, і робот спостерігає за поведінкою людини, щоб зрозуміти, яку мету ця поведінка, здається, намагається досягти.[3] Проблему IRL можна визначити як:[4]
Дослідник IRL Стюарт Дж. Рассел[en] припускає, що IRL можна використовувати для спостереження за людьми та спроб кодифікації їхніх складних «етичних цінностей», намагаючись створити «етичних роботів», які одного разу знатимуть, що «не варити твого кота», без необхідності казати їм цього напряму.[5] Сценарій можна змоделювати як «кооперативну інверсну навчальну гру з підкріпленням», де гравець «людина» та гравець «робот» співпрацюють, щоб забезпечити неявні цілі людини, незважаючи на те, що ці цілі явно не відомі ні людині, ні роботу.[6][7]
Підмайстрове навчання через зворотне підкріплююче навчання (AIRP) було розроблено у 2004 році Пітером Аббілом[en], професором кафедри EE CS Берклі, та Ендрю Нґом, доцентом факультету комп’ютерних наук Стенфордського університету. AIRP має справу з «Марковським процесом прийняття рішень, де нам явно не надається функція винагороди, але замість цього ми можемо спостерігати, як експерт демонструє завдання, яке ми хочемо навчитися виконувати»[1]. AIRP використовувався для моделювання функцій винагороди у високодинамічних сценаріях, де інтуїтивно немає очевидної функції винагороди. Візьмемо, наприклад, завдання керування автомобілем. Є багато різних цілей, які виконуються одночасно - наприклад, підтримувати безпечну дистанцію, хорошу швидкість, не надто часто змінювати смугу руху тощо. Це завдання може здатися легким на перший погляд, але тривіальна функція винагороди може не збігатися з бажаною політикою. Системний модельний підхідСистемні моделі намагаються імітувати експерта, моделюючи світову динаміку.[2] Плановий підхідСистема вивчає правила, щоб пов’язувати передумови та постумови з кожною дією. В одній демонстрації 1994 року гуманоїд вивчає узагальнений план лише з двох демонстрацій повторюваного завдання зі збору м’яча.[2] ПрикладНавчання на демонстрації часто пояснюється з точки зору того, що робоча система керування роботом[en] доступна і людина-демонстратор використовує її. І справді, якщо програмне забезпечення працює, людина-оператор бере робо-руку, робить нею рух, а робот потім відтворює дію. Наприклад, він вчить робо-руку, як поставити чашку під кавоварку і натиснути кнопку запуску. У фазі відтворення робот імітує цю поведінку 1 в 1. Але це не те, як система працює всередині; це лише те, що може спостерігати глядач. Насправді навчання на демонстрації набагато складніше. Однією з перших робіт про навчання роботів-учнів (антропоморфні роботи, що навчаються шляхом імітації) була докторська дисертація Адріана Стойки в 1995 році[10]. У 1997 році експерт з робототехніки Стефан Шаал[en] працював над роботом-рукою Sarcos. Мета була проста: розв’язати задачу про розгойдування маятника. Робот сам може виконувати рух, і в результаті маятник рухається. Проблема в тому, що незрозуміло, які дії призведуть до якого руху. Це задача оптимального керування, яку можна описати математичними формулами, але її важко вирішити. Ідея Шаала полягала в тому, щоб не використовувати пошук грубою силою, а записувати рухи людини-демонстрації. Кут маятника реєструється протягом трьох секунд по осі y. Це призводить до діаграми, яка створює візерунок.[11]
У комп’ютерній анімації цей принцип називається сплайн-анімацією[en][12]. Це означає, що на осі абсцис задано час, наприклад 0,5 секунди, 1,0 секунди, 1,5 секунди, а на осі у – задана змінна. У більшості випадків це положення об’єкта. У перевернутому маятнику це кут. Загальне завдання складається з двох частин: запис кута в часі та відтворення записаного руху. Етап відтворення напрочуд простий. Як вхідні дані ми знаємо, на якому кроці часу який кут має мати маятник. Переведення системи в стан називається «контролем стеження» або ПІД-регулюванням. Це означає, що у нас є траєкторія в часі, і ми повинні знайти керуючі дії, щоб відобразити систему на цю траєкторію. Інші автори називають принцип «кермовою поведінкою»[13], оскільки метою є привести робота до заданої лінії. Дивись такожСписок літератури
|