Як випливає з їхньої назви, ОМБ є варіантом машин Больцмана, з тим обмеженням, що їхні нейрони мусять формувати двочастковий граф: пара вузлів з кожної з двох груп вузлів (що, як правило, називають «видимим» та «прихованим» вузлами відповідно) можуть мати симетричне з'єднання між ними, але з'єднань між вузлами в межах групи не існує. На противагу, «необмежені» машини Больцмана можуть мати з'єднання між прихованими вузлами. Це обмеження уможливлює ефективніші алгоритми тренування, ніж доступні для загального класу машин Больцмана, зокрема, алгоритм контра́стового розхо́дження (англ.contrastive divergence) на основі градієнтного спуску.[9]
Стандартний тип ОМБ має бінарновозначні (булеві) приховані та видимі вузли, і складається з матрицівагових коефіцієнтів розміру . Кожен ваговий елемент цієї матриці пов'язано зі з'єднанням між видимим (вхідним) вузлом та прихованим вузлом . Крім того, є вагові коефіцієнти упереджень (зміщення) для та для . З урахуванням цих ваг та упереджень, енергію конфігурації (пари булевих векторів) (v,h) визначають як
або, в матричному записі,
Ця функція енергії аналогічна функції енергії мережі Гопфілда. Як і з загальними машинами Больцмана, спільний розподіл імовірності для видимих та прихованих векторів визначають у термінах функції енергії наступним чином:[11]
де є статистичною сумою[en], визначеною як сума над усіма можливими конфігураціями, що можливо інтерпретувати як нормувальну сталу[en] для забезпечення того, щоби ймовірності давали в сумі 1. Відособлена ймовірність видимого вектора є сумою над усіма можливими конфігураціями прихованого шару,[11]
,
і навпаки. Оскільки графова структура в основі ОМБ двочасткова (тобто, без з'єднань усередині шарів), збудження прихованих вузлів є взаємно незалежними[en] для заданих збуджень видимих вузлів. І навпаки, збудження видимих вузлів є взаємно незалежними для заданих збуджень прихованих вузлів.[9] Тобто, для m видимих вузлів та n прихованих вузлів умовною ймовірністю конфігурації видимих вузлів v для заданої конфігурації прихованих вузлів h є
Обмежені машини Больцмана тренуються максимізувати добуток ймовірностей, призначених певному тренувальному наборові (матриця, кожен рядок якої розглядається як видимий вектор ),
Алгоритмом, що найчастіше застосовують для тренування ОМБ, тобто для оптимізації матриці вагових коефіцієнтів , є алгоритм контрастового розходження (КР, англ.contrastive divergence, CD), що належить Гінтонові, первинно розроблений для тренування моделей добутку експертів[en] (англ.product of experts, PoE).[15][16] Цей алгоритм здійснює вибірку за Ґіббзом[en], і використовується всередині процедури градієнтного спуску (подібного до того, як зворотне поширення використовується всередині такої процедури при тренуванні нейронних мереж прямого поширення) для обчислення уточнення вагових коефіцієнтів.
Елементарну, однокрокову процедуру контрастового розходження (КР-1, англ.CD-1) для єдиного зразка може бути описано таким чином:
Взяти тренувальний зразок v, обчислити ймовірності прихованих вузлів, та вибрати вектор прихованих збуджень h з цього розподілу ймовірності.
Обчислити зовнішній добутокv та h, і назвати це позитивним градієнтом.
Спираючись на h, вибрати відбудову видимих вузлів v', а потім перевибрати з неї приховані збудження h'. (крок вибірки за Ґіббзом)
Обчислити зовнішній добутокv' та h', і назвати це негативним градієнтом.
Покласти уточненням вагової матриці різницю позитивного та негативного градієнтів, помножену на певний темп навчання: .
Уточнити упередження a та b аналогічно: , .
Практичну настанову з тренування ОМБ, написану Гінтоном, можна знайти на його домашній сторінці.[11]
Складена обмежена машина Больцмана
Цей розділ написано занадто професійним стилем зі специфічною термінологією, що може бути незрозумілим для більшості читачів. Ви можете допомогти вдосконалити цей розділ, зробивши його зрозумілим для неспеціалістів без втрат змісту. Можливо, сторінка обговорення містить зауваження щодо потрібних змін.(серпень 2023)
Відмінність між складеними обмеженими машинами Больцмана (англ.Stacked Restricted Boltzmann Machines) та ОМБ полягає в тому, що ОМБ має бічні з’єднання всередині шару, які заборонено для того, щоби зробити аналіз піддатливим. З іншого боку, складена больцманова машина складається з поєднання некерованої тришарової мережі з симетричними вагами та керованого тонко настроюваного верхнього шару для розпізнавання трьох класів.
Використання складеної больцманової машини призначене для розуміння природної мови, пошуку документів[en], створення зображень та класифікування. Ці функції тренуються некерованим попереднім тренуванням та/або керованим тонким настроюванням. На відміну від неорієнтованого симетричного верхнього шару, з двоспрямованим несиметричним шаром для підключення до ОМБ. Обмежені больцманові з'єднання є тришаровим з асиметричними вагами, а дві мережі об'єднано в одну.
Складена больцманова машина має спільні риси з ОМБ, нейрон для складеної больцманової машини це стохастичний бінарний нейрон Гопфілда, такий же, як і в обмеженій машині Больцмана. Енергію як для складеної больцманової машини, так і для ОМБ, задають ґіббзовою мірою ймовірності . Процес тренування обмежених больцманових машин подібний до ОМБ. Обмежені больцманові машини тренують пошарово та наближують стан рівноваги 3-сегментним проходом, не виконуючи зворотного поширення. Обмежені больцманові машини використовують як кероване, так і некероване тренування на різних ОБМ для попереднього тренування для класифікування та розпізнавання. Тренування використовує контрастове розходження з ґіббзовим вибиранням: Δwij = e*(pij - p'ij)
Перевага обмеженої больцманової машини полягає у виконанні нелінійного перетворення, тому її легко розширити, що може дати ієрархічний шар ознак. Слабкість полягає у складності обчислень цілочислових та дійснозначних нейронів. Вона не слідує градієнтові будь-якої функції, тож наближення контрастового розходження до максимальної правдоподібності є імпровізованим.[11]
Література
Fischer, Asja; Igel, Christian (2012), An Introduction to Restricted Boltzmann Machines, Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications, Lecture Notes in Computer Science (англ.), Berlin, Heidelberg: Springer Berlin Heidelberg, т. 7441, с. 14—36, doi:10.1007/978-3-642-33275-3_2, ISBN978-3-642-33274-6
↑ абSalakhutdinov, R.; Mnih, A.; Hinton, G. (2007). Restricted Boltzmann machines for collaborative filtering. Proceedings of the 24th international conference on Machine learning - ICML '07. с. 791. doi:10.1145/1273496.1273596. ISBN9781595937933. (англ.)
↑María Angélica Cueto; Jason Morton; Bernd Sturmfels (2010). Geometry of the restricted Boltzmann machine. Algebraic Methods in Statistics and Probability. American Mathematical Society. 516. arXiv:0908.4425. Bibcode:2009arXiv0908.4425A. (англ.)