Навчальні дані складаються з запитів та документів, приписуючи кожній такій парі степінь відповідності. Створення навчального набору можливе вручну людьми з потрібною кваліфікацією (англ.assessors або raters, як їх називає Гугл). Вони перевіряють результати для деяких запитів і визначити релевантність кожного результату. Очевидно, що не можливо перевірити релевантність всіх документів, і тому зазвичай використовується метод, званий пулінгом — перевіряють тільки кілька документів вгорі списку, отриманих за допомогою деяких існуючих моделей ранжування. Крім того, навчальні дані можуть бути отримані автоматично шляхом аналізу журналів логування переходів (наприклад, результати пошуку, які отримали кліки від користувачів),[3]ланцюжки запитів,[4] або такі характеристики пошукової системи як Google SearchWiki[en].
Навчальні дані використовуються алгоритмом навчання для отримання моделі ранжування, яка обчислює релевантність документів для фактичних запитів.
Зазвичай користувачі очікують, що пошуковий запит буде виконано за короткий час (наприклад, кілька сотень мілісекунд для вебпошуку), що унеможливлює оцінку складної моделі ранжування на кожному документі в корпусі, тому використовують двохкрокову схему.[5] Спочатку невелика кількість потенційно релевантних документів ідентифікується з використанням більш простих моделей пошуку, які дозволяють швидко оцінювати запити, такі як модель векторного простору, булева модель[en], зважений AND,[6] або BM25[en]. Цей етап називається запитом верхніх документів, у літературі було запропоновано багато евристичних підходів для прискорення цього кроку, наприклад, використання статичного показника якості документа та багаторівневих індексів.[7] На другому етапі використовується більш точна обчислювальна машина, яка споживає більше ресурсів, і виконує переоцінку цих документів.
В інших областях
Алгоритми навчання ранжируванню були застосовані в інших областях, окрім пошуку інформації:
В обчислювальної біології для ранжування кандидатів 3-D структур білків у задачі прогнозування структури.[8]
В рекомендаційних систем для виявлення ранжованого списку пов'язаних новин, яку будуть рекомендуватись користувачеві після перегляду поточної новини.[9]
Для зручності алгоритмів МНР пари запит-документ зазвичай представлені числовими векторами, які називаються векторами ознак. Такий підхід іноді називають торбою ознак аналогічно моделі «торба слів» і моделі векторного простору, що використовується при інформаційному пошуку для представлення документів.
Компоненти таких векторів називаються ознаками, факторами або сигналами рангу. Вони можуть бути розділені на три групи (ознаки з пошуку документів[en] показані як приклади):
Незалежні від запиту або статичні ознаки — ті ознаки, які залежать тільки від документа, а не від запиту. Наприклад, PageRank або довжина документа. Такі ознаки можна підраховувати офлайн під час індексації. Вони можуть бути використані для розрахунку статичного показника якості документа (або статичного рангу), який часто використовується для прискорення оцінки пошукових запитів.[7][11]
Залежні від запиту або динамічні ознаки — ті ознаки, які залежать як від вмісту документа, так і від запиту, наприклад, результату TF-IDF або інших функцій ранжування, які не є алгоритмами МНР.
Ознаки рівня запитів або ознаки запитів, які залежать тільки від запиту. Наприклад, кількість слів у запиті. Див. ознаки рівня запиту[en].
Деякі приклади ознак, які використовувалися у відомому наборі даних LETOR:[12]
TF, TF-IDF, BM25[en], і мовні оцінки моделей зон документа (назва, тіло, текст якоря, URL) для цього запиту;
Існує декілька метрик (мір), які зазвичай використовуються для того, щоб оцінити, наскільки добре алгоритм працює на навчальних даних і порівнювати продуктивність різних алгоритмів МНР. Часто завдання «навчання рангу» переформулюється як задача оптимізації відносно однієї з цих метрик.
Дисконтованому сукупному приросту і його нормалізованому варіанту зазвичай застосовуються в академічних дослідженнях, коли використовуються кілька рівнів релевантності.[13] Інші метрики, такі як середня усереднена влучність, середній взаємний ранг і влучність, визначаються тільки для бінарних суджень.
Нещодавно було запропоновано кілька нових метрик оцінки, які стверджують, що модель задоволення користувачів результатами пошуку краще, ніж метрика дисконтованого сукупного приросту:
Обидві ці метрики базуються на припущенні, що користувач, найімовірніше, перестане переглядати результати пошукового запиту після того, як зустріне більш відповідний документ, ніж після менш релевантного документа.
Підходи
Тай-Янь Ліу (англ.Tie-Yan Liu) з Microsoft Research Asia проаналізував наявні алгоритми навчання ранжуванню у своїй роботі «Навчання ранжуванню для пошуку інформації».[1] Він класифікував їх за трьома групами відповідно до їх вхідного представлення і функції втрат: точковий, попарний і списковий підхід. На практиці спискові підходи часто перевершують попарні та точкові підходи. Це твердження було додатково підтверджено великомасштабним експериментом щодо оцінки різних методів навчання ранжуванню на великій колекції еталонних наборів даних.[16]
Точковий підхід
У цьому випадку передбачається, що кожна пара запит-документ у навчальних даних має числову або порядкову оцінку. Тоді завдання навчання ранжуванню можна наблизити задачею регресії — для заданої пари запит-документ, передбачити її оцінку.
Ряд існуючих алгоритмів машинного керованого навчання може бути легко використаний для цієї мети. Порядкові алгоритми регресії і класифікації також можуть бути використані в точковому підході, коли вони використовуються для прогнозування однієї пари запит-документ, і вона приймає невелике, скінченне число значень.
Попарний підхід
У цьому випадку проблема навчання ранжуванню апроксимується проблемою класифікації — вивчення бінарного класифікатора, який може визначити, який документ краще в даній парі документів. Мета полягає в мінімізації середньої кількості перестановок в рейтингу.
Списковий підхід
Ці алгоритми намагаються безпосередньо оптимізувати значення однієї з наведених вище метрик оцінювання, усереднених по всіх запитах в навчальних даних. Це важко, оскільки більшість метрик оцінювання не є неперервними функціями від параметрів моделі ранжирування, і тому необхідно застосовувати гладкі наближення або слід використовувати обмеження метрик оцінювання.
Список методів
Частковий список алгоритмів навчання ранжирування наведено нижче. Вказано роки першої публікації кожного методу:
Варіація RankBoost зі збереженням значущості. Ідея полягає в тому, що чим більш відрізняються мітки пари документів, тим складніше алгоритму намагатись їх класифікувати.
На відміну від попередніх методів, BoltzRank створює модель ранжування, яка проглядає під час запиту не тільки окремий документ, але і пари документів.
Метод об'єднує модель Plackett-Luce та нейронну мережу для мінімізації очікуваного ризику Байєса, пов'язаного з нормалізованим дисконтованим сукупним приростом (NDCG), з точки зору прийняття рішень.
Комбіновані регресія і ранжування. Використовується стохастичний градієнтний спуск для оптимізації лінійної суми квадратів точкових втрат та попарних завісних втрат SVM-ранжування.
Еволюційна стратегія навчання методу ранжирування з підгонкою по 7 метрикам.
Примітка: оскільки більшість алгоритмів керованого навчання можна застосувати до точкових випадків, вище показані тільки ті методи, які спеціально розроблені з метою ранжування.
Історія
Норберт Фур[en] представив загальну ідею МНР у 1992 році, описавши підходи до навчання у інформаційному пошуку як узагальнення оцінки параметрів;[27] конкретний варіант цього підходу (з використанням поліноміальної регресії) був опублікований ним за три роки до того.[17] Білл Купер запропонував логістичну регресію для тієї ж мети в 1992 році[18] і використав її з дослідницькою групою у Берклі для підготовки успішної функції ранжування для TREC[en]. Manning et al.[28] припускають, що ці ранні роботи досягли обмежених результатів свого часу через невелику кількість доступних навчальних даних і слабкий розвиток методів машинного навчання.
Комерційні вебпошукові системи почали використовувати системи машинного навчання ранжування з першого десятиліття 2000-х років. Одна з перших пошукових систем, яка почала це використовувати була AltaVista (пізніше технологія була придбана Overture[en], а потім Yahoo), яка почала навчати функції ранжування методом градієнтного підсилювання[en] в квітні 2003 року.[29][30]
У листопаді 2009 року російський пошуковий сервіс Яндекс оголосив,[32] що значно збільшив якість пошуку за рахунок розгортання нового власного алгоритму MatrixNet[en], варіанту методу градієнтного підсилювання[en], який використовує невідомі дерева рішень.[33] 2009 року вони також виступили спонсором конкурсу МНР «Internet Mathematics 2009»[34] на основі власних даних їх пошукової системи. Yahoo оголошувала аналогічний конкурс у 2010 році.[35]
У 2008 році Пітер Норвіг з Google заперечував, що їх пошукова система спирається суто на МНР.[36] Генеральний директор Cuil, Том Костелло, припускає, що вони віддають перевагу моделям, створеним вручну, тому що вони можуть перевершувати моделі отримані за допомогою машинного навчання, якщо вимірюються за показниками такими, як частота переходів або час на проведений цільовій сторінці, що є причиною того, що алгоритми МНР «дізнаються, що люди кажуть, що їм подобається, а не те, що людям подобається насправді».[37]
↑B. Cambazoglu; H. Zaragoza; O. Chapelle; J. Chen; C. Liao; Z. Zheng; J. Degenhardt., Early exit optimizations for additive machine learned ranking systems(PDF), WSDM '10: Proceedings of the Third ACM International Conference on Web Search and Data Mining, 2010., архів оригіналу(PDF) за 28 серпня 2019, процитовано 11 травня 2019
↑ абManning C.; Raghavan P.; Schütze H. (2008), Introduction to Information Retrieval, Cambridge University Press. Section 7.1 [Архівовано 19 липня 2009 у Wayback Machine.]
↑Xuan, Jifeng; Monperrus, Martin (2014). Learning to Combine Multiple Ranking Metrics for Fault Localization. 2014 IEEE International Conference on Software Maintenance and Evolution. с. 191—200. doi:10.1109/ICSME.2014.41. ISBN978-1-4799-6146-7.
↑Архівована копія. Архів оригіналу за 4 січня 2011. Процитовано 11 травня 2019.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)
↑ абFuhr, Norbert (1989), Optimum polynomial retrieval functions based on the probability ranking principle, ACM Transactions on Information Systems, 7 (3): 183—204, doi:10.1145/65943.65944
↑ абCooper, William S.; Gey, Frederic C.; Dabney, Daniel P. (1992), Probabilistic retrieval based on staged logistic regression, SIGIR '92 Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval: 198—210, doi:10.1145/133160.133199, ISBN978-0897915236