Інформаційний пошукІнформаці́йний по́шук (ІП) (англ. information retrieval) — наука про пошук неструктурованої документальної інформації. Особливо це відноситься до пошуку інформації в документах, пошук самих документів, добуття метаданих з документів, пошуку тексту, зображень, відео та звуку у локальних реляційних базах даних, у гіпертекстових базах даних таких, як Інтернет та локальні інтранет. Інформаційний пошук — велика міждисциплінарна галузь науки, яка стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну, лінгвістики, семіотики, бібліотечної справи, та статистики. Вперше виділив як міждисциплінарну галузь відомий угорський дослідник Золтон Жулен у 1989 році . Автоматичні системи інформаційного пошуку використовують для зменшення так званого «інформаційного перевантаження». Багато університетів та публічних бібліотек використовують системи ІП для полегшення доступу до книжок, журналів та інших документів. Найвідомішим прикладом систем ІП можна назвати пошукові системи в Інтернеті. Об'єктом інформаційного пошуку є текстова інформація, зображення, аудіо, відео інформація. ПроблематикаЗ інформаційним пошуком змикаються проблеми:
Для інформаційного пошуку розробляють:
Для його здійснення створюють:
До проблем інформаційного пошуку належать питання:
Напрям інформаційний пошук відносять до проблем:
ЗавданняЗавданням інформаційного пошуку є знаходження відповідних (до пошукового запиту) інформаційних об'єктів, або документів серед доступного для пошуку матеріалу. Завдання для інформаційного пошуку задається у вигляді інформаційного запиту (query), який може містити слова, фрази чи речення або комбінацію їх. Переважна більшість пошукових систем орієнтована на роботу з пошуковими термінами — словами або словосполученнями, які пошукова система розпізнає як одне ціле. Для здійснення інформаційного пошуку потрібно мати збірку інформаційних об'єктів (бібліотека, комп'ютерні файли) і систему (алгоритм або програму) яка здійснює пошук. Для здійснення інформаційного пошуку користувач (людина або інформаційна система) формує інформаційний запит (information query). Результатом пошукової роботи є список документів який укладається згідно з певним принципом. Такий список називають впорядкованим (ranked list, ranked results). Пошукова система переглядає всі доступні інформаційні одиниці (документи) зі збірки і відбирає документи відповідні до інформаційного запиту. Оскільки реальні пошукові системи знаходять не всі відповідні документи, говорять про точність пошукових систем (system accuracy). Результатом роботи пошукової системи є список відібраних документів (retrieved documents list), серед яких є відповідні до запиту документи (relevant documents). Для ідеальної пошукової системи список відібраних документів та відповідних документів повинні збігатися. В реальних пошукових системах в списках відібраних документів знаходяться і невідповідні до запиту документи. Тому говорять про ефективність пошукових систем. ЕфективністьЕфективність пошукових систем оцінюється двома параметрами: пошукова відповідність (precision) та пошукова якість (recall). Пошукова відповідність визначає частку відповідних документів серед відібраних на запит. Пошукова відповідність визначає якість отриманого результату інформаційного пошуку. Пошукова якість визначає частку отриманих системою відповідних до запиту документів серед загального числа відповідних до запиту документів у збірці. Загальне число відповідних до запиту документів завжди є невідомим і може бути встановлене лише при повному перегляді збірки людиною. Крім того роботу пошукових систем оцінюють швидкодією — часом, за який отримують список відповідних до запиту документів. Інформаційний пошук — велика міждисциплінарна галузь науки, яка стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну, лінгвістики, семіотики, бібліотечної справи, та статистики. Автоматичні системи інформаційного пошуку використовують для зменшення так званого «інформаційного перевантаження». Багато університетів та публічних бібліотек використовують системи ІП для полегшення доступу до книжок, журналів та інших документів. Найвідомішим прикладом систем ІП можна назвати пошукові системи в Інтернеті. Стратегії інформаційного пошукуСтратегії інформаційного пошуку визначають ступінь подібності документів, що розглядаються, до пошукового запиту. Ступінь подібності визначається згідно з робочою гіпотезою: чим частіше пошуковий термін зустрічається в документі, тим «відповіднішим» є цей документ до пошукового запиту. Стратегії інформаційного пошуку розробляються не тільки для визначення відповідності, але і для вирішення проблем, які пов'язані з неоднозначністю мови — один і той самий термін може позначати різні концепти (ключ в механіці означає зовсім не те, що в шифруванні), один і той самий концепт може позначатись різними термінами (обласний центр Львівської області має назву Львів і Місто Лева). Стратегія інформаційного пошуку це алгоритм, який, переглядаючи набір документів (Д1, …, Дn), встановлює їх відповідність до пошукового запиту (ПЗ). Оскільки пошуковий термін зустрічається в документах різну кількість раз, можна говорити про різну ступінь відповідності до пошукового запиту. Цей алгоритм обчислює коефіцієнт відповідності (similarity coefficient) (КВ) для кожного документу КВ(ПЗ, Дi), де 1 ≤ i ≤ n. Існують такі стратегії інформаційного пошуку:
Інформаційний пошук за допомогою векторно-просторового представленняПошуковий запит та документи представляються у вигляді просторових векторів Пошукова система відбирає документи, просторові вектори яких подібні до просторового вектора пошукового запиту. В основі векторно-просторового представлення документу лежить припущення, що зміст документу передається словами, що в ньому знаходяться. Просторово-векторне представлення будується для пошукового запиту і для кожного документу. Просторово-векторне представлення документу — це вектор у n-мірному просторі. N-мірний простір це простір, кожний вимір якого відповідає пошуковому терміну. Координати кінця вектора чисельно визначаються тим, скільки разів пошуковий термін зустрічається в документі. Тобто кожний компонент вектора відповідає числу появи відповідного терміну в документі. Пошукова система обчислює коефіцієнт відповідності (КВ) просторово векторного представлення документу до просторово-векторного представлення пошукового запиту. Фактично пошукова система обчислює кут між цими векторами. Найвідповіднішими є документи, просторово-векторне представлення яких спрямоване туди ж куди і в представлення пошукового запиту[1]. Імовірнісний пошукКоефіцієнт відповідності документа пошуковому запитові визначається на основі імовірності того, що документ є відповідним пошуковому запитові. Присутність чи відсутність пошукового терміну в документі використовують для визначення імовірності того, що документ відповідає інформаційному запитові. Визначення імовірності базується на попередніх статистичних даних, про те, наскільки імовірно, що документ який містить пошуковий термін A, відповідатиме пошуковому запитові, що містить термін A. Припускаючи, що пошукові терміни в пошуковому запиті є незалежні, можна обчислювати таку імовірність для кожного пошукового терміну з пошукового запиту. Загальна імовірність відповідності документу обчислюється як добуток ймовірностей відповідності для кожного терміну. Незалежність пошукових термінів в пошуковому запиті рідко спостерігається в дійсності, тому обчислення сумарної відповідності значно ускладнюється, що збільшує час інформаційного пошуку. Крім того, необхідно мати попередні дані про входження термінів у відповідні до запиту документи а також і у невідповідні до запиту документи[2]. Пошук з використанням мовних моделейМовні моделі використовують для передбачення появи того чи іншого слова у тексті. В інформаційному пошуку використовують статистичні мовні моделі для передбачення чи з'явиться потрібне слово (пошуковий термін) в документі. Для кожного документу зі збірки обчислюється імовірність появи в документі пошукових термінів. Згідно з цим документом упорядковуються у пошуковому списку. Ще один підхід пропонує побудову імовірнісної моделі пошуковго запиту. Тобто будується імовірнісна модель появи тих чи інших пошукових термінів у запиті Далі будується імовірнісна модель запиту як сукупності незалежних подій, де кожна подія — це поява того чи іншого терміну у пошуковому запиті. В цій моделі ми можемо врахувати навіть імовірності непояви певних термінів[3]. Алгоритми прийняття рішеньАлгоритми прийняття рішень використовують для визначення імовірності того, що документ буде відповідним до пошукового запиту. Застосовуються для доповнення до ймовірного пошуку, щоб отримати додаткові докази того, що документ може відповідати пошуковому запиту. Метод засновано на використанні відомих залежностей для побудови невідомих. Це дозволяє кардинально знизити обсяг обчислень, які потрібно виконати задля визначення ймовірності події[4]. Розширений булевий пошукЗвичайний Булевий пошук не має нічого спільного зі ступенем відповідності документу до пошукового запиту, і, відповідно, з упорядкуванням документів згідно з цією відповідністю. Документи або задовільняють інформаційний запит, або ні. Ті документи, що задовільняють булевий запит попадають у список по черзі. Ідея розширеного Булевого пошуку полягає у створенні можливостей для визначення ступеня відповідності документів пошуковому запитові. Це досягається з допомогою присвоєння ваги пошуковим термінам. Вага термінів враховується при побудові списку відповідності документів до інформаційного запиту.[5] Пошук з прихованим семантичним індексуваннямПоява термінів в документі представляється за допомогою матриці термін-документ. Матриця приводиться за допомогою розкладу за виродженими матрицями для того, щоб відділити «шум», так, що два семантично спільні документи розташовані поруч в багатомірному просторі[6]. Пошук з використанням нейромережВузли нейронної мережі «активуються» пошуковим запитом. Сила кожного зв'язку нейронної мережі передається документу і її використовують для обчислення коефіцієнта відповідності документа до пошуковго запиту. Для цього зв'язкам присвоюється вага згідно з наперед визначеною відповідністю чи невідповідністю документів[7]. Пошук з використанням алгоритмів розвиткуШляхом еволюції можна змінити початковий пошуковий запит. Початковий запит використовують з рівноправними термінами, або з термінами, що мають різну вагу. Згенерований пошуковий запит залишається, якщо він охоплює відомі відповідні до початкового запиту документи, якщо ж ні — відкидається[8]. Пошук з використанням нечітких множинДокумент перетворюється на нечітку множину (це множина, що містить не тільки сам елемент але і число, що показує ступінь приналежності елемента до множини). Далі для кожного документу з проведеного попередньо Булевого пошуку додається інформація отримана з операцій об'єднання, перетину, комплементарності нечітких множин, яка говорить про ступінь відповідності кожного документу до пошукового запиту. Ступінь відповідності використовують як коефіцієнт відповідності. Вимоги до результатів пошукуРезультати інформаційного пошуку повинні відповідати таким вимогам: - релевантність (від англ. Relevant) — стосується результатів роботи пошукової системи і експертної системи; ступінь відповідності запиту і знайденого, тобто доречність результату. Одне з найближчих до поняття «релевантності» — «адекватність», тобто оцінка ступеня відповідності, практичної та соціальної застосовності результату варіантів вирішення завдання. - пертінентність (від англ. Pertinent) — співвідношення обсягу корисної інформації до загального обсягу отриманої інформації. Див. такожПримітки
Література
Information related to Інформаційний пошук |