Пошуковий роботПошуковий робот (також англ. web crawler, англ. web spider) — програма для краулінгу, тобто збору контенту в інтернеті. Є складовою частиною пошукової системи та призначена для перегляду сторінок інтернету з метою введення інформації про них до бази даних. Пошукові роботи завантажують сторінки, зберігають їх зміст, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму. Як закрити сайт від індексації
КраулінгКраулінг (сканування, англ. crawling) — це процес сканування сайту автоматизованою системою. Сканування – початковий етап, дані збираються для подальшої внутрішньої обробки(побудова індексів) та не відображаються в результатах пошуку. Просканована сторінка не обов’язково є проіндексованою. У пошукової системи ресурси обмежені, а алгоритми краулінгу допоможуть оптимізувати процес: щоб для кожного сайту виділялася необхідна кількість «потужності», щоб успішно його індексувати. Основні задачі
Краулінговий бюджет потрібен лише для сайтів з великим об’ємом інформації (від 100 сторінок). Адже маленькі сайти пошукова система проіндексує за відносно малу кількість часу (неділя, місяць). Також краулінг використовується для сайтів, що часто змінюються.
Що впливає на краулінговий бюджет
Для того, щоб подивитися на сайт очима краулера, потрібно вимкнути обробку JavaScript
Автоматизація краулінгуCrawljax: Crawling Ajax-based Web Applications - це Java-інструмент з відкритим кодом, що дозволить протестувати ваш web – додаток фактично імітуючи користувача по браузингу сайту. Crawljax може досліджувати сайт, що використовує технологію ajax, при цьому автоматично створюючи динамічний граф станів DOM. Див. такожПосилання
|