Извличане на знание
/ Knowledge Discovery >> Извличане на знание >> тек >> компютър >> интернет >> развитие уеб дизайн >>

Какво е един паяк търсачката?

What е един паяк търсачката?
Какво е един паяк търсачката?
<Р> Търсачката паяци, понякога наричани роботите, които се използват от интернет търсачките да събира информация за уеб сайтове и индивидуални уеб страници. Търсачките се нуждаят от информация от всички сайтове и страници; в противен случай те няма да знае какво страници за показване в отговор на заявка за търсене или с какво приоритет.

Търсачката паяци пълзят през Интернет и създават опашки от уеб сайтове, за да проучи по-задълбочено. Като конкретен уеб сайт се покрива от един паяк, паяка чете през всички текстови, хипервръзки, мета таговете (мета таговете са специално форматирани ключови думи вкарани в уеб страницата по начин, предназначен за паяк, за да намерите и използване) и кода , Използвайки тази информация, паякът осигурява профил на търсачката. Паякът тогава събира допълнителна информация, като следвате хипервръзки от интернет страницата, която дава по-добро събиране на данни за тези страници. Това е причината, че има връзки на вашия уеб страница - и, още по-добре, други уеб страници с връзки към твоя -. Е толкова полезни при получаване на вашия уеб сайт намерен от търсачките
<р> Паяците имат четири основни режима за събиране на информация. Един вид паяк се използва само за да се създаде опашките на уеб страници, за да бъдат търсени от други паяци. Този паяк, работещи в режим "избор", е приоритет на кои страници да мине през и проверка, за да се види дали по-ранна версия на страницата вече е изтеглен. Вторият режим е един паяк, специално предназначена да разясни страници, които вече са били обходени от паяк. Този режим се нарича "повторно посещение." Някои търсачки са загрижени, че страницата е била твърде старателно изпълзя от други паяци, така че те използват режим паяк, наречен "учтивост", което ограничава пълзи претоварени страници. На последно място, "паралелизация" позволява един паяк да координира усилията за събиране на данни и с други търсачката паяци, които се пълзи над една и съща страница.