Извличане на знание
/ Knowledge Discovery >> Извличане на знание >> тек >> компютър >> интернет >> основи на интернет >>

Как интернет търсачки Work

злични подходи.
<Р> Тези различни подходи обикновено се опитват да направят паякът работи по-бързо, позволяват на потребителите да търсят по-ефективно, или и двете. Например, някои паяци ще следят думите в заглавието, под-заглавията и линковете, заедно с 100-те най-често използваните думи в страницата и всяка дума в първите 20 реда текст. Lycos се казва, за да използвате този подход за индексирането на уеб
<р> Други системи, като AltaVista, отидете в другата посока, индексиране всяка дума на една страница, в това число и quot;. А, " " е, " " на " и други " " незначителна; думи. Натискът за изчерпателност в този подход е съпътствано от други системи в вниманието, отделено на невидимата част на уеб страницата, мета таговете. Научете повече за мета тагове на следващата страница.
Meta Tags

мета тагове позволяват на собственика на една страница, за да определите ключовите думи и концепции, при които на страницата ще бъдат индексирани. Това може да бъде полезно, особено в случаите, в които думите на страницата може да има двойни или тройни значения - на мета таговете могат да ръководят търсачката при избора кой от няколко възможни значения на тези думи е правилен. Има, обаче, има опасност от прекомерното разчитане на мета тагове, тъй невнимателно или безскрупулни собственик на страницата може да добавите мета тагове, които отговарят на много популярни теми, но нямат нищо общо с действителното съдържание на страницата. За да се защити срещу това, паяци ще корелират мета тагове, със съдържание на страницата, с което се отхвърля мета таговете, които не съответстват на думите на страницата.
<Р> Всичко това предполага, че собственикът на страница всъщност иска тя да бъде включени в резултатите от дейността на търсачката. Много пъти, собственик на страницата не искат да го показват на основна търсачка, или не иска дейността на паяк достъп до страницата. Помислете, например, една игра, която изгражда нови, активни страници всеки секции време на страницата се показват или нови връзки да се спазят. Ако паяжина достъпи една от тези страници, и започва да тече след всички връзки за нови страници, играта може да се сбърка дейността за високоскоростна играч на човека и се върти извън контрол. За да се избегнат ситуации като тази, протоколът на робот изключване е разработен. Този протокол, който се осъществява в раздела за мета-таг в началото на дадена уеб страница, разказва един паяк да напусне страницата

Page [1] [2] [3] [4] [5] [6]