Извличане на знание
/ Knowledge Discovery >> Извличане на знание >> тек >> компютър >> интернет >> основи на интернет >>

Как интернет търсачки Work

даден файл или документ, той трябва да бъде намерен. За да намерите информация за стотиците милиони уеб страници, които съществуват, търсачката използва специални софтуерни роботи, наречени паяци, за изграждане на списъци с думите намерени на уеб сайтове. Когато един паяк строи своите списъци, процесът се нарича Web пълзи. (Има някои недостатъци за обажда част от интернет на World Wide Web - голям набор от паякообразни-ориентирани имена за инструменти е един от тях.) За да се изгради и поддържа списък с полезни думи, паяци търсачката имат да разгледаме много страници.
<р> Как всеки паяк започне пътуванията си през интернет? Обичайните отправни точки са списъци на силно използваните сървъри и много популярни страници. Паякът ще започне с популярен сайт, индексиране думите на неговите страници и след всеки линк намерен в рамките на обекта. По този начин системата за индексирането бързо започва да пътува, разстилане през най-широко използваните части на Мрежата.
<Р> Google започна като академична търсачката. В статията, която описва как е построена системата, Сергей Брин и Lawrence Page дам един пример за това колко бързо си паяци могат да работят. Те построили първата им система да се използват няколко паяци, обикновено три наведнъж. Всеки паяк може да поддържа около 300 връзки към уеб страници отворени в даден момент. В пика си представяне, като се използват четири паяци, тяхната система може да пълзи над 100 страници в секунда, като генерира около 600 килобайта на данни всяка секунда.
<Р> Поддържане на всичко работи бързо означаваше изграждане на система за изхранване необходима информация за паяците. Ранната система Google имаше сървър посветена на осигуряване на URL адреси към паяците. Вместо в зависимост от доставчика на интернет услуги за име на домейн сървър (DNS), който превежда името на сървъра е в един адрес, Google е имала свои собствени DNS, за да се запази закъсненията до минимум.

Когато паякът Google погледна към една HTML страница, тя се запознава с две неща:

<Ли> Думите в рамките на страницата
<Ли> Къде бяха открити думите

<р> Думи, срещащи се в бяха отбелязани титлата, субтитрите, мета таговете и други позиции на относителната важност за специално внимание по време на последващо търсене на потребителя. Паякът Google е построен за индексиране всяка значима дума на една страница, като оставя настрана статиите " а, " " на " и ". " на; Други паяци предприемат ра

Page [1] [2] [3] [4] [5] [6]