<р> Как всеки паяк започне пътуванията си през интернет? Обичайните отправни точки са списъци на силно използваните сървъри и много популярни страници. Паякът ще започне с популярен сайт, индексиране думите на неговите страници и след всеки линк намерен в рамките на обекта. По този начин системата за индексирането бързо започва да пътува, разстилане през най-широко използваните части на Мрежата.
<Р> Google започна като академична търсачката. В статията, която описва как е построена системата, Сергей Брин и Lawrence Page дам един пример за това колко бързо си паяци могат да работят. Те построили първата им система да се използват няколко паяци, обикновено три наведнъж. Всеки паяк може да поддържа около 300 връзки към уеб страници отворени в даден момент. В пика си представяне, като се използват четири паяци, тяхната система може да пълзи над 100 страници в секунда, като генерира около 600 килобайта на данни всяка секунда.
<Р> Поддържане на всичко работи бързо означаваше изграждане на система за изхранване необходима информация за паяците. Ранната система Google имаше сървър посветена на осигуряване на URL адреси към паяците. Вместо в зависимост от доставчика на интернет услуги за име на домейн сървър (DNS), който превежда името на сървъра е в един адрес, Google е имала свои собствени DNS, за да се запази закъсненията до минимум.
Когато паякът Google погледна към една HTML страница, тя се запознава с две неща:
<Ли> Думите в рамките на страницата
<Ли> Къде бяха открити думите
<р> Думи, срещащи се в бяха отбелязани титлата, субтитрите, мета таговете и други позиции на относителната важност за специално внимание по време на последващо търсене на потребителя. Паякът Google е построен за индексиране всяка значима дума на една страница, като оставя настрана статиите " а, " " на " и ". " на; Други паяци предприемат ра