Извличане на знание
/ Knowledge Discovery >> Извличане на знание >> тек >> компютър >> интернет >> основи на интернет >>

Как интернет търсачки Work

сам -. Към нито индекс думите на страницата, нито се опитвам да следвам неговите връзки
Изграждане на Индекса <Бразилски>

След паяците са завършили задачата за намиране на информация в уеб страници (и ние трябва да се отбележи, че това е задача, която никога не е действително завършено - постоянно променящия се характер на интернет означава, че паяците са винаги пълзи) , търсачката трябва да съхранява информацията по начин, който го прави полезен. Има два основни компонента, участващи в изграждането на събраните данни, достъпна за потребители:

<Ли> Информацията, съхранена с данните

  • Методът, по който информацията се индексира

    В най-простия случай, търсачката може просто да се съхранява на думата и адреса, където е била намерена. В действителност, това ще направи за двигател с ограничена употреба, тъй като няма да има начин да кажете дали думата е използвана в един важен или тривиален начин на страницата, независимо дали думата се използва веднъж или много пъти, или дали страницата съдържаща се линкове към други страници, съдържащи думата. С други думи, няма да има начин за изграждане на класирането, че се опитва да представи най-полезните страници в горната част на списъка с резултати от търсенето.
    <Р> За да бъде по-полезни резултати, повечето търсачки магазин повече от просто думата и URL. Един двигател може да се съхранява на броя пъти, че думата се появява на страницата. Двигателят може да зададете теглото на всеки пост, с повишаване на стойностите, определени за думи, тъй като те се появяват в горната част на документа, в подзаглавия, в линкове, в мета таговете или в заглавието на страницата. Всяка търговска търсачката има различна формула за определяне на теглото на думите в своя индекс. Това е една от причините, че търсенето на една и съща дума за различните търсачки ще се произвеждат различни списъци, с страниците, представени в различни поръчки.
    <Р> Независимо от точната комбинация от допълнителни части от информацията, съхранени от търсенето двигателя, данните ще бъдат кодирани, за да спестите пространство за съхранение. Например, оригиналната хартия Google описва с помощта на 2 байта, на 8 бита на всеки, да съхранява информация на претегляне - дали думата е капитализирана, неговия размер на шрифта, позиция, както и друга информация, която да помогне в класацията хит. Всеки фактор може да отнеме до 2 или 3 бита в рамките на обединението 2-байт (8 бита = 1 байт). В резултат на това голяма част от

    Page [1] [2] [3] [4] [5] [6]