Извличане на знание
/ Knowledge Discovery >> Извличане на знание >> тек >> компютър >> интернет >> основи на интернет >>

Как интернет търсачки Work

информацията може да се съхранява в много компактна форма. След информацията е уплътнена, че е готов за индексиране
<р> Индекс има една-единствена цел:. Тя позволява на информация, за да се намери възможно най-бързо. Има доста начини за индекс да се изграждат, но един от най-ефективните начини е да се изгради хеш таблица. В хеширане, една формула се прилага за свързване на цифрова стойност на всяка дума. Формулата е предназначена да се разпредели равномерно по вписванията през предварително определен брой дивизии. Тази числова разпределение е различно от разпределението на думи в цялата азбука, и това е ключът към ефективността маса на хашиш.
<Р> На английски език, има някои писма, които започват много думи, докато други започват по-малко. Ще откриете, например, че " M " раздел на речника е много по-дебела от " X " раздел. Това неравенство означава, че намирането на думата, започваща с много " " популярен; писмо може да отнеме много повече време, отколкото намирането на дума, която започва с по-малко популярна. Хеширане изравнява разликата, и намалява средното време отнема да намерите запис. Той също така се отделя индекса от действителната запис. Хеш таблицата съдържа номера на хеширано заедно с показалец към актуалните данни, които могат да бъдат сортирани в зависимост от това кое начин позволява да се съхраняват най-ефективно. Комбинацията от ефективно индексиране и ефективно съхранение дава възможност да получите резултати бързо, дори когато потребителят създава сложно търсене.
Изграждане на Search
<р> Търсене чрез индекс, включва указание за изграждане на заявката и да го представи чрез търсачката. Заявката може да бъде доста проста, нито една дума на минимално ниво. . Изграждане на по-сложен въпрос, изисква използването на булеви оператори, които ви позволяват да се усъвършенства и да се разшири обхватът на търсенето

булеви оператори най-често наблюдавани са:

<Ли> И - All условията, свързани чрез " И " трябва да се появи на страниците или документите. Някои търсачки заместват оператора " " +; за думата И
<Ли> OR - Най-малко един от термините присъединиха ". " OR; трябва да се появи на страниците или документите
<Ли> НЕ - Терминът или условията следните ". " НЕ; Не трябва да се появи на страниците или документите. Някои търсачки заместват оператора " - " за думата НЕ
<Ли> ПОСЛЕДВАНО ОТ -. Едно от условията

Page [1] [2] [3] [4] [5] [6]