Извличане на знание
/ Knowledge Discovery >> Извличане на знание >> тек >> компютър >> интернет >> основи на интернет >>

Как Deep Web Works

да има десетки, стотици или дори хиляди под-страници, много от които не са каталогизирани, и по този начин попадат в категорията на дълбока Web.
<Р> Въпреки, че никой не знае със сигурност, бездната Web може да бъде от 400 до 500 пъти по-голям, че на повърхността Web [източник: BrightPlanet]. И както на повърхността и дълбоко Web растат по-големи и по-големи всеки ден.
<Р> За да се разбере защо толкова много информация е извън полезрението на търсачките, тя помага да има малко на фона на търсещи технологии. Можете да прочетете всичко за него с Как интернет търсачки Work, но ние ще ви дадем бърз стъпки тук.
<Р> Търсачките обикновено създават индекс по данни чрез намиране на информация, която се съхранява на уеб сайтове и други онлайн ресурси , Този процес означава използването на автоматизирани паяци или роботи, които локализират домейни и след това следват хипервръзки към други области, като паякообразни след копринените пипала на уеб, в известен смисъл създаването на разтегнат карта на Мрежата.
<Р> Този индекс или картата е вашият ключ към намирането на конкретни данни, че е от значение за вашите нужди. Всеки път, когато въведете ключова дума за търсене, резултатите се появяват почти мигновено благодарение на този индекс. Без него, търсачката буквално ще трябва да започнат да търсят милиарди страници от нулата всеки път, когато някой иска информация, процес, който би бил труден за носене, така и дразнещ.
<Р> Но търсачките не могат да виждат данните, съхранявани на дълбоко Web. Има несъответствия на данни и техническите пречки, които затрудняват усилията за индексиране. Има частни Web сайтове, които изискват пароли за вход, преди да можете да получите достъп до съдържанието. Влечуго не могат да проникнат на данни, която изисква търсения по ключови думи на един, специфичен уеб сайт. Има сайтове, навременна-достъп, които вече не позволяват обществени възгледи веднъж определен срок е изтекъл.
<Р> Всички тези предизвикателства, и един куп други, правят данни много по-трудно за търсачките да намерят и индекс. Дръжте четене, за да видите повече за това, което разделя повърхността и дълбоко Web.
Точно под повърхността
<р> Както вече бе отбелязано, има милиони и милиони под-страници, разпръснати в цялата милиони домейни. Има вътрешни страници с никакви външни връзки, като например internal.howstuffworks.com, които се използват за целите на поддръжката на сайта. Има непубликувани или скрити блог постове, картинни галерии, фа

Page [1] [2] [3] [4] [5] [6] [7]