Извличане на знание
/ Knowledge Discovery >> Извличане на знание >> тек >> компютър >> интернет >> развитие уеб дизайн >>

Как Google Книги Works

ok Сканиране и стратегия
<р> От само себе си се разбира, че сканиране на милиони книги е гигантска предприятие. Само в техническите предизвикателства са значителни. Традиционна оборудване за сканиране използва стъклена пластина, която напълно се изравнява всяка страница, като се гарантира, че OCR (оптично разпознаване на символи) софтуер е в състояние да се идентифицират на буквите и цифрите, отпечатани на страниците са дигитализирани. След като огледа, тези знаци могат да бъдат редактирани и търсене с компютър.
<Р> За да се премахне необходимостта от стъклени плочи и да се намали възможността за увреждане на книгите тя иска да запази, Google патентова нов процес сканиране на книги. Работниците просто пускат книгата на отворена книга скенер, който няма нито една стъклена пластина, нито който и да е друго оборудване, което ще се изглади книга. Усъвършенстван софтуер на Google сканира книгата и сметки за изкривяване на страниците, което означава, че няма влошаване на разпознаване на символи. Скенерите работят със скорост от около 1000 страници на час.
<Р> Google разработен споразумения с основните библиотеки за стартиране на проекта. The Нюйоркската обществена библиотека, както и университетските библиотеки в Харвард, Мичиган и Stanford, всички се съгласиха да споделите с Google сканира техните обеми. С помощта на тези институции, Google вече сканирани около 12 милиона книги [Източник: Фон Ломан].
<Р> експанзивност на проекта означава, че най-голямото му обещание е предоставяне на достъп до книги, които хората иначе би никога не виждат. Един студент във Флорида да получите достъп до специална Индианци колекция от другата страна на държавата. Хората, които не могат да си позволят да пътуват, за да видите древни текстове във Франция може да разглеждате тези томове от техните дневни. И благодарение на допълнителни усилия на Google, а хора с увредено зрение човек може да видите книги за уголемени дисплеи, използвайте Брайл оборудване, или да слушате документи чрез четене на глас технология.
<Р> Първоначално Google Books, планирани за дигитализиране работи само в обществото домейн, който се състои от около 20 процента от всички книги [източник: Toobin]. В Съединените щати, книги стават обществено достояние 70 години след смъртта на автора; като обществено достояние, те вече не са със запазени авторски права.
<р> Въпреки това, както Google сканиран, той започна записа дори защитени с авторски права текстове. Фирмата не е пускал матери

Page [1] [2] [3] [4] [5] [6]