Извличане на знание
/ Knowledge Discovery >> Извличане на знание >> здраве >> медицина >> съвременната медицина >>

Как Google Грипна активност Works

релация на 97% с данни на CDC [Източник: Гинсбърг].
<Р> През септември 2009 г., моделът за американската версия на Google Flu Trends получава първата си актуализация за включване данните от заявките за търсене от избухването H1N1. Това е така, защото модела GFT бе напълно подценява H1N1 свински грип пандемията (което се случи през лятото). И след това той е продължил да пропусне целта.
<Р> По време на грипния сезон 2011/2012, GFT надценява разпространението на грип с 50 процента. GFT също надценил 2012/2013 грипен сезон, като прогнозира колкото двойно броя на амбулаторните посещения, свързани с ILI като CDC чува. В разгара на 2013/2014 грипен сезон, GFT изчислено, че колкото е 11 на сто от населението на САЩ болен от грип. Ако това изглежда като много, това е, защото тя е - за контрол на заболяванията, в сравнение, съобщава 6% този сезон. Изследователите съобщават, че точността на инструмента може действително да бъде много по-зле; те установили, че начало през август 2011 г. GFT е надценен в 100 от 108 седмици. [източници: Ходсън, Уолш, Lazer]
<р> Най-честото обяснение за разпространение грип надценяване на Google не е нищо повече от собственото ни резките движения при грип сезон ролки наоколо - нали знаете, когато търсите думата " " кашлица; в опит да разбера, ако сте слиза с грип, настинка или, може би, чакай, би могло да бъде пневмония? Media използване на фрази като " най-лошия грипен сезон в години " и сезонните грипни съобщенията в медиите, също допринасят за нашите кашлица-обсебен търсения. Проблемът е, че GFT не знае дали сте болен или просто притеснен за да е болен; помисли, че само около 10% от всички хора, които търсят медицинска помощ за грип всъщност имат по птиците [източник: Salzberg]. Google търсения не разполагат контекст, и те не знаят вашето намерение.
<Р> Но това може да не е пълен отговор.

В допълнение към ILI свързани с медийната истерия надуване търсения грип, работа с големи данни може да доведе до вземане на корелации, които може да не са точни. Това е най-големият капан данни. Докато резултатите от добив на данните може да нарисува една връзка между сезонни заявки за търсене и, да речем, посещения на лекар, отвесни масивността на масива от данни предполагат, че точността на съответствието не може да се вярва.
<Р> Друг въпрос за надценяване на GFT лежи в собствените актуализации алгоритъм на търсачката на Google. Изследователите предлагат въвеждането на AutoSuggest функция в

Page [1] [2] [3] [4] [5]