Извличане на знание
/ Knowledge Discovery >> Извличане на знание >> тек >> компютър >> компютърна сигурност >>

Как може един алгоритъм спот тролове в интернет?

ане от Stanford Graduate Fellowship и Факултет Research Award на Google) проведе проучване, за да се види дали те биха могли да използват количествени мерки за откриване антисоциални потребители. Те получиха достъп до потребителски коментари, хоствани от Disqus за обектите Breitbart.com, CNN.com и IGN.com, обхващащ 18 месеца от март 2012 г. до август 2013 г. данните се състои от около 1,75 милиона потребители (почти 49,000 от тях забранени), 1,26 милиона нишки и 39 милиона съобщения (близо 838 000 от тях изтрити и 1,35 милиона от тях докладвани). Те стеснен забранени потребителски данни надолу до около 12 000 потребители, които се присъединиха към обектите след март 2012 г., имаше най-малко пет длъжности и са забранени за постоянно за нещо различно от спам URLs [източник: Cheng].
<Р> Учените заловените данни включително пощенски съдържание, активността на потребителя, отговор на общността и модераторски действия. Те сравнили съобщения на потребители, които никога не са били забранени за съобщения на потребители, които са постоянно забранени, и погледна към промени в поведението на забранени потребител, над своето време. Екипът е открил, че постовете на бъдещите забранени тролове са склонни да имат следните характеристики:

  • бедни правопис и граматика
    <> Ли повече ругатни
    <> Li-негативни думи
    <Ли> по-малко отстъпчив или ориентировъчни език
    <Ли> ниски разбираемост четения основава на няколко теста четимост (включително автоматизирана Readability индексът), който се е влошил към момента на забрана
    <Ли> използване на различни жаргонни думи и функционални от членове, които не са забранени в общността
    <Ли> повече отклонение от темата
    <Ли> много по-висок брой коментар мнения от средния потребител
    <Ли> тенденция да се концентрира своите отговори в отделни теми <Бразилски> <ли> тенденция да провокира повече отговори от други
    <Ли>-лошо поведение с течение на времето в резултат на което техните постове все повече се заличават преди да забранят

    <р> На CNN.com, средния потребител с тенденция да публикувате около 22 длъжности през 18-месечния период, а бъдещите забранено потребителите публикувани около 264 пъти, преди да бъдат забранени [източници: Ченг, Collins]. Обществото е и по-малко вероятно да се толерира на трол с течение на времето.
    <Р> С помощта на количествено измерими резултати, учените са успели да разработят алгоритъм (набор от стъпки, използван за решаване на проблем или изпълне

    Page [1] [2] [3] [4]