Вход в личный кабинет
Посетители
За сутки: 185 чел.
За неделю: 1651 чел.
За месяц: 41659 чел.
Главная / Учебные материалы / ЛЕКЦИОННЫЕ МАТЕРИАЛЫ / Лекция 6. Автоматизированные методы исследования, применяемые к социальным сетям / Краулинг социальных сетей
Краулинг социальных сетей
Краулинг (англ. crawling- ползущий) – процедура анализа веб-страниц; общий процесс загрузки страниц, просмотра текста и ссылок.
Методика краулинга web-страниц описывается в работе Г. Алмпанидиса, С. Котропулоса, И. Питаса [21].
Дж. Ким, Х. Ким, Х. Ох, Ю. Руй, используя исследования предпочтений и личной информации участников социальных сетей, создали листы рекомендаций на основе их вкусовых предпочтений [22].
В. Силенцо, П. Дуберштейн, В. Танг и коллектив авторов [23] исследуют с помощью краулинга связи подростков в социальных сетях с целью выявления сексуальных меньшинств и определения их потенциальной склонности к суицидам.
В рамках web-центра прикладной пакет SD/Crawler представляет собой многофункциональный краулер для сбора информации по социальной сети. Он реализует различные пути доступа к данным из социальной сети, например, использование API оператора сети (vkontakte.ru, facebook.com, livejournal.com) или разбор html-кода, который выдается при входе на соответствующие персональные страницы.
В зависимости от задач, решаемых краулером, возможны различные варианты его реализации в распределенной среде. Для описания семантических свойств узлов сети, в простейшем случае, может быть использован список ключевых слов, встречаемых на этом узле. Например, в случае сервиса Livejournal.com, где каждый узел описывается набором текстов, можно смотреть, насколько часто употребляются заданные слова в этих текстах.
Для эффективного сбора информации в социальных сетях важно обеспечить высокую производительность краулера, что достигается за счет баланса операций по просмотру и записи данных в социальной сети, и операций по их передаче в Интернет. Для этого были проведены тестовые измерения производительности краулера SD/Crawler в сети LiveJournal (ЖЖ). За один день функционирования краулер обрабатывает данные около 700 тысяч пользователей сети со средней скоростью работы 490 пользователей в минуту. При этом выполняется около 270 итераций (которые соответствуют заданиям отдельных агентов).