Вход в личный кабинет

  запомнить меня
Войти

Забыли пароль?
Регистрация

Посетители

За сутки: 150 чел.
За неделю: 2099 чел.
За месяц: 28330 чел.


Главная / Учебные материалы / ЛЕКЦИОННЫЕ МАТЕРИАЛЫ / Лекция 6. Автоматизированные методы исследования, применяемые к социальным сетям / Краулинг социальных сетей


Краулинг социальных сетей


Краулинг (англ. crawling- ползущий) – процедура анализа веб-страниц; общий процесс загрузки страниц, просмотра текста и ссылок.

Методика краулинга web-страниц описывается в работе Г. Алмпанидиса, С. Котропулоса, И. Питаса [21].

Дж. Ким, Х. Ким, Х. Ох, Ю. Руй, используя исследования предпочтений и личной информации участников социальных сетей, создали листы рекомендаций на основе их вкусовых предпочтений [22].

В. Силенцо, П. Дуберштейн, В. Танг и коллектив авторов [23] исследуют с помощью краулинга связи подростков в социальных сетях с целью выявления сексуальных меньшинств и определения их потенциальной склонности к суицидам.

В рамках web-центра прикладной пакет SD/Crawler представляет собой многофункциональный краулер для сбора информации по социальной сети. Он реализует различные пути доступа к данным из социальной сети, например, использование API оператора сети (vkontakte.ru, facebook.com, livejournal.com) или разбор html-кода, который выдается при входе на соответствующие персональные страницы.

В зависимости от задач, решаемых краулером, возможны различные варианты его реализации в распределенной среде. Для описания семантических свойств узлов сети, в простейшем случае, может быть использован список ключевых слов, встречаемых на этом узле. Например, в случае сервиса Livejournal.com, где каждый узел описывается набором текстов, можно смотреть, насколько часто употребляются заданные слова в этих текстах.

Для эффективного сбора информации в социальных сетях важно обеспечить высокую производительность краулера, что достигается за счет баланса операций по просмотру и записи данных в социальной сети, и операций по их передаче в Интернет. Для этого были проведены тестовые измерения производительности краулера SD/Crawler в сети LiveJournal (ЖЖ). За один день функционирования краулер обрабатывает данные около 700 тысяч пользователей сети со средней скоростью работы 490 пользователей в минуту. При этом выполняется около 270 итераций (которые соответствуют заданиям отдельных агентов).

 

Все права защищены © НИУ ИТМО 2012
199034, Санкт-Петербург, Биржевая линия, д. 4. Телефон: (812) 337-64-90, НИИ НКТ НИУ ИТМО
Связаться с нами Вы можете в разделе контакты
Также Вы можете ознакомиться с политикой обработки персональных данных и с соглашением об использовании портала