Вход в личный кабинет
Посетители
За сутки: 189 чел.
За неделю: 1685 чел.
За месяц: 41687 чел.
Главная / Учебные материалы / Методические указания для самостоятельных работ / Самостоятельное исследование 2 / Основные сведения теории
Основные сведения теории
Краулинг
Краулинг (англ. crawling- ползущий) – процедура анализа веб-страниц; общий процесс загрузки страниц, просмотра текста и ссылок.
В рамках web-центра прикладной пакет SD/Crawler представляет собой многофункциональный краулер для сбора информации по социальной сети. Он реализует различные пути доступа к данным из социальной сети, например, использование API оператора сети (vkontakte.ru, facebook.com, livejournal.com) или разбор html-кода, который выдается при входе на соответствующие персональные страницы.
Назначением пакета SD/Crawler является сбор данных о пользователях в социальных сетях, а также предоставление удобного API для их дальнейшего анализа. При этом необходимо обеспечить обход только той части сети, что удовлетворяет некоторому семантическому описанию.
Особенностями данного программного пакета являются:
- Распределенный краулинг, производимый с нескольких машин;
- Распределенное хранилище данных, устойчивое по отношению к выходу из строя элементов системы;
- Использование как специального API, предоставляемого социальной сетью, для сбора информации, так и разбор непосредственного Html кода, выдаваемого сервисами;
- Осуществление обхода только того участка сети, что удовлетворяет ряду требований.
Входными данными для работы краулера служат:
- Множество узлов сети, с которых краулер начинает обходить сеть;
- Набор правил, определяющих множество посещаемых краулером узлов.
Для описания семантических свойств узлов сети, в простейшем случае, может быть использован список ключевых слов, встречаемых на этом узле. Например, в случае сервиса Livejournal.com, где каждый узел описывается набором текстов, можно смотреть, насколько часто употребляются заданные слова в этих текстах. Также для определения соответствия узла ряду семантических описаний могут быть использованы методы машинного обучения, анализа текстов и обработка естественных языков.
Для эффективного сбора информации в социальных сетях важно обеспечить высокую производительность краулера, что достигается за счет баланса операций по просмотру и записи данных в социальной сети, и операций по их передаче в Интернет. Для этого были проведены тестовые измерения производительности краулера SD/Crawler в сети LiveJournal (ЖЖ). За один день функционирования краулер обрабатывает данные около 700 тысяч пользователей сети со средней скоростью работы 490 пользователей в минуту. При этом выполняется около 270 итераций (которые соответствуют заданиям отдельных агентов).
Применение краулера в рамках лабораторной работы происходит по накопленной базе сохраненных текстов web-центра для получения устойчивых сопоставимых проверяемых результатов.
Зеленый weekend 2012
«Зелёный weekend» стал большим мероприятием для всей страны. 100 тонн вторсырья собрали участники 85 событий в разных уголках нашей страны. К акции присоединились школы, университеты, общественные организации и коммерческие компании.