Вход в личный кабинет

  запомнить меня
Войти

Забыли пароль?
Регистрация

Случайная статья

OwenUzw


Посетители

За сутки: 189 чел.
За неделю: 1685 чел.
За месяц: 41687 чел.


Главная / Учебные материалы / Методические указания для самостоятельных работ / Самостоятельное исследование 2 / Основные сведения теории


Основные сведения теории


Краулинг
Краулинг (англ. crawling- ползущий) – процедура анализа веб-страниц; общий процесс загрузки страниц, просмотра текста и ссылок.

В рамках web-центра прикладной пакет SD/Crawler представляет собой многофункциональный краулер для сбора информации по социальной сети. Он реализует различные пути доступа к данным из социальной сети, например, использование API оператора сети (vkontakte.ru, facebook.com, livejournal.com) или разбор html-кода, который выдается при входе на соответствующие персональные страницы.

Назначением пакета SD/Crawler является сбор данных о пользователях в социальных сетях, а также предоставление удобного API для их дальнейшего анализа. При этом необходимо обеспечить обход только той части сети, что удовлетворяет некоторому семантическому описанию.

Особенностями данного программного пакета являются:
- Распределенный краулинг, производимый с нескольких машин;
- Распределенное хранилище данных, устойчивое по отношению к выходу из строя элементов системы;
- Использование как специального API, предоставляемого социальной сетью, для сбора информации, так и разбор непосредственного Html кода, выдаваемого сервисами;
- Осуществление обхода только того участка сети, что удовлетворяет ряду требований.

Входными данными для работы краулера служат:
- Множество узлов сети, с которых краулер начинает обходить сеть;
- Набор правил, определяющих множество посещаемых краулером узлов.

Для описания семантических свойств узлов сети, в простейшем случае, может быть использован список ключевых слов, встречаемых на этом узле. Например, в случае сервиса Livejournal.com, где каждый узел описывается набором текстов, можно смотреть, насколько часто употребляются заданные слова в этих текстах. Также для определения соответствия узла ряду семантических описаний могут быть использованы методы машинного обучения, анализа текстов и обработка естественных языков.

Для эффективного сбора информации в социальных сетях важно обеспечить высокую производительность краулера, что достигается за счет баланса операций по просмотру и записи данных в социальной сети, и операций по их передаче в Интернет. Для этого были проведены тестовые измерения производительности краулера SD/Crawler в сети LiveJournal (ЖЖ). За один день функционирования краулер обрабатывает данные около 700 тысяч пользователей сети со средней скоростью работы 490 пользователей в минуту. При этом выполняется около 270 итераций (которые соответствуют заданиям отдельных агентов).

Применение краулера в рамках лабораторной работы происходит по накопленной базе сохраненных текстов web-центра для получения устойчивых сопоставимых проверяемых результатов.

Зеленый weekend 2012
«Зелёный weekend» стал большим мероприятием для всей страны. 100 тонн вторсырья собрали участники 85 событий в разных уголках нашей страны. К акции присоединились школы, университеты, общественные организации и коммерческие компании.





 

Все права защищены © НИУ ИТМО 2012
199034, Санкт-Петербург, Биржевая линия, д. 4. Телефон: (812) 337-64-90, НИИ НКТ НИУ ИТМО
Связаться с нами Вы можете в разделе контакты
Также Вы можете ознакомиться с политикой обработки персональных данных и с соглашением об использовании портала