Целью лабораторной работы является получение навыков формирования перечня ключевых слов и словосочетаний для релевантного отбора исследуемой совокупности текстов социальной сети. Значимость умения правильно формировать перечень ключевых слов и словосочетаний обусловлена тем, что это, пожалуй, самый важный из всех этапов исследования, так как именно он формирует совокупность текстов для анализа, и все последующие выводы будут зависеть от правильности подобранных ключевых слов. Неверный выбор ключевых слов кроме формирования непредсказуемой совокупности текстов, непригодных для анализа, также может непредсказуемо увеличить продолжительность сбора данных программой-краулером из-за обработки и скачивания в базу данных большого количества лишней нерелевантной информации.
Методика исследования заключается в выборочной проверке результатов выдачи стандартной поисковой формы социальной сети (например, Живого журнала) в ответ на ввод проверяемых ключевых слов и словосочетаний. В качестве дополнительного средства проверки можно использовать краулинг по накопленной базе данных веб-центра и выборочный контроль попавших в совокупность сообщений.
В лабораторной работе используются: поисковая форма Живого журнала, пакет SD/Crawler, свободно распространяемое программное обеспечение (СПО) Notepad++.
Информационная база лабораторной работы включает в себя: собранные базы web-центра «Социодинамика» по темам «Зеленый weekend», «введение платности среднего образования» и «законы о пропаганде гомосексуализма», которые делятся между студентами по одной на каждого студента.
Особенностью данной лабораторной работы является применимость получаемых навыков для широкого спектра исследований социальных сетей: как традиционными методами (контент анализ, выборочный метод), так и автоматизированными.
Результат выполнения работы:
- совокупность ключевых слов и выражений, которые позволяют отбирать релевантные тексты для проведения исследования, не допуская «мусора» в результатах поиска по ключевым словам, статистика проверки релевантности выдачи по ним.
- перечень отбракованных слов и словосочетаний и причин выбраковки, - примеров и статистики нерелевантных сообщений, отбираемых по ним.