Strict Standards: Non-static method mod_db::open_base() should not be called statically in /var/www/socio/public_html/content/frames/doca.php on line 33

Deprecated: mysql_connect(): The mysql extension is deprecated and will be removed in the future: use mysqli or PDO instead in /var/www/socio/public_html/cms/classes/mod_db.php on line 21

Strict Standards: Non-static method mod_db::db_query() should not be called statically in /var/www/socio/public_html/cms/classes/mod_db.php on line 31

Strict Standards: Non-static method mod_db::db_query() should not be called statically in /var/www/socio/public_html/cms/classes/mod_db.php on line 32

Strict Standards: Non-static method mod_db::db_query() should not be called statically in /var/www/socio/public_html/cms/classes/mod_db.php on line 33
CLAVIRE
Strict Standards: Non-static method mod_safe::get_param() should not be called statically in /var/www/socio/public_html/content/frames/doca.php on line 59

Strict Standards: Non-static method mod_db::escape_string() should not be called statically in /var/www/socio/public_html/content/frames/doca.php on line 59

Strict Standards: Non-static method mod_db::db_query() should not be called statically in /var/www/socio/public_html/content/frames/doca.php on line 60

Strict Standards: Non-static method mod_db::db_objects() should not be called statically in /var/www/socio/public_html/content/frames/doca.php on line 61
Анализ и интерпретация результатов
Интерпретация результатов на этапе проверки релевантности перечня ключевых слов и словосочетаний с помощью поисковой формы Живого журнала.

С учетом того, что поисковая форма ЖЖ располагает в начале выдачи самые релевантные результаты, а затем – по убыванию релевантности, и далее – практически нерелевантные нестрогие соответствия, нужно определить границы строго соответствия выдачи (на какой из страниц выдачи начинаются нестрогие соответствия), а затем в рамках этих границ – оценить степень релевантности выдачи исследовательской задаче.

Предлагается оценить полностью 10 страниц из разных частей выдачи (в рамках строгого соответствия ключевым словам). В случае, если количество страниц со строгим соответствием ключевому слову меньше 10, соответственно, оцениваются все имеющиеся страницы, а если таких страниц больше 10 – для оценки выбираются равномерно распределенные по выдаче 10 страниц с некоторым шагом (например, при количестве страниц строгого соответствия 20 страниц, оценивается каждая вторая страница, при количестве страниц строгого соответствия 30 страниц, оценивается каждая третья страница и т.п.). При рассмотрении выдачи 10 отобранных для оценки страниц анализируется соответствие содержания найденных постов заданной теме исследования. Часто для оценки даже не приходится открывать сообщение полностью, так как приведенный в выдаче кусок текста дает возможность оценить контекст употребления ключевого слова, однако в неясных случаях и при сомнении необходимо открывать само сообщение. Если сообщение соответствуют заданной нами теме, мы считаем его релевантным, если не соответствует – то считаем нерелевантным. В итоге мы должны получить статистические данные, содержащие информацию о том, сколько постов попало в проверяемую совокупность (при строгом соответствии заданному ключевому словосочетанию), сколько постов было проанализировано на 10 отобранных для оценки страницах выдачи, сколько постов из них было релевантных, сколько – нерелевантных. Эта статистика приводится в отчете, где также описывается характер и примеры нерелевантных сообщений.

Таблица 1.1 Результаты оценки релевантности ключевых слов/словосочетаний
Проверяемое ключевое слово/ словосочетание Общее количество найденных поиском ЖЖ постов, содержащих проверяемые слова, шт. Количество постов на 10 отобранных для оценки страницах выдачи, шт. Количество нерелевантных постов, шт. Относительное кол-во нерелевантных постов*, % Оставлено в списке ключевых слов (да/ нет)
1 Ключевое
слово 1
2 Ключевое
слово 2
... ....



* Рассчитывается как отношение количества нерелевантных сообщений к количеству оцениваемых постов, умноженное на 100

В конце отчета отдельно приводится список прошедших проверку (одобренных) ключевых слов и словосочетаний.


Интерпретация результатов на этапе проверки релевантности перечня ключевых слов и словосочетаний с помощью страницы краулинга веб-центра «Социодинамика» по накопленной базе данных веб-центра.

Дополнительная верификация подобранных словосочетаний проводится с помощью краулинга и накопленной базы данных веб-центра «Социодинамика». Используется страница краулинга http://socio.escience.ifmo.ru/crawler/ и свободно распространяемое программное обеспечение Notepad++, доступное для скачивания по адресу http://notepad-plus-plus.org/download/v6.2.3.html.

На странице краулинга проверяемое ключевое слово вводится в окно краулинга, выбирается соответствующая теме база данных («Зеленый weekend» – greenweekend, «введение платности среднего образования» - law_83, «законы о пропаганде гомосексуализма» – homosexuality).

После проведения тестового краулинга по накопленной базе данных веб-центра, результаты краулинга сохраняются на компьютер пользователя в соответствии с тем как это описано в видеоуроках (электронных тьюторах). Результат работы краулинга с названием файла вида «output.documents» необходимо открыть в предварительно скачанной и установленной свободно распространяемой программе Notepad++, либо в другой программе-блокноте. В файле «output.documents» есть ссылки на все найденные сообщения с их датами, – можно скопировать в браузер ссылку на конкретное сообщение и увидеть само это сообщение. Рекомендуется равномерно распределить проверяемую выборку сообщений по совокупности найденных документов, то есть брать, сообщения с некоторым шагом (каждое пятое, каждое десятое и т.п.). Рекомендуется проанализировать содержание 50–100 постов.

Если проверяемое сообщение соответствует заданной нами теме, мы считаем его релевантным, если не соответствует – то считаем нерелевантным. В итоге мы должны получить статистические данные, содержащие информацию о том, сколько постов попало в проверяемую совокупность, сколько было проанализировано, сколько постов из проверенных было релевантных, сколько – нерелевантных. Эта статистика приводится в отчете, где также описывается характер и примеры нерелевантных сообщений. Интерпретируется как процент релевантности выдачи, так и степень отклонения от темы сообщений, признанных нерелевантными (в каких-то случаях это могут быть сообщения не по теме, но по схожей теме, что полбеды, но в каких-то случаях будут попадать посты из абсолютно других тем, говорит об уязвимости выбора анализируемого ключевого слова/словосочетания и, возможно, необходимости его выбраковки).

В отчете помечается, прошло ли каждое из ключевых словосочетаний проверку, либо было отбраковано по результатам проверки.


Отчет о работе должен включать в себя следующие компоненты:

1) Перечень проверенных ключевых слов для отбора совокупности исследуемых текстов для тематик «Зеленый weekend»/«введение платности среднего образования»/«законы о пропаганде гомосексуализма». Перечень отбракованных ключевых слов/словосочетаний. В случае самостоятельного выполнения лабораторной работы для самопроверки можно использовать перечни проверенных ключевых слов по данным темам по ссылке.

2) Описание выполнения работы с интерпретацией результатов лабораторного исследования.

Рекомендуемая структура отчета о выполнении лабораторной работы:

Strict Standards: Non-static method mod_db::db_objects() should not be called statically in /var/www/socio/public_html/content/frames/doca.php on line 61


обратно к оглавлению
Strict Standards: Non-static method mod_db::close_base() should not be called statically in /var/www/socio/public_html/content/frames/doca.php on line 77