В основе алгоритма распространения слухов лежит модель Дэлей-Кендала [5]. Эта модель распространения слухов считается в своем роде классической и часто сокращенно называется по первым буквам создателей модели: DK (ДК).
Кратко опишем суть модели: предположим, мы имеем в сообществе N людей. Все члены сообщества делятся на три категории:
I (ignorant): люди, которым не известен слух;
S (spreaders): люди, которые слышали и распространяют слух;
R (stiflers): люди, которые слышали слух, но им уже не интересно передавать его дальше.
Исследователем вводятся параметры , – конфигурационные параметры:
- вероятность передачи информации от информированного человека (S, spreaders) к неинформированному (I, ignorant) на каждом шаге цикла модели
- вероятность «забывания» информации, то есть окончательное прекращения передачи слухов дальше от данного человека (переход члена сообщества из (S, spreaders) в R (stiflers);
Приложение этой теории к социальным сетям в сети Интернет требует некоторого переопределения понятий, так как изначальная модель рассчитана на личные, а не виртуальные контакты. В этом смысле можно интерпретировать понятия примерно так:
I (ignorant): люди, которым не известен слух.
S (spreaders): люди, которые видели информацию/слух в социальной сети (например, в новостях от друзей), и распространяют его.
R (stiflers): люди, которые раньше видели информацию, но не распространяют ее.
С учетом того, что трудно отследить факт прочтения новости в ленте новостей, приходится считать информированными людьми (S) только тех, кто перепостил информацию, либо отметил «лайком», либо прокомментировал, либо как-то иным образом отреагировал на информацию.
В веб-центре «Социодинамика» под S понимаются пользователи, которые сами перепостили какую-либо информацию, и которых, в свою очередь, перепостил хотя бы один их подписчик.
Под R понимаются пользователи, которые сами перепостили какую-либо информацию, но которых либо никто из их подписчиков не перепостил, либо эти перепосты подписчиков были, но прекратились (то есть пользователь перешел из категории S в R).
Модель также построена на допущении, что информация может распространяться только по сетям дружбы/подписки (то есть, появившись первый раз у одного пользователя социальной сети, информация распространяется только подписчикам источника, потом друзьям его друзей и т.п. Иные способы получения информации (например, внешние СМИ, или список наиболее читаемых сообщений на главной странице ЖЖ) для упрощения модели не предусмотрены. В перспективе возможно изменение алгоритма с введением периодического появления с некоторой вероятностью новых источников (которые могли получить информацию из СМИ, анонсов наиболее популярных сообщений в ЖЖ на главной странице и т.п.).
Алгоритм работы модели Дэлей-Кендала основан на цикличном алгоритме моделирования. Алгоритм описан ниже:
1. Выбирается случайная вершина загруженного в программу графа подписок тематического фрагмента социальной сети. Этой вершине присваивается статус S (распространитель). Остальным вершинам присваивается статус I (неосведомленные). Множество R на старте – пустое. Это стартовое состояние, с которого начинается работа циклов моделирования.
2. В каждом цикле моделирования (который может быть приравнен к периоду времени, - например, к 24 часам) рассматриваются подписчики (соседи) вершины распространителя S. Если подписчик (сосед), t, имеет статус I (неосведомленный), то с вероятностью вершина-подписчик t попадает во множество S (распространителей).
3. Также в каждом цикле моделирования для каждой из вершин-распространителей множества S решается вопрос, остается ли вершина распространителем S, либо будет переведена в статус R (бывших распространителей, которые перестали распространять информацию по какой-либо причине). С вероятностью вершина S попадает во множество R и в последующих циклах моделирования не будет распространять информацию. С какой-то вероятностью (как и в жизни), вершина может перейти из статуса S в статус R, не породив ни одного репоста сообщения у своих подписчиков. Аналогом этой ситуации в реальности является то, что человек репостнул сообщение, но дальше оно не распространилось – никто из его подписчиков не откликнулся на это своим репостом.
4. В конце каждого цикла моделирования сохраняется информация о составе множеств I, R, S. Если множество S и множество I не пусты, то есть в социальной сети еще остались распространители и неосведомленные члены, повторяем шаги 2‑4. Если в сети исчезли распространители S, либо не осталось неосведомленных вершин I, то моделирование заканчивается.
II Степень вершины, распределения
Степень вершины — число выходящих из неё рёбер [6]. В нашем случае степень вершины – это число подписчиков (т.е. ребер) конкретного пользователя (т.е. вершины) в рассматриваемом фрагменте социальной сети. Важно понять, что при исследовании тематических сообществ и каналов распространения информации степенью вершины является не общее число подписчиков данного пользователя, а только то число подписчиков, которые вовлечены в обсуждение рассматриваемой темы (в первом случае), либо вовлечены в распространение исследуемой информации (во втором случае). Смотри подробнее в Основных сведениях теории лабораторных работ «Анализ размера и сетевых параметров сообщества. Построение социограммы сетевого сообщества», «Анализ скорости и каналов распространения информации».
Распределения - одно из основных понятий теории вероятностей и математической статистики. Распределение вероятностей какой-либо случайной величины, т. е. величины, принимающей в зависимости от случая то или иное численное значение, задаётся указанием возможных значений этой величины и соответствующих им вероятностей [7].
Так, например, для числа m очков, выпадающих на верхней грани игральной кости, распределение вероятностей pm задаётся табличкой:
Возможные значения m |
1 |
2 |
3 |
4 |
5 |
6 |
Соответствующие вероятности pm |
1/6 |
1/6 |
1/6 |
1/6 |
1/6 |
1/6 |
Подобным же образом распределение любой случайной величины X, возможные значения которой образуют конечную или бесконечную последовательность, задаётся указанием этих значений
x1, x2, ..., xn, ...
и соответствующих им вероятностей
p1, p2, ..., pn, ...
При этом вероятности pm должны быть положительны и в сумме должны давать единицу. Распределения указанного типа называются дискретными (в отличии от непрерывного распределения, когда значения изменяются не дискретно, а непрерывно – в этом случае задается вероятность не конкретных значений, а попадания значения в некоторые интервалы).
В нашем случае распределение степеней вершин, составленное на основе реального фрагмента социальной сети, с одной стороны фиксирует, сколько раз в данном фрагменте встречаются вершины (т.е. пользователи) с определенной степенью (т.е. определенным количеством подписчиков). С другой стороны, при создании модели сети заданного размера с использованием данного распределения, это распределение степеней вершин становится распределением вероятностей, в соответствии с которым будет строиться модель сети заданного размера. Таким образом, построенная модель по признаку распределения степеней вершин (распределения того, у какого процента пользователей сколько подписчиков), будет идентична изначальному фрагменту социальной сети, на основе которой она строится, а по количеству пользователей с определенным количеством подписчиков – кратно больше или меньше. Таким образом мы добиваемся сохранения основы структуры сети, а, значит, и основных свойств сети, при построении модели сети заданного размера.