r/bulgaria – новия “стар” български форум

Първи блог пост с анализ на най-големия български събредит (/r/bulgaria). В статията разглеждам разпределението на теми в дискусиите на събредита от 2008 до края на 2023 година и поставям основите за две други мини-изследвания.

Ивайло Сакелариев true
2024-04-16

Социалните мрежи определено са сред най-интересните и динамични социални явления от началото на 21 век досега. Съвсем очаквано се превърнаха в любима тема за изследване за социалните учени в целия свят и България. В българското интернет пространство обаче има няколко “класически форума”, които продължават да са активни и дори да се разширяват, дори в ерата на TikTok и Facebook групите. Става дума за hardware.bg, bg-mamma и най-популярният и стар български събредит (/r/bulgaria). Reddit попада в категорията на съвременните социални мрежи, но в същото време има много от характеристиките на “олд скуул” форум от Интернет през 90-те години. Тази странна комбинация и факта, че всички коментари и постове са достъпни за анализ (с някои уловки) го превръщат един изненадващ извор за изследване на българската онлайн култура. Този анализ е първото ми “потапяне на краката” в тези води и ще бъде с дескриптивен характер – целта ми ще бъде да намеря най-точното разпределение на темите в събредита и как ежедневните събития в офлайн света се отразяват на трендовете, които виждаме в /r/bulgaria.

Данни

За да извлека данни от Reddit до средата на миналата година, ползвах библиотеката pushshift , която разчита на официалното API на Reddit.

През април 2023 година Reddit наложиха ограничения за количеството данни, които могат да бъдат изтеглени, използвайки официалното API. Това направи събирането на данни от големи събредити сравнително по-трудно от преди, но за щастие все още има мотивирани хора в Интернет пространството, които са отдадени да правят информацията достъпна и така се появиха няколко проекта, които имат за цел да поддържат достъпа до Reddit данни лесен за изследователи, анализатори и всички други. Един от тези проекти е Project Arctic Shift. Всички данни в този анализ (2008-2023 година) са изтеглени с помощта на този проект.

Методология

За периода 2008-2023 година в събредита /r/bulgaria са публикувани общо 82,052 теми (submissions) и 1,255,484 коментари (comments). За анализирането на такъв огромен обем от текст, ще работя с езика Python и по-конкретно с библиотеките Pandas (за повечето операции по подготвяне и изчистване на данните), Spacy (за морфологичен и лексикален анализ на български текстове), lingua (за разпознаване на езици) и BERTopic (за създаването на тематични модели или topic models на английски). Кода от всички стъпки на подготвянето на данните и от анализа може да изтеглите от това repository.

Ако при периодичния и непериодичния печат наблюдаваме един структуриран и граматически правилен книжовен език, то в Интернет форумите имаме неговата абсолютна противоположност. Често в онлайн комуникациите се използват смесица от азбуки, езици, сленг, граматически неправилен език, емоджита, снимки, гифове. Затова, преди да започнем анализа, трябва да изберем как да “приведем” основния ни текстов корпус във форма, която да отговаря най-добре на въпросите и целите на анализа. В случая аз искам да анализирам основно тематичната структура на дискусиите (отговаряйки на въпросите какво, за кого и кога), а не специфичните характеристики на обсъжданията (като отношенията между потребителите, избора им на езикови норми). Затова преди да премина към основния анализ, ще направя следните стъпки, които да изчистят излишните части от коментарите, които биха затруднили извличането на основните теми:

След тази подготовка можем да почнем анализа. Всички тематични модела (topic models) бяха създадени, използвайки BERTopic с много експерименти и вариации на параметрите до достигане на оптималната бройка теми, която според мен описва добре всички дискусии. Повече подробности за стъпките, които предприех има в съответния Jupyter Notebook на анализа.

От паспорти и курорти към пандемия, маски и войни

/r/bulgaria стартира през 2008 година като едно интернационално пространство, където чужденци питат въпроси свързани с България като основните теми са туристически, сравнение на градове, въпроси около българската култура. През тази начална фаза на съществуването си /r/bulgaria не е точно български – повече от половината постове и дискусии са на английски.

За да не правя анализ на билингвистичен корпус от текстове реших да разбия всички теми и коментари на два субкорпуса – английски и български. Това даде възможност да се разгледат бройките публикации от двата корпуса във времето, което разкри първата любопитна особеност на този събредит – броя дискусии на двата езика е приблизително равен до към март 2020 година. Тогава дискусиите на български стават повече от английските, като разликата продължава да се увеличава с времето. Това изцяло преобразява облика на този събредит и го превръща в едно от най-популярните онлайн места за дискусии в българската интернет култура (фиг.1).

Фиг.1 - Линейна графика на броя постове от създаването на събредита до края на 2023 година



Фиг.2 - Линейна графика на броя коментари от създаването на събредита до края на 2023 година
По всички личи, че от март 2020 година рязко се увеличават броя коментари и постове. Дали това е съвпадение или се дължи на пандемията? Тогава обяви извънредно положение и доста от офисните професии минаха в режим на “хоум офис”, така че най-вероятно много хора са имали на разположение повече свободно време от обикновено и възможност да го прекарват време в интернет форумите без притеснение. Ако искаме да проверим тази хипотеза има два анализа, които могат да ни дадат някаква подкрепа за причинно-следствена връзка:
  1. Да видим пропорцията от нови потребители (първи коментар или тема след февруари 2020 година) преди и след първите месеци на пандемията.
  2. Да направим някакъв causal inference модел и да се опитаме да прогнозираме какъв би бил броя постове, ако нямаше Ковид пандемия, като например Difference-in-Differences. Може да ползваме английските постове като контрол (хората пишещи на английски се интересуват повече от България като място за туризъм и временно пребиваване, затова по време на пандемията е много вероятно те да са писали по-малко или поне в първите месеци. Това е видимо от общата бройка английски публикации на месец). Ще оставя този анализ за третата ми публикация от серията анализи на /r/bulgaria.

Covid19 несъмнено има своята роля в това (всички си бяхме вкъщи и умирахме от скука), като обсъжданията около пандемията са водещи в първата половина на 2020, а след това броят на обсъжданите теми направо избухва – политика и избори, войната в Украйна, лични финанси и инвестиции, популярна култура, мемета, съвети за строителство, извънземни, рецепти. Събредита бързо се превръща в едно от най-популярните места за дискусии в българското онлайн пространство. За последното тримесечие на 2023-та година средният месечен брой на новите теми (submissions) на български е 1952. Само за сравнение в може би най-популярния конвенционален форум в България BG-Mamma за същия период тази стойност е 750. Месечните коментари на български са средно около 35 хиляди, на английски около 5 хиляди (фиг.2).

Политика и мемета

Първият topic model, който направих беше с цел да опозная приблизителната структура на темите и дискусиите. След доста тестове и експерименти стигнах до тематична организацията, която според мен беше добра отправна точка. Следващата стъпка беше да прочета по 15-20 поста от всяка една тема, за да преценя дали има теми, които са достатъчно близки по значение, за да бъдат ръчно обединени (merged) и да придобия представа за разпределението им. Около 70 теми бяха сляти в различни комбинации (в повечето случаи две теми бяха комбинирани в една, но има и случаи, когато комбинирах пет теми). В този процес бяха използвани и две визуализации, които много помогнаха да за определяне на комбинациите и за придобиване на интуиция. Става дума за йерархичното клъстериране и similarity matrix.

Първата показва йерархична структура на темите и позволява да се определят близките по семантично значение клъстери, а втората да се сравни семантичната близост на всяка една комбинация от две теми. Крайният резултат от този времеемък ръчен анализ са 113 теми. Двайсетте най-големи теми, заедно с най-представителните им думи и постове са изобразени в таблица 1, а пълният списък е достъпен в Jupyter Notebook-а от анализа. По подразбиране BERTopic дава на всяка тема автоматично име от думите, които я описват най-добре. Тъй като тези думи не винаги описват темите добре, по-удачно беше да избера подходящо име за темите.

Table 1: Най-големите 20 теми с представителните им думи
Войната между Украйна и Русия Въпроси тип лексикон Вътрешна политика и публична адм… Вътрешна политика(основно обсъжд… Други обсъждания (не са свързан… ЕС, НАТО и мястото на България в… Животът в България - всякакви об… Конспиративни теории и езотерика Конспиративни теории, клюки и д… Описания на снимки от България
украйна
русия
путин
войната
руски
руската
война
пропаганда
че
военна
сте
въпрос
ли
това
интересно
ви
някой
какво
обясни
си
прокуратурата
прокурор
гешев
съд
главния
иван
всс
на
за
министър
борисов
петков
бойко
кирил
радев
иванов
герб
слави
на
василев
не
го
това
ми
аз
така
съм
да
се
си
еврото
ес
шенген
европа
нато
румъния
българия
евро
ни
еврозоната
българия
българите
българи
bulgaria
че
чужбина
се
българските
да
българин
просвещението
земята
вселената
космоса
времето
луната
извънземни
извънземните
душата
на
секретна
зона
софия
bg
антихриста
бнт
мразя
на
бг
новини
варна
село
залез
пловдив
планина
река
стара
връх
във
езеро
Автомобили и пътна обстановка Българска история и национализъм Бюрокрация свързана с финанси (е… Ковид, маски и ваксини Междугрупови сравнения и въпроси… Нискокачествени смесени постове … Основно София и някои други град… Политика и правителство (особено… Празници, исторически дати и обс… Храни и рецепти
кола
коли
автомобили
автомобил
колата
шофьори
електромобили
пътищата
шофьор
софия
български
българската
българия
българин
история
българите
българските
българско
българска
българи
пари
лева
банка
кредит
парите
банките
колко
лв
сметка
бизнес
covid
19
ковид
ваксините
ваксини
ваксина
коронавирус
срещу
коронавируса
ваксината
сме
ни
държава
ние
ги
да
нас
пак
се
ще
бай
тутракан
моча
карта
епизод
част
доп
япония
джуджета
осемте
град
софия
места
най
сгради
градове
сграда
село
къде
парк
герб
правителство
дб
дпс
пп
коалиция
бсп
парламента
правителството
итн
честит
март
празник
честита
печата
преглед
ден
коледа
утро
марта
храна
ядете
закуска
храни
месо
яйца
салата
вечеря
как
пица


Една удобна функция на BERTopic, която беше изключително полезна по време на анализа, но не смятам, че има стойност при комуникирането на резултатите е визуализацията на всички документи (единици текст) като 2D scatterplot (фиг. 3). Това позволява визуализирането на клъстерите документи от всяка една тема и интуитивно може да се добие представа, кои теми са близки една до друга, както и да се направи бърз преглед от десетина случайни документа от всяка тема. Недостатъка на тази визуализация е, че при един потенциално голям корпус (над 10,000 документа) клъстерите са прекалено нагъсто и понякога дори смесени, което пречи да извлечем нещо смислено като информация. Интерактивният вариант е далеч по-смислен от просто статичната версия. Напоследък е доста популярна визуализация в Twitter, може би, защото изглежда доста футуристично и мащабно.

Фиг.3 - Всички документи оцветени в темата, към която са класифицирани

Следващата стъпка беше ръчното организиране на темите в онтология, която не е директно свързана със семантичното съдържание, а е по-скоро избор на автора. В случая смятам ,че организацията, която направих е добро обобщение на основните категории обсъждания в събредита. Във фиг. 4 са показани всичките категории теми, заедно с техните пропорции от общия брой публикации.

Фиг.4 - Категории теми и тяхната пропорция

Съвсем очаквано за една онлайн общност, /r/bulgaria често резонира случващото се в офлайн света и България, като повечето обсъждания са темпорално свързани с ключови събития – Ковид пандемията, войната в Украйна, парламентарните и регионалните избори в България, войната в Газа. По-голяма част от тях (близо 30% от всички публикации) са политически събития и затова не е изненадващо, че потребителите в този събредит най-често обсъждат политика или свързани събития. Такава тема е Ковид пандемията, която макар и събитие свързано със здравеопазването е характерен пример за политическа и идеологическа поляризация на населението по отношение на почти всичко – от причините и механизмите, по които се стигна до нея, до най-добрите политики и практики за справяне.

Следващата категория (с 22% дял) с името интернет бърборене (от англ. “internet chatter”) е типична за българската интернет култура – споделяне на мемета, дискусии от неопределен характер (често без ясна тема) и много остроумни шеги и коментари.

Третата категория също не е изненада за онлайн общност, става дума за комбинирана категория от конспиративни теории и клюки. Тук влизат много публикации от уебсайт наречен Просвещението (https://prosveshtenieto.com), който е разчита изцяло на езотерично и конспиративно съдържание, но освен това има и доста клюки и “жълти новини” за известни български личности.

Четвъртата категория е финанси, като темите в тази категория са разнообразни - кредити и заеми, заплати за различни позиции и индустрии, имоти и наеми, инвестиции в акции и криптовалути, инфлация.

Останалите категории са както следва - Култура и свободно време; Друго (всички, които не влизат в някоя от главните категории); Снимки, пътувания и почивки; Пазаруване и продукти (онлайн и офлайн); Транспорт и транспортни средства; Храни, напитки, ресторанти и заведения; Здраве, благосъстояние и външен вид; Социален живот; Хоби и домашни любимци; Криминални и престъпления.

Това разпределение е до голяма степен субективно и зависи от преценката на автора на изследването. В анализа на текст с unsupervised методи (както topic modelling в случая) може да имаме безкрайни варианти за комбинации и брой категории. Затова е изключително важно да следваме стриктни принципи за валидация, както и да придобием добра интуиция за корпуса, което включва четене на голям брой от документите. Тъй като този анализ е изцяло опознавателен и дескриптивен, аз пропуснах допълнителната валидация, която се изразява в ръчното анотиране на произволна извадка от документи с избраните категории и после сравняването на тези категории с тематичния модел (Grimmer et al., 2022, p. 224). Въпреки това, има известна подкрепа в сегашното разпределение на теми, ако разгледаме различните теми във времето и ги сравним с големите световни и български събития. Например темите за Ковид пандемията и за войната в Украйна имат темпорална връзка съответно с началото на пандемията в края на февруари/началото на март 2020 година и нападението на Русия през февруари 2022 година (фиг.5).

Фиг.5 - темпоралните динамики в 4 избрани теми

Заключение и следващи стъпки

От този дескриптивен анализ можем да заключим, че политическите дискусии определено са една от основите на този събредит. Имайки предвид нестабилната политическа обстановка в България през последните пет години, може би не е никаква изненада, че голяма част от българите имат нужда да дискутират събитията и различните участници. Освен вътрешно-политически казуси като избори и политически партии, много от публикациите са свързани и със световни политически събития, като войната в Украйна или Ковид пандемията (категоризирането на това като политическа категория е авторско решение, базирано основно на това, че повечето обсъждания свързани с Ковид имат основно политически характер).

Това отваря някои интересни въпроси, като например - можем ли да измерим политическите нагласи на потребителите в този събредит? Можем ли да извлечем нагласите към определени личности и политически партии? Можем ли да измерим идеологическото разпределение по двете големи политически събития от последните 5 години - Ковид пандемията и войната в Украйна? Ще се опитам да отговоря на всички тези въпроси в следващата ми публикация, в която ще разработя два допълнителни модела за анализ на български текст – Aspect-based Sentiment Analysis и SpanCategorizer. Там ще използвам същите тематични модели (topic models), но ще валидирам всички теми от политическата категория с допълнителен метод (Grimmer et al., 2022, p. 221).

Grimmer, J., Roberts, M. E., & Stewart, B. M. (2022). Text as data: A new framework for machine learning and the social sciences. Princeton University Press. https://press.princeton.edu/books/hardcover/9780691207544/text-as-data

References

Citation

For attribution, please cite this work as

Сакелариев (2024, April 16). Ивайло Сакелариев: r/bulgaria – новия “стар” български форум. Retrieved from https://ivaylo.xyz/posts/2024-04-11-reddit-analysis/

BibTeX citation

@misc{сакелариев2024r/bulgaria,
  author = {Сакелариев, Ивайло},
  title = {Ивайло Сакелариев: r/bulgaria – новия “стар” български форум},
  url = {https://ivaylo.xyz/posts/2024-04-11-reddit-analysis/},
  year = {2024}
}