Първи блог пост с анализ на най-големия български събредит (/r/bulgaria). В статията разглеждам разпределението на теми в дискусиите на събредита от 2008 до края на 2023 година и поставям основите за две други мини-изследвания.
Социалните мрежи определено са сред най-интересните и динамични социални явления от началото на 21 век досега. Съвсем очаквано се превърнаха в любима тема за изследване за социалните учени в целия свят и България. В българското интернет пространство обаче има няколко “класически форума”, които продължават да са активни и дори да се разширяват, дори в ерата на TikTok и Facebook групите. Става дума за hardware.bg, bg-mamma и най-популярният и стар български събредит (/r/bulgaria). Reddit попада в категорията на съвременните социални мрежи, но в същото време има много от характеристиките на “олд скуул” форум от Интернет през 90-те години. Тази странна комбинация и факта, че всички коментари и постове са достъпни за анализ (с някои уловки) го превръщат един изненадващ извор за изследване на българската онлайн култура. Този анализ е първото ми “потапяне на краката” в тези води и ще бъде с дескриптивен характер – целта ми ще бъде да намеря най-точното разпределение на темите в събредита и как ежедневните събития в офлайн света се отразяват на трендовете, които виждаме в /r/bulgaria.
За да извлека данни от Reddit до средата на миналата година, ползвах библиотеката pushshift
, която разчита на официалното API на Reddit.
През април 2023 година Reddit наложиха ограничения за количеството данни, които могат да бъдат изтеглени, използвайки официалното API. Това направи събирането на данни от големи събредити сравнително по-трудно от преди, но за щастие все още има мотивирани хора в Интернет пространството, които са отдадени да правят информацията достъпна и така се появиха няколко проекта, които имат за цел да поддържат достъпа до Reddit данни лесен за изследователи, анализатори и всички други. Един от тези проекти е Project Arctic Shift. Всички данни в този анализ (2008-2023 година) са изтеглени с помощта на този проект.
За периода 2008-2023 година в събредита /r/bulgaria са публикувани общо 82,052 теми (submissions) и 1,255,484 коментари (comments). За анализирането на такъв огромен обем от текст, ще работя с езика Python и по-конкретно с библиотеките Pandas (за повечето операции по подготвяне и изчистване на данните), Spacy (за морфологичен и лексикален анализ на български текстове), lingua (за разпознаване на езици) и BERTopic (за създаването на тематични модели или topic models на английски). Кода от всички стъпки на подготвянето на данните и от анализа може да изтеглите от това repository.
Ако при периодичния и непериодичния печат наблюдаваме един структуриран и граматически правилен книжовен език, то в Интернет форумите имаме неговата абсолютна противоположност. Често в онлайн комуникациите се използват смесица от азбуки, езици, сленг, граматически неправилен език, емоджита, снимки, гифове. Затова, преди да започнем анализа, трябва да изберем как да “приведем” основния ни текстов корпус във форма, която да отговаря най-добре на въпросите и целите на анализа. В случая аз искам да анализирам основно тематичната структура на дискусиите (отговаряйки на въпросите какво, за кого и кога), а не специфичните характеристики на обсъжданията (като отношенията между потребителите, избора им на езикови норми). Затова преди да премина към основния анализ, ще направя следните стъпки, които да изчистят излишните части от коментарите, които биха затруднили извличането на основните теми:
След тази подготовка можем да почнем анализа. Всички тематични модела (topic models) бяха създадени, използвайки BERTopic с много експерименти и вариации на параметрите до достигане на оптималната бройка теми, която според мен описва добре всички дискусии. Повече подробности за стъпките, които предприех има в съответния Jupyter Notebook на анализа.
/r/bulgaria стартира през 2008 година като едно интернационално пространство, където чужденци питат въпроси свързани с България като основните теми са туристически, сравнение на градове, въпроси около българската култура. През тази начална фаза на съществуването си /r/bulgaria не е точно български – повече от половината постове и дискусии са на английски.
За да не правя анализ на билингвистичен корпус от текстове реших да разбия всички теми и коментари на два субкорпуса – английски и български. Това даде възможност да се разгледат бройките публикации от двата корпуса във времето, което разкри първата любопитна особеност на този събредит – броя дискусии на двата езика е приблизително равен до към март 2020 година. Тогава дискусиите на български стават повече от английските, като разликата продължава да се увеличава с времето. Това изцяло преобразява облика на този събредит и го превръща в едно от най-популярните онлайн места за дискусии в българската интернет култура (фиг.1).
По всички личи, че от март 2020 година рязко се увеличават броя коментари и постове. Дали това е съвпадение или се дължи на пандемията? Тогава обяви извънредно положение и доста от офисните професии минаха в режим на “хоум офис”, така че най-вероятно много хора са имали на разположение повече свободно време от обикновено и възможност да го прекарват време в интернет форумите без притеснение. Ако искаме да проверим тази хипотеза има два анализа, които могат да ни дадат някаква подкрепа за причинно-следствена връзка:
- Да видим пропорцията от нови потребители (първи коментар или тема след февруари 2020 година) преди и след първите месеци на пандемията.
- Да направим някакъв causal inference модел и да се опитаме да прогнозираме какъв би бил броя постове, ако нямаше Ковид пандемия, като например Difference-in-Differences. Може да ползваме английските постове като контрол (хората пишещи на английски се интересуват повече от България като място за туризъм и временно пребиваване, затова по време на пандемията е много вероятно те да са писали по-малко или поне в първите месеци. Това е видимо от общата бройка английски публикации на месец). Ще оставя този анализ за третата ми публикация от серията анализи на /r/bulgaria.
Covid19 несъмнено има своята роля в това (всички си бяхме вкъщи и умирахме от скука), като обсъжданията около пандемията са водещи в първата половина на 2020, а след това броят на обсъжданите теми направо избухва – политика и избори, войната в Украйна, лични финанси и инвестиции, популярна култура, мемета, съвети за строителство, извънземни, рецепти. Събредита бързо се превръща в едно от най-популярните места за дискусии в българското онлайн пространство. За последното тримесечие на 2023-та година средният месечен брой на новите теми (submissions) на български е 1952. Само за сравнение в може би най-популярния конвенционален форум в България BG-Mamma за същия период тази стойност е 750. Месечните коментари на български са средно около 35 хиляди, на английски около 5 хиляди (фиг.2).
Първият topic model, който направих беше с цел да опозная приблизителната структура на темите и дискусиите. След доста тестове и експерименти стигнах до тематична организацията, която според мен беше добра отправна точка. Следващата стъпка беше да прочета по 15-20 поста от всяка една тема, за да преценя дали има теми, които са достатъчно близки по значение, за да бъдат ръчно обединени (merged) и да придобия представа за разпределението им. Около 70 теми бяха сляти в различни комбинации (в повечето случаи две теми бяха комбинирани в една, но има и случаи, когато комбинирах пет теми). В този процес бяха използвани и две визуализации, които много помогнаха да за определяне на комбинациите и за придобиване на интуиция. Става дума за йерархичното клъстериране и similarity matrix.
Първата показва йерархична структура на темите и позволява да се определят близките по семантично значение клъстери, а втората да се сравни семантичната близост на всяка една комбинация от две теми. Крайният резултат от този времеемък ръчен анализ са 113 теми. Двайсетте най-големи теми, заедно с най-представителните им думи и постове са изобразени в таблица 1, а пълният списък е достъпен в Jupyter Notebook-а от анализа. По подразбиране BERTopic дава на всяка тема автоматично име от думите, които я описват най-добре. Тъй като тези думи не винаги описват темите добре, по-удачно беше да избера подходящо име за темите.
Войната между Украйна и Русия | Въпроси тип лексикон | Вътрешна политика и публична адм… | Вътрешна политика(основно обсъжд… | Други обсъждания (не са свързан… | ЕС, НАТО и мястото на България в… | Животът в България - всякакви об… | Конспиративни теории и езотерика | Конспиративни теории, клюки и д… | Описания на снимки от България |
---|---|---|---|---|---|---|---|---|---|
украйна русия путин войната руски руската война пропаганда че военна |
сте въпрос ли това интересно ви някой какво обясни си |
прокуратурата прокурор гешев съд главния иван всс на за министър |
борисов петков бойко кирил радев иванов герб слави на василев |
не го това ми аз така съм да се си |
еврото ес шенген европа нато румъния българия евро ни еврозоната |
българия българите българи bulgaria че чужбина се българските да българин |
просвещението земята вселената космоса времето луната извънземни извънземните душата на |
секретна зона софия bg антихриста бнт мразя на бг новини |
варна село залез пловдив планина река стара връх във езеро |
Автомобили и пътна обстановка | Българска история и национализъм | Бюрокрация свързана с финанси (е… | Ковид, маски и ваксини | Междугрупови сравнения и въпроси… | Нискокачествени смесени постове … | Основно София и някои други град… | Политика и правителство (особено… | Празници, исторически дати и обс… | Храни и рецепти |
---|---|---|---|---|---|---|---|---|---|
кола коли автомобили автомобил колата шофьори електромобили пътищата шофьор софия |
български българската българия българин история българите българските българско българска българи |
пари лева банка кредит парите банките колко лв сметка бизнес |
covid 19 ковид ваксините ваксини ваксина коронавирус срещу коронавируса ваксината |
сме ни държава ние ги да нас пак се ще |
бай тутракан моча карта епизод част доп япония джуджета осемте |
град софия места най сгради градове сграда село къде парк |
герб правителство дб дпс пп коалиция бсп парламента правителството итн |
честит март празник честита печата преглед ден коледа утро марта |
храна ядете закуска храни месо яйца салата вечеря как пица |
Една удобна функция на BERTopic, която беше изключително полезна по време на анализа, но не смятам, че има стойност при комуникирането на резултатите е визуализацията на всички документи (единици текст) като 2D scatterplot (фиг. 3). Това позволява визуализирането на клъстерите документи от всяка една тема и интуитивно може да се добие представа, кои теми са близки една до друга, както и да се направи бърз преглед от десетина случайни документа от всяка тема. Недостатъка на тази визуализация е, че при един потенциално голям корпус (над 10,000 документа) клъстерите са прекалено нагъсто и понякога дори смесени, което пречи да извлечем нещо смислено като информация. Интерактивният вариант е далеч по-смислен от просто статичната версия. Напоследък е доста популярна визуализация в Twitter, може би, защото изглежда доста футуристично и мащабно.