Bulgarian spaCy models

Български spaCy модели за анализ на текст, тренирани върху корпус от медийни текстове - токенизация, лематизация, разпознаване на части на речта (POS tagger), граматичен, морфологичен и синтактичен анализ, Named Entity Recognition (NER)

SpaCy е безспорно една от най-лесните и функционални библиотеки за работа с език с Python (като цяло, с който и да е език ако питате мен). Българският език все още липсва от официално поддържаните езици в spaCy и едва ли ще се появи официален pipeline в скоро време, заради ограниченият лиценз (CC-BY-NC-SA-3.0) на българския Treebank, който не разрешава използване с комерсиални цели, а от Explosion (създателите на spaCy) вече отказват качването на разработки с толкова ограничен лиценз (за справка тази дискусия). И все пак един неофициален български spaCy модел би имал полза поне за образователни или научни цели. Затова създадох три български модела, които включват Named Entity Recognition - функционалност, която липсва в останалите open-source модели за работа с български език.

Данни
Данните, на които е трениран NER модела са извлечени от български онлайн медии, затова и имената на всички модели започват с bg_news. В момента NER parser-a е трениран със само три класа - Location, Person и Organisation, но планирам ъпдейти в близките месеци, където освен обновени bg_news модели с нови класове ще добавя и модел комбиниращ данни от правителствени документи, постове в социални мрежи, медийни материали и художествена литература. Освен това търся сигурен вариант, в който да споделя данните без риск от нарушаване на авторски права.

Лиценз
CC-BY-NC-SA-3.0

Повече информация за създаването на моделите и spaCy проекти, за да репликирате резултатите:
➡️ Github

Всички модели може да намерите тук и да инсталирате директно:
➡️ Huggingface