Български spaCy модели за анализ на текст, тренирани върху корпус от медийни текстове - токенизация, лематизация, разпознаване на части на речта (POS tagger), граматичен, морфологичен и синтактичен анализ, Named Entity Recognition (NER)
SpaCy е безспорно една от най-лесните и функционални библиотеки за работа с език с Python (като цяло, с който и да е език ако питате мен). Българският език все още липсва от официално поддържаните езици в spaCy и едва ли ще се появи официален pipeline в скоро време, заради ограниченият лиценз (CC-BY-NC-SA-3.0) на българския Treebank, който не разрешава използване с комерсиални цели, а от Explosion (създателите на spaCy) вече отказват качването на разработки с толкова ограничен лиценз (за справка тази дискусия). И все пак един неофициален български spaCy модел би имал полза поне за образователни или научни цели. Затова създадох три български модела, които включват Named Entity Recognition - функционалност, която липсва в останалите open-source модели за работа с български език.
Данни
Данните, на които е трениран NER модела са извлечени от български онлайн
медии, затова и имената на всички модели започват с
bg_news. В момента NER parser-a е трениран със само три
класа - Location, Person и Organisation, но планирам ъпдейти в близките
месеци, където освен обновени bg_news модели с нови класове ще добавя и
модел комбиниращ данни от правителствени документи, постове в социални
мрежи, медийни материали и художествена литература. Освен това търся
сигурен вариант, в който да споделя данните без риск от нарушаване на
авторски права.
Лиценз
CC-BY-NC-SA-3.0
Повече информация за създаването на моделите и spaCy проекти, за да
репликирате резултатите:
➡️ Github
Всички модели може да намерите тук и да инсталирате директно:
➡️ Huggingface