Інструменти
Засоби попередньої обробки мови для української мови
Stanza – Стенфордська бібліотека для обробки мови; підтримує українську мову за допомогою корпусу Universal Dependencies (UD). Містить моделі для токенізації, лематизації, аналізу частин мови і синтаксичного аналізу.
Spacy for Ukrainian – український конвеєр обробки, оптимізований для центрального процесора. Компоненти: tok2vec, морфологічний аналізатор, синтаксичний аналізатор, сегментатор речення, розпізнавач іменованих сутностей, attribute_ruler, лематизатор.
Модель відновлення пунктуації та капіталізації в українській мові в реченнях, навчена на більш ніж 10 млн реченнях з UberText 2.0 корпусу.
sentence_boundary_detection_multilang сегментує довгий текст із розділовими знаками на одне або кілька складових речень. Ключова особливість полягає в тому, що модель є багатомовною і мовно-незалежною на момент виведення висновків. Підтримує 49 поширених мов.
punct_cap_seg_47_language приймає як вхідні дані текст, написаний малими літерами, без пунктуації та сегментації 47 мовами, і відновлює пунктуацію, встановлює регістр (капіталізація) і визначає межі речення (сегментація).
xlm-roberta_punctuation_fullstop_truecase відновлює пунктуацію, оригінальний регістр (капіталізація) і виявляє межі речення (ставить крапки) у 47 мовах.
Pymorphy2 – морфологічний аналізатор без розрізнення значень; українська мова підтримується за допомогою старої версії VESUM.
Pymorphy3 є продовженням непідтримуваного проєкту [pymorphy2](https://github.com/kmike/pymorphy2), який є морфологічним аналізатором (аналізатор частин мови + механізм словозміни) для російської та української мов.
LanguageTool – перевірка орфографії, стилістики та граматики, яка допомагає виправляти і перефразовувати тексти.
Стемер для української мови – новий стемер для української мови (tree_stem), створений за допомогою машинного навчання.
ISpell – інтерактивна програма перевірки орфографії для Unix, яка підтримує велику кількість європейських мов. Доступний інтерфейс emacs, а також стандартний режим командного рядка.
Text Tonsorium – автоматична побудова і виконання декількох робочих процесів, що включає нормалізацію.
tree_stem – це репозиторій, який вводить новий стемер для української мови, створений за допомогою машинного навчання. Він перевершує всі інші стемери, доступні на сьогодні, а також деякі лематизатори за коефіцієнтом помилок відносно усічення (ERRT) (Пейс, 1994). Він також має найнижчий відсоток помилок недостемінгу, порівняно з наявними алгоритмами стемінгу. Цей репозиторій також містить порти Python деяких раніше опублікованих стемерів.
uk-punctcase – точне налаштування моделі XLM-RoBERTa до текстів українською для відновлення пунктуації та регістру.
ukrainian-word-stress – цей пакет приймає текст українською і додає знак наголосу після наголошеного голосного. Це корисно в програмах синтезу мовлення та для підготовки тексту, орієнтованого на тих, хто вивчає мову.
Модель відновлення пунктуації та капіталізації в українській мові є моделлю NeMo для відновлення пунктуації та капіталізації у реченнях, навченою на більш ніж 10 млн. реченнях з UberText 2.0 корпусу.
NLP-uk – інструмент, що базується на словнику VESUM і механізмі LanguageTool. Підтримує токенізацію, лематизацію, аналіз частин мови та розрізнення значень.
UDPipe 2 є прототипом Python, здатним виконувати маркування, лематизацію та синтаксичний аналіз вхідного формату CoNLL-U.
NLP Cube – це відкрита платформа для обробки природної мови, що підтримує мови, які включені в UD Treebanks. NLP-Cube виконує такі завдання: сегментація речень, токенізація, аналіз частин мови (водночас незалежні мовні теги (UPOS) і залежні мовні теги (XPOS і ATTR)), лематизація, синтаксичний аналіз залежностей.
Trankit – це легкий Python-інструментарій на базі трансформерів Toolkit для багатомовної обробки природної мови.
SlaviCleaner – це бібліотека для фільтрації ненормативної лексики, призначена для очищення тексту від образливої лексики, спеціально адаптована до української та російської мов. Вона виявляє, маскує та повідомляє про наявність образливих слів, забезпечуючи різні рівні фільтрації.
Моделі обробки природної мови Word Embeddings & Lightweight (Flair, FastText тощо)
Англо-українські міжмовні вбудовування слів у юридичній сфері, навчена на текстах юридичної тематики, які були вирівняні в одному векторному просторі за допомогою Vecmap відповідно до їх подібності. Вбудовування були розроблені в рамках проєкту CEF MT4ALL.
Українські вбудовування Flair – модель, навчена протягом понад 25+ епох на текстах з ubertext2.0 (WIP). Має прямі та зворотні версії вбудовувань
Flair-uk-pos — це Flair модель, готова до використання для аналізу частини мови (upos). Вона базується на вбудовуваннях Flair, навчених для української мови, і має високу продуктивність та компактний розмір (лише 72 Мб!).
fastText (українською) – це відкрита безкоштовна малогабаритна бібліотека, яка дозволяє користувачам вивчати текстові представлення та класифікатори. Працює на стандартному апаратному забезпеченні. Пізніше моделі можуть бути зменшені в розмірах, щоб поміститися навіть на мобільних пристроях. fastText – це бібліотека для ефективного вивчення представлення слів і класифікації речень на замовлення нейронних мереж машинного перекладу.
skipgram.uk.300.bin є попередньо навченими векторами слів для української мови, навченими з fastText на (ще не випущеному) наборі даних UberText2.0, зібраному й обробленому через lang-uk.
Вбудовування слів (Word2Vec, GloVe, LexVec) – окремі моделі з 300-вимірними векторами для новинних агентств, статей, художньої літератури, юридичних текстів.
BPEmb – колекція попередньо підготовлених вбудовувань морфем 275 мовами, що базується на кодуванні пар байтів (BPE) і навчена на Wikipedia.
FasText Common Crawl & Wikipedia містить заздалегідь навчені вектори слів для 157 мов, навчені на Wikipedia і Common Crawl з використанням моделі CBOW від fastText.
Загальні моделі вбудовування тексту – це сім’я моделей GTE (General Text Embedding). Досягає результатів рівня SOTA у багатомовних завданнях з пошуку та оцінки багатозадачних моделей представлення порівняно з моделями аналогічного розміру. Навчена на основі архітектури трансформера тільки з енкодером, в результаті чого досягається менший розмір моделі.
LEALLA – це колекція легких моделей вбудовування мовно-незалежних репрезентацій речень, що підтримує 109 мов, взятих з LaBSE. Модель корисна для отримання багатомовних вбудовувань речень і для пошуку бітекстів.
SONAR_200_text_encoder підтримує ті ж 202 мов, що й NLLB-200. Очікується, що її вбудовування будуть рівноцінні з офіційною реалізацією, проте остання залишається джерелом істини.
Bedrock Titan Text Embeddings v2 Ви можете використовувати модель вбудовування або за допомогою Bedrock InvokeModel API, або за допомогою пакетних завдань Bedrock. У випадках використання RAG рекомендуємо використовувати перший варіант для вбудовування запитів під час пошуку (з оптимізацією затримки), а другий – для індексування корпусу (з оптимізацією пропускної здатності).
Мовні моделі, що підтримують українську
UDify Pretrained Model параметри для моделі UDify і вилучені паратметри BERT у форматі pytorch-transformers.
Passage Reranking Multilingual BERT навчена за допомогою набору даних Microsoft MS Marco. Цей навчальний набір даних містить приблизно 400 млн кортежів, що складаються із запиту, відповідних і невідповідних уривків.
BERT – це модель трансформаторів, попередньо навчена на великому корпусі багатомовних даних у режимі самоконтролю. Це означає, що вона була попередньо навчена тільки на необроблених текстах, без будь-якого маркування з боку людини (саме тому вона може використовувати багато загальнодоступних даних), а вхідні дані та маркування створювалися автоматично з цих текстів.
DistilBERT є стисненою версією багатомовної моделі BERT Base. Модель навчена на конкатенації Wikipedia 104 різними мовами. Модель має 6 шарів, 768 вимірів і 12 головок, що разом складає 134 млн параметрів (порівняно з 177 млн параметрів для mBERT-бази).
CANINE попередньо навчена на 104 мовах із використанням цілі маскованого мовного моделювання (MLM). Вона не вимагає окремо визначеного токенізатора (наприклад, WordPiece або SentencePiece), на відміну від інших моделей, як-от BERT і RoBERTa.
AviLaBSE є уніфікованою моделлю, навченою на LaBSE компанією google LaBSE, з метою додавання інших мовних вимірів. Згодом модель було перетворено на PyTorch. Вона може бути використана для відображення понад 250 мов в загальному векторному просторі. Процес попереднього навчання поєднує в собі масковане моделювання мови з моделюванням мови перекладу. Модель корисна для отримання багатомовних вбудовувань речень і для пошуку бітекстів.
RemBERT попередньо навчена на 110 мовах із використанням цілі маскованого мовного моделювання (MLM). RemBERT використовує невеликі вхідні вбудовування та більші вихідні вбудовування.
LaBSE є моделлю навченою на основі BERT для вбудовування речень 109 мовами. Процес попереднього навчання поєднує в собі масковане моделювання мови з моделюванням мови перекладу. Модель корисна для отримання багатомовних вбудовувань речень і для пошуку бітекстів.
TwHIN-BERT – це нова багатомовна модель для твітів, яка навчається на 7 мільярдах твітів з понад 100 різних мов. TwHIN-BERT відрізняється від раніше запропонованих попередньо навчених мовних моделей, оскільки вона навчена не тільки методом самонавчання на основі тексту (наприклад, MLM), але й з урахуванням соціальної мети, що ґрунтується на тісних соціальних зв'язках в гетерогенній інформаційній мережі Twitter (TwHIN).
LaBSE повертає вбудовування реченнь (pooler_output) і здійснює кешування. Language-agnostic BERT Sentence Encoder (LaBSE) — це модель навчена на основі BERT для вбудовування речень 109 мовами. Процес попереднього навчання поєднує в собі масковане моделювання мови з моделюванням мови перекладу. Модель корисна для отримання багатомовних вбудовувань речень і для пошуку бітекстів.
LaBSE є портом моделі LaBSE до PyTorch. Він може бути використаний для відображення 109 мов у спільному векторному просторі.
HPLT BERT для української мови є однією з одномовних моделей, що навчені так само, як перший випуск проєкту HPLT. Це так звана маскована мовна модель. Зокрема, ця модель є модифікацією класичної моделі BERT під назвою LTG-BERT.
LiBERTa – це модель, подібна до BERT, попередньо навчена з нуля виключно для української мови. Вона була представлена під час UNLP @ LREC-COLING 2024.
O3ap-sm – українська модель узагальнення новин, яка точно налаштована на архітектуру T5-small. Модель навчена на українській Corpus CCMatrix для завдань з узагальнення тексту.
Ukrainian Roberta навчена кодом, наданим у посібнику HuggingFace. Остання випущена модель має архітектуру roberta-base-cased (параметри: 12 шарів, 768 прихованих, 12 головок, 125 млн параметрів).
ukr-paraphrase-multilingual-mpnet-base – це модель sentence-transformers, точно налаштована на українську мову: Вона відображає речення та абзаци до 768-вимірного щільного векторного простору і може бути використана для таких завдань, як кластеризація або семантичний пошук.
Багатомовна англ._рос._укр. – модель sentence-transformers. Вона відображає речення та абзаци до 768-вимірного щільного векторного простору і може бути використана для таких завдань, як кластеризація або семантичний пошук. Модель використовується на ресурсі багатомовного аналізу скарг пацієнтів для визначення необхідної спеціальності лікаря: Віртуальна загальна практика.
Виправлення української граматики – модель, яку підготувала команда "Правописник" для української обробки природної мови, яка сприяла поширенню завдань з виправлення граматики в Україні. Модель Mbart-50-large налаштована для виконання завдань перекладу на UA-GEC, доповнена набором спеціальних даних, створених за допомогою нашого синтетичного генерування помилок.
LLM для українців
Lapa LLM v0.1.2 найсучасніша відкрита велика мовна модель на основі Gemma-3-12B з акцентом на обробці української мови. (випуск 2025).
MamayLM – це нова сучасна LLM рівня SOTA, націлена на українську мову (випуск 2025).
Aya 23 це параметри пошуку версії моделі з відкритим доступом до даних, яка була розроблена на основі інструкцій та має високорозвинені багатомовні можливості. Aya 23 фокусується на об'єднанні високопродуктивного попередньо навченого сімейства моделей із нещодавно випущеною Aya Collection. Результатом є потужна багатомовна велика мовна модель, яка обслуговує 23 мови.
LLaMAX – це мовна модель з потужними багатомовними можливостями без втрати можливості виконання інструкцій.
Llama-2-7b-Ukrainian – двомовна попередньо навчена модель, що підтримує українську та англійську мови. Тривале попереднє навчання від Llama-2-7b на 5B токенах, що складаються з 75% українських документів і 25% англійських від CulturaX.
LLaMAX3-8B є багатомовною базовою моделлю, що розроблена за допомогою тривалого попереднього навчання на Llama3 і підтримує понад 100 мов. LLaMAX3-8B може служити базовою моделлю для підтримки прикладних багатомовних завдань, але без можливості виконання інструкцій. Модель призначена для завдань генерації тексту.
aya-101 є багатомовною генеративною мовною моделлю, яка виконує інструкції 101 мовою. Aya перевершує mT0 і BLOOMZ за широким спектром автоматичних і людських оцінок, незважаючи на те, що охоплює вдвічі більше мов.
EuroLLM-1.7B є проєктом, який має на меті створення набору великих мовних моделей, здатних розуміти та генерувати текст всіма мовами Європейського Союзу, а також деякими додатковими мовами. Для попереднього навчання автори використовують 256 графічних процесорів Nvidia H100 суперкомп'ютера Marenostrum 5, навчаючи модель з постійним розміром партії 3 072 послідовності, що відповідає приблизно 12 мільйонам токенів, із використанням оптимізатора Adam і точності BF16.
EuroGPT2 – модель для європейських мов (EU-24 + українська). Модель базується на оригінальній архітектурі GPT2 OpenAI, але використовує роторні вбудовування замість вивчених позиційних вбудовувань. Навчальні дані — Вікіджерела (Wikipedia, Wikinews, Wikibooks, Wikisource, Wikivoyage; 20230301). Токени: 75 167 662 080.
mGPT 13B – багатомовна модель, яка навчається на 61 мовах з 25 мовних сімей. Ця модель була підготовлена на 600 Гб текстів, в основному з MC4 і Wikipedia.
Модель XLM була запропонована в "Cross-lingual Language Model Pretraining" Гійомом Лампле і Алексісом Конно, навчена на текстах Wikipedia 100 мовами. Модель є трансформером, попередньо навченим із використанням цілі маскованого мовного моделювання (MLM).
Українська MGPT 1.3B – одна з моделей, похідних від базової моделі mGPT-XL (1.3B), яка початково була навчена на 61 мовах з 25 мовних сімей із використанням Wikipedia і C4 Corpus.
MiniLM-L12-v2 – це модель sentence-transformers: Вона відображає речення та абзаци до 384-вимірного щільного векторного простору.
GPT2 124M навчена на українській художній літературі є моделлю, яка навчається на корпусі з 4 040 художніх книг загальним обсягом 2,77 GiB. Оцінка на brown-uk дає ступінь складності 50,16.
Mistral 7B OpenOrca oasst Top1 містить файли моделей AWQ, GPTQ та GGGUF. Модель призначена для завдань генерації тексту.
CodeKobzar13B – це генеративна модель, яка була навчена на даних української Wikipedia та правилах української мови. Має знання української історії, мови, літератури та культури.
uk4bВ – моделі, попередньо навчені на 4B токенах від UberText 2.0; призначені для генерації тексту, завдань прогнозування метаданих на основі тексту.
Розпізнавання іменованих сутностей та вирішення кореференції для української мови
GLiNER-X – це багатомовна модель розпізнавання іменованих сутностей (NER), яка здатна ідентифікувати будь-який тип сутності.
uk_ner_web_trf_Base – це точно налаштована модель XLM-Roberta, яка готова до використання для розпізнавання іменованих сутностей і досягає продуктивності, близької до SoA, для завдання NER для української мови. Вона була навчена розпізнавати чотири типи об'єктів: місце розташування (LOC), організація (ORG), особа (PERS) і різне (MISC).
uk_core_news (Spacy model) – український конвеєр обробки, оптимізований для центрального процесора. Компоненти: tok2vec, морфологічний аналізатор, синтаксичний аналізатор, сегментатор речення, розпізнавач іменованих сутностей, attribute_ruler, лематизатор.
coref-ua навчається на срібному українському кореферентному наборі даних за допомогою бібліотеки F-Coref. Модель була навчена на основі моделі XML-Roberta-base. Згідно з показниками, отриманими з набору даних оцінки, модель є більш орієнтованою на точність.
Модель MITIE NER – модель, яка автоматично позначає слова в незнайомих текстах відповідними сутностями (ім'я, географічні місця, компанія тощо). Для розпізнавання NER було обрано бібліотеку MITIE. MITIE також забезпечує високу якість, поєднуючи стандартні текстові функції та вбудовування CCA.
uk_ner_web_trf_Large – це точно налаштована модель XLM-Roberta, яка готова до використання для розпізнавання іменованих сутностей та забезпечує продуктивність SOA для завдання NER для української мови. Вона була навчена розпізнавати чотири типи об'єктів: місце розташування (LOC), організація (ORG), особа (PERS) і різне (MISC).
Flair-uk-ner – модель, готова до використання для розпізнавання іменованих сутностей. Розпізнає чотири типи сутностей: місце розташування (LOC), організація (ORG), особа (PERS) та різне (MISC). Модель була точно налаштована на наборі даних NER-UK, опублікованому lang-uk.
Інструменти аналізу настроїв та видобутку думок
Детектор емоцій в українських текстах є першою моделлю виявлення емоцій для українських текстів, точно налаштованою на двійковому наборі даних UKR-Emotions для багатомаркової класифікації. На основі архітектури intfloat/multilingual-e5-large модель виявляє наявність або відсутність шести основних емоцій: радості, гніву, страху, огиди, здивування і смутку, а також відсутність будь-яких емоцій.
Послуги HENSOLDT ANALYTICS з перетворення мовлення на текст, аналізу емоцій та виявлення іменованих сутностей, пошуку ключових слів, визначення віку, визначення статі, узагальнення.
Машинний переклад
Dragoman — це модель перекладу SOTA з англійської мови на українську на рівні речення. Вона тренується за допомогою двоетапного конвеєра обробки: попереднє навчання на очищеному наборі даних Paracrawl і етап неконтрольованого відбору даних на turuta/Multi30k-uk.
OPUS-tools — це набір інструментів для пошуку та завантаження даних OPUS.
Інструменти локалізації Multilizer 1.0.0 — це найпростіший спосіб створювати та керувати багатомовними версіями програмного забезпечення, документів, веб-сторінок та іншого контенту. З дуже корисними функціями редактора, словниками та валідаціями, фокус може бути на основному – перекладі.
Moses Web Demo — інтерактивна веб-демо-версія вибраних систем ÚFAL MT.
MTData автоматизує збір та підготовку наборів даних машинного перекладу (МТ). Вона забезпечує CLI і Python API, які можуть бути використані для підготовки експериментів з машинним перекладом.
Tilde MT Machine Translation ENGINE 1.0.0 – спеціальний механізм машинного перекладу на основі нейронних мереж.
Англо-українська модель юридичного перекладу — це модель нейронного перекладу, навчена за допомогою безконтрольного машинного перекладу з використанням Monoses. Модель була розроблена в рамках проєкту CEF MT4ALL.
HelsinkiNLP - OPUS-MT 1.0.0 – багатомовний машинний переклад з використанням нейронних мереж.
MBART точно налаштована для багатомовного машинного перекладу. Вона була представлена у статті «Багатомовний переклад із розширюваним багатомовним попереднім навчанням та точним налаштуванням».
COMET отримує триплет (вихідне речення, переклад, еталонний переклад) і надає оцінку, яка відображає якість перекладу порівняно з джерельним та еталонним текстами. Модель призначена для оцінки машинного перекладу.
SynEst Translation Models — це моделі машинного перекладу, орієнтовані на переклад з естонської мови та на неї. Моделі базуються на багатомовній моделі NLLB-1.3B.
OPUS-CAT MT Engine — система машинного перекладу на базі Windows, побудована на фреймворку Marian NMT. OPUS-CAT MT Engine дозволяє використовувати великий вибір передових моделей машинного перекладу на комп'ютерах Windows. Основною метою OPUS-CAT Engine є надання професійним перекладачам локального, безпечного та конфіденційного нейронного машинного перекладу в комп'ютерних засобах перекладу (CAT-інструментах), які зазвичай працюють на базі Windows.
OPUS-MT – додаток, що інтегрує загальнодоступні моделі перекладу з проєкту OPUS-MT, щоб забезпечити швидкий і безпечний машинний переклад на робочому столі кінцевих користувачів.
EdUKate Translation Software 1 – програмний пакет, що включає три інструменти: веб-інтерфейс для машинного перекладу з фонетичною транскрипцією української мови, придатної для чеських спікерів, API-сервер та інструмент для перекладу документів з розміткою (html, docx, odt, pptx, odp,...).
OPUS-MT моделі для української мови — додаток, який об'єднує публічно доступні моделі перекладу з проєкту OPUS-MT, щоб надати швидкий і безпечний машинний переклад на робочий стіл кінцевих користувачів.
Багатомовні моделі перекладу мови
Whisper – це найсучасніша модель для автоматичного розпізнавання мови (ASR) та перекладу мовлення, запропонована в статті «Надійне розпізнавання мови за допомогою масштабного слабкого нагляду» Алека Радфорда та інших авторів з OpenAI. Whisper демонструє високу здатність до узагальнення багатьох наборів даних і доменів у режимі zero-shot без необхідності точного налаштування.
MMMMO Multilingual Speech (MMS) — це модель, оптимізована для багатомовного ASR, яка є частиною Facebook-проєкту "Massive Multilingual Speech". Цей контрольний пункт базується на архітектурі Wav2Vec2 і використовує моделі адаптерів для транскрибування понад 1 000 мов.
MHuBERT-147 – це компактні та конкурентоспроможні багатомовні моделі HuBERT, навчені за 90 тис. годин відкритих даних 147 мовами. На відміну від традиційних HuBERT, моделі mHuBERT-147 навчаються з використанням дискретних мовних одиниць faiss IVF. Навчання використовує дворівневу мову, а також збільшення вибірки джерел даних під час навчання.
Чат-бот інструменти
Перекладач Tradukka (іспанська-X)
OPUS-MT Telegram Translation Bot
Charles Translator for Ukraine – проєкт, основною метою якого є допомога біженцям з України шляхом зменшення комунікаційного розриву між ними та іншими людьми в Чеській Республіці. Це система машинного перекладу для чеської та української мов, яка є більш якісною, ніж Google Translate і безкоштовною для використання через веб-додаток, додаток для Android та REST API.