Корпуси
Багатомовні веб-дані
FinePDFs dataset — це найбільший загальнодоступний корпус, сформований виключно з PDF-файлів. Він містить близько 3 трильйонів токенів у 475 мільйонах документів 1 733 мовами.
maCoCu — веб-корпуси. Корпуси MaCoCu були створені шляхом краулінгу доменів верхнього рівня у 2021 і 2022 роках із динамічним розширенням процесу збору даних на інші домени.
Ukrainian web corpus MaCoCu-uk 1.0 був створений шляхом краулінгу доменів верхнього рівня ".ua" і ".укр" у 2022 році з динамічним розширенням процесу збору даних на інші домени. Містить 21 471 613 текстів.
Web-acquired data related to Scientific research — це корпус, створений шляхом обробки вмісту веб-сайтів, які пов'язані з науковими дослідженнями (наприклад, науково-дослідних центрів і інститутів, університетів, міністерств досліджень тощо).
CCMatrix — це багатомовний корпус, отриманий у результаті веб-краулінгу.
Legal Ukrainian Crawling — корпус української мови обсягом 69 мільйонів токенів. Він створений за допомогою веб-ресурсів, шляхом відбору конкретних URL-адрес у домені, які належать до юридичного сектору, зокрема веб-сайти із законодавством, урядові сайти та домени судової влади та Верховної Ради.
Tilde MODEL Corpus — це багатомовна відкрита база даних для європейських мов. Дані були зібрані з сайтів, що дозволяють безкоштовно використовувати і повторно застосовувати їхній вміст, а також з веб-сайтів державного сектору. Цей корпус містить 30 мов, 274 бітекстів.
Соціальні медіа та публічний дискурс (блоги, новини, соціальні мережі тощо)
UAReviews: Ukrainian Emotion and Intent Benchmark (v1.0). UAReviews — це стандартизований набір даних, що містить 11 580 українських відгуків та коментарів, розмежованих за категоріями емоцій та намірів. Він призначений для оцінки та тонкого налаштування настроїв, емоцій та моделей розуміння намірів для української мови.
Ukrainian Trends: щодня оновлюваний корпус новинних статей. Корпус Ukrainian Trends — це моніторинговий корпус української мови, що складається з новинних статей, матеріалів Вікіпедії та інших джерел, які регулярно оновлюються через їх RSS-стрічки (новини). Корпус Ukrainian Trends поповнюється новими текстами, додаючи близько 1 мільйона слів щодня.
Ukrainian Forums — це корпус, який містить 250 тис. речень, зібраних з форумів.
Ukrainian Web Corpus (Corpora Collection Leipzig) — український змішаний корпус, заснований на матеріалі 2014 року. Він містить 102 429 857 речень і 1 546 330 404 токенів.
Polish Automatic Web corpus of Ukrainian language (PAWUK). PAWUK — абревіатура від "Польський автоматичний веб-корпус української мови". Це мовний корпус, що містить українські тексти, зібрані з Інтернету (обрані веб-сторінки та облікові записи соціальних мереж) і оновлюється щодня. Він автоматично анотований морфосинтактичними тегами, синтаксичними залежностями та іменованими сутностями. Використовує Stanza з спеціально розробленою моделлю для української мови, щоб створювати як теги Universal Dependencies, так і морфологічні теги VESUM.
Zvidusil — веб-корпус з синтаксичним анотуванням (Лабораторія української мови).
Wiki Edits — це колекція з більш ніж 5 млн редагувань речень, отриманих з історії переглядів української Вікіпедії. Редагування були відфільтровані за редакційною відстанню та довжиною речення. Це робить їх придатними для виправлення граматичних помилок (GEC) або попереднього навчання моделей перевірки орфографії.
OSCAR — багатомовний корпус, отриманий шляхом класифікації мов і фільтрації Common Crawl корпусу з використанням архітектури goclassy. Доступно 166 різних мов.
W2C — Web to Corpus — Корпуси — набір корпусів для 120 мов, автоматично зібраних із матеріалів Вікіпедії та Інтернету.
Цільові корпуси
Ukrainian Treebank — еталонний корпус Universal Dependencies для української мови, початково розроблений для UD.
ZNO dataset — набір даних ZNO містить машинозчитувані запитання і відповіді з українського зовнішнього незалежного оцінювання (ЗНО). Тематика запитань: історія України та українська мова і література. Навчальна вибірка містить 3 063 запитання та відповіді з іспитів 2006 – 2019 років. Навчальна вибірка – 751 запитання та відповіді з 2020-2023 років.
Діалектний корпус української мови
UA-GEC містить дані UA-GEC (Корпус виправлення граматичних помилок і вільного володіння українською мовою) та супровідну бібліотеку Python.
Yakaboo Book Reviews містить відгуки про книги, рейтинги та описи.
Ukrainian-Cultural Heritage-Books — це збірка книг і періодичних видань української культурної спадщини, більшість з яких є у відкритому доступі. Колекція була зібрана П'єром-Карлом Лангле з 19 574 оцифрованих файлів, розміщених в Інтернет-архіві (462 млн слів) і буде розширюватись за рахунок інших джерел культурної спадщини.
Ukrainian Winograd Schema Challenge (WSC) Dataset містить ручні переклади 263 схем Winograd з набору даних WSC у форматах CVS і JSONLines.
Bitext Lexical Dataset - Ukrainian включає леми, частини мови (POS-теги), частотність, іменовані сутності й ознаки образливої лексики. Залежно від набору даних і мови, також надаються інші синтаксичні та морфологічні характеристики.
Ukrainian OntoNotes Dataset — це срібні дані для вирішення кореферентності в українській мові: переклад, вирівнювання і проекція.
TheВ Aya Dataset — це багатомовний набір даних для тонкого налаштування, підібраний відкритим науковим співтовариством через платформу Aya Annotation від Cohere For AI. Набір даних містить загалом 204 тис. пар запитань-відповідей, анотованих людиною, разом з демографічними даними анотаторів.
Online concordance of the novel "Cross Paths"В by Ivan Franko — це напівавтоматичний анотований конкорданс з позначенням частин мови і ономастичним тегуванням.
WikiAnn — це набір даних з анотаціями моделі розпізнавання іменованих сутностей (NER) для особи (PER), організації (ORG) і місця (LOC). Створений з використанням пов'язаних сутностей на сторінках Вікіпедії для 282 різних мов.
Wili-2018 є еталонним набором даних для ідентифікації мови і містить 235 000 абзаців з 235 мов.
TüTeam містить близько 2 800 записів з давньогрецької, німецької, англійської, італійської, угорської, латинської, шведської, російської, української, болгарської. Дані надходять з різних джерел: лінгвістична література («класика» про час і вид), художня література, документальні матеріали.
TüNeg містить близько 2 700 записів з переважно тих же мов, що і база даних TüTeam, використовуючи подібні джерела.
База даних граматичних конструкцій у мовах Європи: База даних накопичує граматичні конструкції у мовах Європи. Граматичні конструкції використовуються у поліпредикативних конструкціях. Дані були зібрані з граматик і мовних корпусів, а також шляхом опитування.
XL-sum — це комплексний і різноманітний набір даних, що складається з 1,35 мільйонів професійно анотованих пар "стаття-короткий виклад" з BBC, отриманих з використанням ретельно розробленої евристики.
DaMuEL — це великий багатомовний набір даних для поєднання сутностей, що містить дані 53 мовами.
TaPaCo — це відкритий корпус перефразувань на рівні речення для 73 мов, отриманих з бази даних Tatoeba.
SentiWS містить лексикон настроїв для 81 мов, що генерується за допомогою поширення графів на основі графа знань — графічного представлення реальних сутностей і зв'язків між ними.
JULIELab/MEMOLon містить лексикони з нашої статті ACL 2020 "Learning and Evaluating Emotion Lexicons for 91 Languages". Головний репозиторій цього проєкту, включаючи моделі, експериментальний код та аналіз, можна знайти на GitHub або пов'язаному з ним zenodo deposit .
The European Literary Text Collection ELTeC — це діахронічний багатомовний середній за розміром еталонний корпус з відкритим доступом, до якого увійшли романи 1840–1919 років.
Великі анотовані корпуси
Генеральний регіонально анотований корпус української мови (ГРАК) є найбільшим вручну сформованим довідковим корпусом української мови.
Plug (PluPerfect GRAC) — це корпус старих текстів ГРАК для завантаження.
Kobza становить близько 1,3 Тб нестисненого тексту, 60 мільярдів токенів на 97 мільйонів документів, дедублікована компіляція CulturaX, Fineweb 2, HPLT 2,0, Ukrainian News і UberText 2,0.
Malyuk — це корпус обсягом 1 113 Гб тексту, компіляція UberText 2,0, OSCAR, Ukrainian News.
Lang-uk corpus Project — надає колекції української онлайн-преси, художньої літератури та матеріалів Вікіпедії, доступні для завантаження, загальною кількістю 665 мільйонів токенів (UberText corpus). Корпус законів і нормативно-правових актів, що налічує 579 мільйонів токенів. Корпус, анотований для іменованих сутностей, а також модель автоматичного позначення іменованих сутностей (людей, організацій, місць та інше). Проєкт також включає різні довідники, простий токенізатор (розбиття тексту на абзаци, речення і токени), векторні моделі, навчені на різних корпусах.
Браунський корпус української мови — відкритий, жанрово-збалансований і в перспективі анотований корпус сучасної української мови (BrUK) обсягом 1 мільйон слововживань. Корпус побудований на основі відомого Brown corpus англійської мови.
Корпус української мови бібліотеки "Чтиво" — універсальний (або національний) неанотований і несистематизований корпус української мови. Містить 6,6 Гб україномовних текстів з електронної бібліотеки "Чтиво".
Legal documents from the official webportal of the Parliament of Ukraine (1.0) — це одномовний корпус на основі 15 335 документів, отриманих з порталу Верховної Ради України.
UberText 2,0 — це нова і розширена версія UberText, корпусу сучасних українських текстів, призначених для задоволення різних потреб NLP.
Corpus Project of the Laboratory of Ukrainian містить кілька корпусів і спеціалізований морфологічний аналізатор. Корпуси включають treebank з ручним розрізненням значень і ручним тегуванням (140 тисяч токенів), веб-корпус "Zvidusil" з автоматичним синтаксичним анотуванням (близько 3 мільярдів токенів), паралельні корпуси.
MLAMA надає дані для MLAMA, багатомовної версії LAMA.
Паралельні корпуси
MultiBMP є масштабним багатомовним зразком для лінгвістичних мінімальних пар. Набір даних складається з синтетичних пар, згенерованих із використанням Universal Dependencies і UniMorph.
ParaFarm — це англо-український багатомовний корпус.
MultiParaCrawl — це паралельні корпуси, отримані у результаті веб-краулінгу, в межах проєкту ParaCrawl і додатково опрацьовані для того, щоб створити багатопаралельний корпус шляхом півотування через англійську.
ParaPat містить розроблений паралельний корпус з відкритого доступу Google. Набір даних патентів охоплює 74 мовні пари, що включає більше 68 мільйонів речень і 800 мільйонів токенів.
PELCRA-PAR-3 — польські паралельні корпуси, ліцензовані за CC-BY. Цей ресурс містить 11 300 текстів на 6 мовах з веб-сайту CORDIS, 5 556 текстів на 28 мовах з сайту RAPID, 3 037 прес-релізів Європейського Парламенту на 22 мовах і 109 прес-релізів Європейської Південної Обсерваторії на 17 мовах.
HRW Dataset — багатомовний корпус, зібраний із веб-сайту Human Rights Watch (9 жовтня 2020 року).
ParaRook||DE-UK — паралельний німецько-український та українсько-німецький корпус на базі ГРАК.
Паралельний корпус з російською мовою (Російський національний корпус)
Набір даних Multi30k: Англо-українська варіація.
SciPar UK-EN-RU — це корпус на основі паралельних назв та анотацій дисертацій, доступних в академічних архівах українських університетів та політехнічних інститутів (англ., рос., укр.).
WEB Inventory Talk — це колекція оригінальних TED Talks та їхня перекладена версія. Переклади доступні більш ніж на 109+ мовах, хоча розподіл не є рівномірним.
Багатомовний паралельний корпус з англійської, французької та польської мов на українську
OpenSubtitles — багатомовні корпуси на 58 мовах. The OpenSubtitles parallel corpora 2018 — колекція паралельних корпусів, що складається з перекладених субтитрів до фільмів на https://www.opensubtitles.org/. Колекція складається з 60 корпусів на 58 мовах.
INTERCORP. У Intercorp v. 16 обсяг українських текстів становить понад 18 мільйонів токенів з вирівняними текстами оригіналів, або перекладами на чеську та інші мови через чеську. Українська частина Intercorp складається в основному з вирівняних вручну текстів художньої літератури і меншого набору даних субтитрів та Біблії.
Parallel corpus of KDE4 localization files
OPUS — це колекція перекладених текстів з Інтернету, що постійно поновлюється.
Tatoeba — це велика база даних речень і перекладів, серед яких і українська.
Polish-Ukrainian Parallel Corpus — двомовний ресурс, який постійно розвивається. Він містить вручну вирівняні сучасні польські та українські тексти загальним обсягом понад 1,2 мільйона слів. У корпусі переважають твори художньої літератури, розмовного стилю та спеціалізовані тексти.
English - Ukrainian Legal MT Test Set — це тестовий набір з 996 паралельних сегментів англійською та українською мовами. Він призначений для тестування машинного перекладу в юридичній сфері.
Auslandsgesellschaft.de Dortmund Serviceheft Ukraine (оброблена) (1,0) — це колекція одиниць перекладу (TUs), видобутих з набору даних (колекції документів) текстів німецькою та українською мовами на різні теми.
Нормативно-правові та інституційні тексти
Official web-portal of the Parliament of Ukraine, Ukrainian laws in EN створений на основі перекладів законів України англійською мовою, доступних на офіційному веб-порталі Верховної Ради України.
Official web-portal of the Parliament of Ukraine, primary legislation базувався на перекладах первинного законодавства, контрольованих комітетами Верховної Ради України.
Official web-portal of the Parliament of Ukraine, abstracts of UK laws базувався на перекладах анотацій законів України англійською мовою, які доступні на офіційному веб-порталі Верховної Ради України.
EU acts in Ukrainian — це корпус на основі: а) перекладів актів ЄС українською мовою, які доступні на офіційному веб-порталі Верховної Ради України і б) актів ЄС, які доступні багатьма мовами CEF.
Корпуси для мовних технологій
GlobalPhone 2000 Speaker Package — багатомовний аудіокорпус, який охоплює близько 9 000 випадково вибраних висловлювань, прочитаних 2 000 носіями мови 22 мов. Пакет призначений для різноманітних завдань у сфері досліджень та розробки систем розпізнавання мовця, таких як (1) розпізнавання мовця з урахуванням тексту та без урахування тексту (наприклад, верифікація та ідентифікація мовця), (2) розпізнавання мовця на декількох мовах, (3) багатомовна ідентифікація мовця, (4) багатомовна перевірка мовця та (5) розпізнавання мовця в умовах обмежених ресурсів.
COVID Parallel Global Voices був створений для European Language Resources Coordination Action (ELRC) дослідниками з групи NLP Інституту обробки мови та мовлення. Первинні дані корпусу захищені авторським правом і належать Global Voices.
Тестовий набір NIST 2011 для розпізнавання мов складається з приблизно 204 годин розмовного телефонного мовлення та аудіозаписів, зібраних Лінгвістичним консорціумом даних (LDC) на 24 мовах та діалектах.
GlobalPhone Ukrainian було розроблено у співпраці з Інститутом технологій Карлсруе (KIT), метою якого є надання даних читаного мовлення для розробки й оцінки великих систем безперервного розпізнавання мовлення на найбільш поширених мовах світу, а також забезпечення єдиної багатомовної бази мовленнєвих та текстових даних для мовно-незалежного та мовно-адаптивного розпізнавання мови і для завдань ідентифікації мови.
Common Language складається з мовленнєвих записів з мов, ретельно відібраних з бази даних CommonVoice.
OpenSubtitles — нова колекція перекладених субтитрів до фільмів.
Common Voice — це набір даних, що містить аудіо 60 мовами загальним обсягом 9 283 записаних годин.
VoxForge — це відкритий набір даних мовлення, створений, щоб збирати транскрибоване мовлення з метою використання з відкритими і безкоштовними системами розпізнавання мовлення (на Linux, Windows та Mac).
COVID-19 текстові та інформаційні ресурси
COVID-19 - HEALTH Wikipedia dataset. Bilingual (EN-UK) — двомовний (англо-укр) корпус, зібраний із Вікіпедії, що стосується здоров'я та COVID-19 (2 травня 2020 року).
COVID-19 POLISH-GOV Dataset v2. Bilingual (EN-UK) — двомовний (англо-укр) пов'язаний із COVID-19 корпус, зібраний із порталу польського уряду (8 травня 2020 року).
COVID-19 UDSC-PL dataset. Bilingual (EN-UK) — двомовний (англо-укр) корпус, зібраний із веб-сайту Управління у справах іноземців Польщі.
COVID-19 CDC Dataset v2. Multilingual (EN, ES, FR, PT, IT, DE, KO, RU, ZH, UK, VI)В (2.0) — багатомовний корпус, зібраний із сайту Центри з контролю та профілактики захворювань у США (11 серпня 2020 року).
COVID-19 POLISH-GOV v2 Dataset. Multilingual (EN, PL, FR, DE, VI, RU, UK) — багатомовний (EN, PL, FR, DE, VI, RU, UK) корпус зібраний із сайту Управління у справах іноземців Польщі .
COVID-19 USAHELLO Dataset v2. Multilingual (EN, AR, ES, FA, FR, IT, KO, PT, RU, TL, TR, UK, UR, VI, ZH) — багатомовний корпус, зібраний із веб-сайту — безкоштовний онлайн-центр інформації та освіти для біженців, шукачів притулку, іммігрантів і приймаючих громад (9 серпня 2020 року).
COVID-19 Government of Canada dataset v2. Multilingual (EN, FR, DE, ES, EL, IT, PL, PT, RO, KO, RU, ZH, UK, VI, TA, TL) — багатомовний корпус, зібраний із веб-сайту уряду Канади (17 липня 2020 року).