Корпус Загальна характеристика корпусу ParlaMint-UA

Корпус ParlaMint-UA — перший повнотекстовий спеціалізований корпус стенограм парламентських засідань України. Його було укладено, анотовано й узгоджено з іншими національними та регіональними європейськими корпусами в рамках проекту ParlaMint під егідою CLARIN-ERIC1. У ньому розміщуються записи пленарних засідань Верховної Ради – однопалатного парламенту України.

Версії корпусу можна безкоштовно завантажити з репозитарію CLARIN.SI:

ParlaMint-UA 4.1 (анотована версія)

ParlaMint-UA 4.1 (неанотовані тексти)

Або досліджувати корпус за допомогою конкордансера NoSketch Engine:

ParlaMint-UA (NoSketch Engine)

Корпус було укладено у трьох версіях. Версія 3.0 охоплює період з 4 грудня 2012 року по 24 лютого 2023 року та включає 783 дати засідань, 1 475 мовців та 52 парламентські партії, фракції та групи. Загальний обсяг корпусу становить понад 22,5 млн токенів, 18 млн слів, 1,5 млн речень і понад 195 тис. висловлювань (фрагментів мовлення одного мовця).

Версія 4.0 містить записи пленарних засідань за період з 4 грудня 2012 року по 6 вересня 2023 року. Загальний обсяг становить понад 23 млн токенів, 18,5 млн слів, 1,6 млн речень і понад 200 тис. висловлювань, використаних 1 501 мовцем протягом 808 дат засідань.

Український парламентський корпус ParlaMint-UA 4.0.1 є розширеною версією корпусу ParlaMint-UA 4.0, який містить пленарні стенограми IV–IX скликань за період з 14 травня 2002 року по 10 листопада 2023 року. Загальний обсяг складає понад 51 млн токенів, 41 млн слів, 3,4 млн речень і 429 тис. висловлювань, використаних 2 532 мовцями у 1 723 засіданнях. Український парламентський корпус ParlaMint-UA 4.0.1 було повністю інтегровано до версії 4.1.

Зазначимо, що IX скликання все ще тривало станом на 2024 рік, коли було оприлюднено найновіші версії корпусу.

Архівні стенограми всіх пленарних засідань, а також списки парламентських виступів із часовими мітками й особисті метадані депутатів, зокрема їхні повні імена, дати народження, стать та приналежність до фракції Верховної Ради, були автоматично завантажені у форматах HTML, XML та CSV з порталу відкритих даних Верховної Ради за ліцензією CC BY 4.0. Метадані про членів уряду, запрошених доповідачів, організації та події, зокрема періоди перебування уряду при владі, а також додаткові метадані про народних депутатів, наприклад перейменування осіб, були зібрані вручну з різних відкритих джерел.

Мовні питання

Хоча офіційною робочою мовою Верховної Ради є українська, деякі виступи під час парламентських засідань виголошувалися іншими мовами. Усі виступи іноземних гостей іншими мовами у вихідних текстах були записані в українському перекладі. Натомість висловлювання українських народних депутатів та урядовців російською мовою були збережені без перекладу. У корпусах ParlaMint-UA 3.0 та 4.0 ідентифікацію мови здійснено на рівні абзацу: 99% висловлювань зафіксовано українською мовою і 1% — російською. У версії Українського парламентського корпусу ParlaMint-UA 4.0.1 було вдосконалено мовну ідентифікацію між українською та російською мовами з рівня абзацу до рівня речення. Завдяки цьому здійснюється просування досліджень кодового перемикання в публічному дискурсі2. У цій версії 94% токенів припадає на українську мову і 6% — на російську.

Випадки використання російської мови у Верховній Раді траплялися переважно до середини 2019 року, коли набув чинності Закон "Про забезпечення функціонування української мови як державної".

Маркування частин мови, лематизація та розбір синтаксичних залежностей були виконані за допомогою UDPipe 2 з використанням моделей ukrainian-iu-ud-2.10-220711 та russian-syntagrus-ud-2.10-220711 для версій ParlaMint-UA 3.0 та 4.0, а також моделей ukrainian-iu-ud-2.12-230717 та russian-syntagrus-ud-2.12-230717 для версій ParlaMint-UA 4.0.1. Крім того, було виправлено помилки, виявлені у ParlaMint 4.0.

Українську модель розпізнавання іменованих сутностей (NER) було навчено та впроваджено в межах сервісу NameTag з використанням спеціалізованого навчального набору даних. Висловлюємо подяку Яні Страковій за навчання українського NER інструменту.

Для підвищення доступності українських даних для міжнародних дослідників корпус ParlaMint-UA разом з іншими корпусами ParlaMint у проєкті було автоматично перекладено англійською мовою та включено до паралельного корпусу, доступного через конкордансер як:

PARLAMINT-XX-EN 4.1 (версія з машинним перекладом) і

PARLAMINT-XX 4.1 (спільний корпус усіх початкових мовних корпусів, включаючи корпус Parlamint-UA, узгоджений на рівні речень із перекладеною версією).

Також ці корпуси доступні для завантаження

Машинний переклад англійською мовою було зроблено на рівні речень за допомогою пакета EasyNMT з використанням моделей OPUS-MT. Слід зауважити, що автоматично створений переклад англійською містить помилки, типові для нейронного машинного перекладу.

Український парламент, загальна характеристика

Верховна Рада України (англ. The Verkhovna Rada of Ukraine) — однопалатний парламент України, члени якого обираються строком на п’ять років. У новітній українській історії було дев'ять скликань Верховної Ради,VI, VIII та IX скликання були обрані на позачергових парламентських виборах. До складу Верховної Ради входять 450 народних депутатів України (англ. Members of Parliament або people’s deputies). Однак з огляду на російську агресію у 2014 році вибори в округах, розташованих на тимчасово окупованих територіях Донецької та Луганської областей, а також у Криму, не проводилися, внаслідок чого було обрано 423 депутати VIII скликання та 424 депутати IX скликання. Чинна виборча система є змішаною: 50% мандатів розподілено за партійними списками і 50% місць — в одномандатних виборчих округах.

Парламентська робота в межах одного скликання поділяється на кілька сесій. Кожне перше засідання новоскликаної Ради очолюється членами тимчасової президії, яка здійснює головування до обрання Голови Верховної Ради (англ. Chairperson, досл. Head of the Verkhovna Rada), Першого заступника Голови Верховної Ради (англ. First Deputy Chairperson, досл. First Deputy Head of the Verkhovna Rada) та заступника Голови Верховної Ради (англ. Deputy Chairperson, досл. Deputy Head of the Verkhovna Rada) з числа народних депутатів. У випадку дострокового припинення повноважень Президента України, Голова Верховної Ради виконує обов’язки глави держави з обмеженими повноваженнями, як це було у лютому – червні 2014 року.

Зазвичай протягом одного дня може відбуватися одне або два пленарні засідання (ранкове та вечірнє).

Політична система України є багатопартійною. Станом на 1 січня 2020 року в Єдиному державному реєстрі було зареєстровано 349 політичних партій. Сучасні політичні партії в Україні здебільшого не мають чіткої ідеології. Вони часто об’єднуються навколо певного геополітичного курсу, окремих політичних лідерів або бізнес-інтересів. Перейменування та ребрендинг партій напередодні виборів є доволі поширеною практикою. Партії, які долають 5-відсотковий виборчий бар’єр, утворюють парламентські фракції. Народні депутати, обрані за партійними списками, можуть бути як членами відповідних партій, так і висунутими без формального членства. Депутатські групи можуть складатися з депутатів, які вийшли з фракції, представників різних партій або позафракційних депутатів. Народний депутат може бути членом лише однієї парламентської фракції або групи одночасно.

Команда

Матяш Копп (3,0, 4,0, 4,0.1)

Анна Кривенко (3,0, 4,0, 4,0.1)

Адріана Ріі (4,0.1)

Детальніше про робочий процес, розроблений для створення корпусу ParlaMint-UA, див. нижче3.

Подяки

Корпус ParlaMint-UA був розроблений за підтримки програми Digital Humanities P6-0436 та проєкту N6-0288, що фінансуються Словенською дослідницькою агенцією, а також у межах проєкту CLARIN ERIC "ParlaMint: Towards Comparable Parliamentary Corpora". У роботі також використовувалися інструменти й сервіси, надані дослідницькою інфраструктурою LINDAT/CLARIAH-CZ за підтримки Міністерства освіти, молоді та спорту Чеської Республіки (проект № LM2023062). Український парламентський корпус ParlaMint-UA 4.0.1 було підтримано інститутом Jožef Stefan Institute CLARIN ("CLARIN.SI").

Література

(1) Erjavec, T., Ogrodniczuk, M., Osenova, P., Ljubešić, N., Simov, K., Pančur, A., Rudolf, M., Kopp, M., Barkarson, S., Steingrímsson, S., Çöltekin, Ç., de Does, J., Depuydt, K., Agnoloni, T., Venturi, G., Pérez, M. C., de Macedo, L. D., Navarretta, C., Luxardo, G., . . Fišer, D. (2023). The ParlaMint corpora of parliamentary proceedings. Language Resources and Evaluation, 57 (1), 415-448. https://doi.org/10.1007/s10579-021-09574-0

(2) Kanishcheva, O., Kovalova, T., Shvedova, M., von Waldenfels, R. (2023). The Parliamentary Code-Switching Corpus: Bilingualism in the Ukrainian Parliament in the 1990s–2020s. У: Proceedings of the Second Ukrainian Natural Language Processing Workshop (UNLP), 79–90, Дубровник, Хорватія. Association for Computational Linguistics. https://doi.org/10.18653/v1/2023.unlp-1.10

(3) Kryvenko, A., Kopp, M. (2023). Workflow and Metadata Challenges in the ParlaMint Project: Insights from Building the ParlaMint-UA Corpus. У: CLARIN Annual Conference Proceedings, 2023. ISSN 2773-2177 (online). Ред. Krister Lindén, Jyrki Niemi, Thalassia Kontino. Левен, Бельгія, 2023. https://office.clarin.eu/v/CE-2023-2328_CLARIN2023_ConferenceProceedings.pdf

Ресурси

Kopp, M., Kryvenko, A., Rii, A. (2023). Ukrainian parliamentary corpus ParlaMint-UA 4.0.1 [Репозитарій мовних ресурсів CLARIN.SI]. http://hdl.handle.net/11356/1900

Erjavec, T., Kopp, M., Ogrodniczuk, M., Osenova, P., Fišer, D., Pirker, H., Wissik, T., Schopper, D., Kirnbauer, M., Mochtak, M., Ljubešić, N., Rupnik, P., Pol, H. v. d., Depoorter, G., de Does, J., Simov, K., Grigorova, V., Grigorov, I., Jongejan, B., . . . Kryvenko, A. (2023). Linguistically annotated multilingual comparable corpora of parliamentary debates ParlaMint.ana 4.0 [Slovenian language resource repository CLARIN.SI]. http://hdl.handle.net/11356/1860

Erjavec, T., Kopp, M., Ogrodniczuk, M., Osenova, P., Fišer, D., Pirker, H., Wissik, T., Schopper, D., Kirnbauer, M., Mochtak, M., Ljubešić, N., Rupnik, P., Pol, H. v. d., Depoorter, G., de Does, J., Simov, K., Grigorova, V., Grigorov, I., Jongejan, B., . . . Kryvenko, A. (2023). Multilingual comparable corpora of parliamentary debates ParlaMint 4.0 [Slovenian language resource repository CLARIN.SI]. http://hdl.handle.net/11356/1859

Kuzman, T., Ljubešić, N., Erjavec, T., Kopp, M., Ogrodniczuk, M., Osenova, P., Fišer, D., Pirker, H., Wissik, T., Schopper, D., Kirnbauer, M., Mochtak, M., Rupnik, P., Pol, H. v. d., Depoorter, G., de Does, J., Simov, K., Grigorova, V., Grigorov, I., . . . Kryvenko, A. (2023). Linguistically annotated multilingual comparable corpora of parliamentary debates in English ParlaMint-en.ana 4.0 [Slovenian language resource repository CLARIN.SI].http://hdl.handle.net/11356/1864

Erjavec, T., Kopp, M., Ogrodniczuk, M., Osenova, P., Fišer, D., Pirker, H., Wissik, T., Schopper, D., Kirnbauer, M., Mochtak, M., Ljubešić, N., Rupnik, P., Pol, H. v. d., Depoorter, G., de Does, J., Simov, K., Grigorova, V., Grigorov, I., Jongejan, B., . . . Kryvenko, A. (2023). Linguistically annotated multilingual comparable corpora of parliamentary debates ParlaMint.ana 3.0 [Slovenian language resource repository CLARIN.SI].http://hdl.handle.net/11356/1488

Erjavec, T., Kopp, M., Ogrodniczuk, M., Osenova, P., Fišer, D., Pirker, H., Wissik, T., Schopper, D., Kirnbauer, M., Mochtak, M., Ljubešić, N., Rupnik, P., Pol, H. v. d., Depoorter, G., de Does, J., Simov, K., Grigorova, V., Grigorov, I., Jongejan, B., . . . Kryvenko, A. (2023). Multilingual comparable corpora of parliamentary debates ParlaMint 3.0 [Slovenian language resource repository CLARIN.SI]. http://hdl.handle.net/11356/1486

Kuzman, T., Ljubešić, N., Erjavec, T., Kopp, M., Ogrodniczuk, M., Osenova, P., Fišer, D., Pirker, H., Wissik, T., Schopper, D., Kirnbauer, M., Mochtak, M., Rupnik, P., Pol, H. v. d., Depoorter, G., de Does, J., Simov, K., Grigorova, V., Grigorov, I., . . . Kryvenko, A. (2023). Linguistically annotated multilingual comparable corpora of parliamentary debates in English ParlaMint-en.ana 3.0 [Slovenian language resource repository CLARIN.SI]. http://hdl.handle.net/11356/1810

Рецензовані дослідження на основі даних ParlaMint-UA

Kryvenko, A. 2025. ‘Maidan has become part of Ukrainian identity’: The dynamics of naming and framing civil resistance in parliamentary discourse [Рукопис прийнятий до публікації]. Corpora 20 (3).