Головна сторінка » Укрдержархів вперше передасть 10 ТБ даних для тренування національної LLM «Сяйво»

Укрдержархів вперше передасть 10 ТБ даних для тренування національної LLM «Сяйво»

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Читайте также: Американська Aeon хоче пристосувати ракети Zeus для запуску з українських дронів

Державна архівна служба України вперше передасть свої дані для тренування національної мовної моделі «Сяйво».

Йдеться про 10 терабайтів унікальних історичних матеріалів, державних документів і наукових текстів. Про це повідомили в Мінцифри.

Такий масив даних дорівнює 70 000 книжок. У міністерстві пояснили, що тренування LLM на україномовних джерелах дозволить моделі краще розуміти український контекст. На сьогодні більшість великих ШІ-помічників працюють переважно на англомовних даних, а українською часто просто перекладають відповіді.

Голова Укрдержархіву Анатолій Хромов заявив, що передані дані містять великий масив матеріалів різних історичних епох — друкованих і рукописних, українською та іншими мовами. За його словами, до кінця 2026 року кількість цифрових копій у держархівах має зрости зі 150 млн до понад 200 млн.

У Мінцифри кажуть, що створення великої мовної моделі є частиною ширшого проєкту з побудови ШІ-суверенітету. Зараз для цього збирають якісний масив даних. За даними відомства, свої матеріали вже надали понад 50 медіа, університетів та бібліотек.

Читайте также: Бойовий робот утримує позиції замість людей. Як працюють турелі і чому вони ще не всюди

📌 Контекст

Національну велику мовну модель в Україні розвиває WINWIN AI Center of Excellence при Мінцифри, який запустили у лютому 2025 року. Раніше DOU повідомляв, що модель створюють у партнерстві з «Київстар», а як базову модель для розробки обрали Gemma 3.

У січні 2026 року в Мінцифри казали, що бета-тест національної LLM планують запустити навесні, а в лютому CTO WINWIN AI Center of Excellence Дмитро Овчаренко розповідав DOU, що повноцінну презентацію моделі та перші наукові результати очікують у квітні-травні 2026 року.

Наприкінці березня в застосунку «Дія» провели голосування за назву моделі, і за його підсумками українську LLM назвали «Сяйво». Тоді ж у Мінцифри повідомляли, що над назвою голосували понад 136 тисяч людей.

Нагадаємо, що колишні керівники напряму штучного інтелекту в Мінцифри Данило Цьвок та Дмитро Овчаренко перейшли до Міністерства оборони, де очолили новостворений Defense AI Center «A1».

Читайте также: Новий Head of AI компанії «Четвертий Закон» шукає ML і Datasets-спеціалістів у команду

Все про українське ІТ в телеграмі — підписуйтеся на канал DOU

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *