Укрдержархів вперше передасть 10 ТБ даних для тренування національної LLM «Сяйво»

💡 Усі статті, обговорення, новини про AI — в одному місці. Приєднуйтесь до AI спільноти!

Державна архівна служба України вперше передасть свої дані для тренування національної мовної моделі «Сяйво».

Йдеться про 10 терабайтів унікальних історичних матеріалів, державних документів і наукових текстів. Про це повідомили в Мінцифри.

Такий масив даних дорівнює 70 000 книжок. У міністерстві пояснили, що тренування LLM на україномовних джерелах дозволить моделі краще розуміти український контекст. На сьогодні більшість великих ШІ-помічників працюють переважно на англомовних даних, а українською часто просто перекладають відповіді.

Голова Укрдержархіву Анатолій Хромов заявив, що передані дані містять великий масив матеріалів різних історичних епох — друкованих і рукописних, українською та іншими мовами. За його словами, до кінця 2026 року кількість цифрових копій у держархівах має зрости зі 150 млн до понад 200 млн.

У Мінцифри кажуть, що створення великої мовної моделі є частиною ширшого проєкту з побудови ШІ-суверенітету. Зараз для цього збирають якісний масив даних. За даними відомства, свої матеріали вже надали понад 50 медіа, університетів та бібліотек.

📌 Контекст

Національну велику мовну модель в Україні розвиває WINWIN AI Center of Excellence при Мінцифри, який запустили у лютому 2025 року. Раніше DOU повідомляв, що модель створюють у партнерстві з «Київстар», а як базову модель для розробки обрали Gemma 3.

У січні 2026 року в Мінцифри казали, що бета-тест національної LLM планують запустити навесні, а в лютому CTO WINWIN AI Center of Excellence Дмитро Овчаренко розповідав DOU, що повноцінну презентацію моделі та перші наукові результати очікують у квітні-травні 2026 року.

Наприкінці березня в застосунку «Дія» провели голосування за назву моделі, і за його підсумками українську LLM назвали «Сяйво». Тоді ж у Мінцифри повідомляли, що над назвою голосували понад 136 тисяч людей.

Нагадаємо, що колишні керівники напряму штучного інтелекту в Мінцифри Данило Цьвок та Дмитро Овчаренко перейшли до Міністерства оборони, де очолили новостворений Defense AI Center «A1».

Все про українське ІТ в телеграмі — підписуйтеся на канал DOU

Українська компанія Buntar Aerospace розробила софт для віддаленого керування БПЛА з будь-якої точки

Тарас Чмут пояснив, чому система мобілізації працює неефективно і як її можна змінити

«Наші люди обікрали самі себе». Провідний інженер «Кристалу» про те, чому Україна втратила виробництво мікроелектроніки

«Наші люди обікрали самі себе». Провідний інженер «Кристалу» про те, чому Україна втратила виробництво мікроелектроніки

У компанії OBRIO скорочують частину команди — у чому причина

Звільнення Федорова | Зупинка бронювання через Дію | Аналітика зарплат розробників — DOU News #259

Укрдержархів вперше передасть 10 ТБ даних для тренування національної LLM «Сяйво»

📌 Контекст

Залишити відповідь Скасувати коментар

📌 Контекст

Залишити відповідь Скасувати коментар

Схожі записи