Мінцифри розпочало збір текстових даних для розробки національної LLM. Дані потрібні, щоб адаптувати модель до українського контексту.
Про це повідомляють у Мінцифри.
На базі цієї моделі згодом працюватимуть ШІ-помічники для державного сектору та приватного бізнесу.
📌 Хто може стати партнером проєкту
Розробники шукають співпраці з медіа, видавництвами, університетами та бізнесом. Для навчання потрібні такі дані:
Публіцистика — новини, інтерв’ю та блоги.
Науковий контент — підручники, дисертації та курси.
Культурна спадщина — художня література та оцифровані архіви.
Корпоративні дані — описи товарів, відгуки та документація.
У Мінцифри зазначають, що в межах проєкту передбачені юридичні умови для захисту інтелектуальної власності.
«Усіх партнерів, які зроблять внесок у розвиток технології, ми офіційно відзначимо в підсумковому звіті про розробку національної моделі», — зазначають у Міністерстві.
Описати наявні масиви даних у короткій формі за спеціальним посиланням.
Отримати консультацію щодо технічних або юридичних питань через AI-команду Мінцифри за адресою: [email protected].
📌 Про національну LLM
Розробку національної мовної моделі Мінцифри та «Київстар» почали у червні 2025 року. У грудні обрали ШІ-модель, на якій працюватиме LLM — це Gemma 3, відкрита модель Google, яку адаптуватимуть під українську мову та локальні завдання.
Першу версію LLM планували представити до кінця 2025 року, втім у партнерському інтерв’ю «УТ-2» та DOU т.в.о. очільника Мінцифри Олександр Борняков розповів, чому старт затримався.
Однією з причин був саме збір даних:
«Ми стикнулися з великою проблемою збору даних, яка складається з двох частин. Перша — юридична. Ми — міністерство, і не можемо просто автоматично збирати чи вилучати дані, які захищені чиїмось інтелектуальним правом», — зазначив Борняков.
Крім того, була затримка в технічній частині — були складнощі з наймом айтівців, щоб зібрати команду.