Укргосархив передал 10 ТБ данных для обучения украинского ИИ «Сяйво»

Укргосархив передал 10 ТБ данных для обучения украинского ИИ "Сяйво"
Иллюстративное фото: Depositphotos

В Украине начали активную фазу создания национальной большой языковой модели "Сяйво", которая должна учитывать украинский контекст, историю и языковые особенности. Об этом сообщает врио министра Минцифры Александр Борняков.

Для обучения ИИ используют уникальные текстовые массивы, значительная часть которых ранее не применялась в подобных проектах.

Читайте такжеУкраина создает национальную LLM. Зачем государству языковая модель и что о ней думает бизнес

К инициативе уже присоединились более 50 организаций. Один из крупнейших взносов сделал Укргосархив, который передал около 10 терабайт данных – это эквивалент примерно 70 000 книг. Речь идет об архивных материалах, имеющих историческую и культурную ценность.

Это первый случай в Украине, когда архивные фонды используют для развития цифровых технологий и обучения искусственного интеллекта. Такой подход позволяет интегрировать в модели глубокий контекст, в частности языковые диалекты, исторические тексты и документы разных периодов.

Сейчас Украина входит в число стран с высоким уровнем оцифровки архивов. Ожидается, что к концу 2026 года объем цифровых копий возрастет со 150 млн до более 200 млн.

Недавно в декабре 2025 года Украина начала сбор данных для обучения ИИ-модели из более 90 госучреждений. Также в Украине сформировали команду для разработки национальной большой языковой модели.