Фото: Министерство науки и высшего образования Республики Казахстан
РАЗРАБОТАНА БОЛЬШАЯ ЯЗЫКОВАЯ МОДЕЛЬ KAZLLM
В рамках поручения Главы государства разработана Большая языковая модель KazLLM, направленная на развитие искусственного интеллекта на казахском языке.
В рамках реализации данного поручения Министерством науки и высшего образования Республики Казахстан с привлечением Института информационных систем и искусственного интеллекта (ISSAI), научных институтов и высших учебных заведений проведена работа по обеспечению корпуса казахского языка для национальной языковой модели KazLLM.
Следует отметить, что данная мера будет способствовать созданию эффективных решений для обработки, перевода и анализа текстовой информации на казахском языке, а также на интеграцию казахского языка в современные технологии. В условиях глобализации и стремления к сохранению культурной самобытности страны значимость проекта становится особенно актуальной.
Cвыше 140 ученых и сотрудников 26 ведущих научных институтов и вузов страны, принимавших участие в разработке корпусе казахского языка для KazLLM, занимались подготовкой больших объемов данных по экономике, финансам, математике, истории, биологии, химии, медицине, технологиям и другим 115 областям науки на казахском языке. Например, Казахский национальный университет им. аль-Фараби осуществил подготовку данных по философии, этике, PR, астрономии, астрофизике и информационным технологиям, Институт математики и математического моделирования – составлением данных по направлениям математики, Институт истории и этнологии имени Ш.Уалиханова – контентом по истории, а медицинские университеты – данных в области медицины. Это сотрудничество с учреждениями науки и высшего образования способствовало созданию уникального контента на казахском языке, что обеспечит качественную и эффективную разработку модели.
На сегодняшний день доступна версия KazLLM с открытым исходным кодом на платформе https://huggingface.co/issai.
Данную модель, которая является важной частью цифровой инфраструктуры, можно использовать в некоммерческих научных и академических целях, а также в создании чат-ботов, виртуальных помощников, автоматических переводчиков, по аналогии с Google Translate.