Искусственный интеллект оцифрует исчезающие языки Камчатки

Лингвисты Камчатского государственного университета имени Витуса Беринга и Высшей школы экономики начали разработку параллельного корпуса корякского языка. Проект базируется на технологиях машинного обучения и призван интегрировать речь коренных жителей полуострова в современные программные продукты. Создание электронной базы данных позволит зафиксировать лингвистический материал и сделать его доступным вне зависимости от демографической ситуации в местах традиционного проживания носителей.

Корякский язык находится под угрозой исчезновения. Подавляющее большинство владеющих им людей проживает в отдаленных селах на севере Камчатки, при этом молодое поколение почти полностью перешло на русский. Сужение естественной среды общения требует новых подходов к сохранению лексики и грамматики, где оцифровка становится базовым условием для интеграции языка в повседневную коммуникацию.

Ключевой технической проблемой проекта является дефицит исходного материала. В отличие от русского или английского языков, располагающих миллиардами текстовых документов для машинного обучения, объем письменных источников на корякском ограничен сотнями страниц. В таких условиях стандартные алгоритмы нейросетей оказываются неэффективными. Ученые применяют специализированные языковые модели, адаптированные для работы с малыми объемами данных, комбинируя их с ручной и автоматической морфологической разметкой. Исходные тексты и аудиозаписи собираются в ходе ежегодных полевых экспедиций.

Готовый языковой корпус представляет собой структурированный массив данных, где каждое слово классифицировано по грамматическим формам и контексту применения. Исполняющая обязанности ректора камчатского университета Ольга Ребковец отмечает, что подобные решения масштабируемы: «Языковые корпусы – это инструмент, который открывает практические возможности для носителей языка в цифровой среде». Полученный опыт планируется использовать в других субъектах страны для поддержки региональных языков при разработке машинных переводчиков, голосовых ассистентов и чат-ботов.

Конечная цель исследователей – формирование полноценной среды, в которой пользователи смогут применять корякский язык в мессенджерах и мобильных сервисах. Часть разработок уже реализована: в открытом доступе функционирует обучающее мобильное приложение «Koryak tuyu». На стадии создания находятся локализованный сервис прогноза погоды, онлайн-словарь с аудиофайлами, анимационные проекты и графический роман, издание которого намечено на конец 2026 года.

Исследовательская работа сопровождается изучением нейролингвистических аспектов. Совместно с Центром языка и мозга Высшей школы экономики камчатские специалисты проводят аппаратный анализ артикуляции носителей корякского, алюторского и ительменского языков. Параллельно идет адаптация международного цифрового теста на оценку словарного запаса LexTALE. Собранная статистика ляжет в основу федеральных программ поддержки языков коренных малочисленных народов с учетом реального количества носителей и степени сохранности диалектов.

Угроза красных приливов: акватория Камчатки стремительно теплеет

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *