Лингвист ЧелГУ Рауль Каримов выяснил, что развитие языка теоретически предсказуемо

10 января 2019 г.
Аспирант факультета лингвистики и перевода Челябинского государственного университета Рауль Каримов работает над применением методов машинного обучения к решению задачи обработки текста на среднеанглийском и старонорвежском языках для прогнозирования процесса развития языков. О промежуточных результатах исследования он просто и увлекательно рассказал в финале интеллектуального шоу-конкурса «Научные бои молодых учёных», где был признан победителем.
Лингвист ЧелГУ Рауль Каримов выяснил, что развитие языка теоретически предсказуемо

Аспирант факультета лингвистики и перевода Челябинского государственного университета Рауль Каримов работает над применением методов машинного обучения к решению задачи обработки текста на среднеанглийском и старонорвежском языках для прогнозирования процесса развития языков. О промежуточных результатах исследования он просто и увлекательно рассказал в финале интеллектуального шоу-конкурса «Научные бои молодых учёных», где был признан победителем.

​Рауль объяснил, что работу машинного обучения в лингвистике можно сравнить с процессом изучения языка человеком:

«Например, множественное число существительного образуется путём прибавления соответствующего окончания к исходной форме, – пояснил учёный. – Через какое-то время человек понимает, что у аналогичных по форме слов будет такое же окончание. В нашем исследовании то же самое: показываем машине большое количество примеров, чтобы она смогла составить определённые операции, которым мы её обучим, воспроизводить на других примерах».

В процессе исследования оказалось, что в какой-то степени процесс развития языка можно предсказать теоретически, однако для этого необходимо много данных. Их учёные взяли из корпуса – это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме с дополнительной информацией: части речи, род, падеж, число, а также метаданные, такие как автор, жанр, год написания и т. д.

«Мы уже испробовали несколько существующих методов ансамблирования простейших алгоритмов машинного обучения, и пока ни один из них не показал нам достаточно хороший результат, – рассказывает Рауль. – Сейчас мы разрабатываем собственный метод, который будет основан на алгоритме взвешенного голосования. Дело в том, что каждый метод машинного обучения хорошо проявляет себя в одном контексте, но хуже в другом. Например, метод опорных векторов хорошо различает именные части речи и глаголы, но существительные и прилагательные между собой различает плохо. Машинное обучение работает не со словами, а с векторами (как закодировать слово – отдельная проблема, которой мы тоже занимаемся). Для различения существительных и прилагательных мы должны использовать другую модель. Здесь хорошо себя проявляют скрытые марковские модели. Выбранный нами ансамбль определяет контекст и присваивает наиболее эффективному методу больший множитель. Эта система похожа на систему голосования на выборах, которую упразднили в Швеции в 1920-х годах, где грамотные политики имели больший численный вес своих голосов, чем другие избиратели».

Историей германских языков Рауль Каримов начал увлекаться с 2014 года, когда писал дипломную работу бакалавра. Идея сделать исследование междисциплинарным и включить тут машинное обучение пришла молодому учёному год назад. Сегодня проектом помимо Рауля занимается студент математического факультета ЧелГУ Андрей Акинин, а также оказывает помощь магистрант Киевского политехнического института имени Игоря Сикорского Дмитрий Якимец.

Подробнее об исследовании можно прочитать в февральском номере газеты «Университетская набережная».

Другие новости