Программисты ЧелГУ научат компьютеры прогнозировать появление новых профессий
Программисты института информационных технологий Челябинского государственного университета разрабатывают интеллектуальную систему, позволяющую анализировать вакансии из открытых интернет-источников. Работа проводится для составления реальной картины рынка труда и прогнозирования изменений спроса на специалистов и отдельные навыки в будущем. Проект осуществляется совместно с Югорским НИИ информационных технологий (ЮНИИТ).
«В отличие от известных сервисов и решений, мы хотим обеспечить качественный мониторинг изменений требований российского рынка труда на уровне отдельных навыков, обязанностей, компетенций в быстро изменяющихся отраслях, в особенности по цифровым профессиям, – поясняет доцент кафедры информационных технологий и экономической информатики ИИТ ЧелГУ Дмитрий Ботов. – Мы собираем большие корпуса из сотен тысяч текстов вакансий из сервисов онлайн-рекрутмента (таких как headhunter, superjob, работа.ру и т.п.) за последние 15 лет, а параллельно обучаем нейросетевые модели языка пониманию смысла таких текстов. Основная сложность анализа заключается в том, что тексты вакансий достаточно короткие и не всегда четко структурированы».
Программисты ИИТ ЧелГУ поставили перед собой задачу – не просто провести количественный анализ встречаемости слов, а обеспечить понимание машиной семантики требований в различных вариациях их формулировок от тысяч компаний.
«Извлеченные требования и навыки проходят глубокий семантический анализ, кластеризацию по темам и подтемам – профессиям и специализациям, – говорит Дмитрий Ботов. – На основе анализа формируются портреты профессий с визуализацией, где отображается динамика изменения востребованности тех или иных компетенций для профессии, как группируются требования различных компаний к специалистам, какие специализации в рамках профессии появляются или исчезают».
Совместный проект, связанный с анализом развития рынка труда, развивается уже три года. Со стороны ИИТ ЧелГУ реализуются алгоритмы и модули семантического анализа и кластеризации, а в ЮНИИТ занимаются интерфейсами мониторинга и системой поддержки принятия решений на основе алгоритмов. Специалисты в области информационных технологий знают, что построить точный прогноз на глубину более одного года в условиях постоянных изменений на рынке труда очень непросто.
«Основная особенность, и в тоже время главная сложность проекта заключается в том, что мы пытаемся анализировать тексты на естественном русском языке, со всей его многогранность, гибкостью и многозначностью, – отмечает один из разработчиков проекта, старший преподаватель и аспирант ИИТ ЧелГУ Иван Николаев. – Простые модели, такие как частотный анализ или модели, основанные на правилах, к сожалению, не могут уловить все особенности богатого русского языка, и как следствие, демонстрируют невысокие результаты в большинстве классических задач обработки текстов на естественном языке (NLP). В последние несколько лет в области NLP происходит настоящая революция. Благодаря появлению нейросетевых моделей нового типа, многие из классических задач NLP получили качественно новые решения. Произошёл переход от анализа отдельных слов или словосочетаний на уровень целых предложений, появились модели способные учитывать контекст и семантику текста. Это открывает перед исследователями в этой области много новых возможностей. В нашем проекте мы используем самые последние наработки и модели обработки естественного языка».
В настоящее время основу проектной группы составляют: директор ЮНИИТ, профессор Андрей Мельников; доцент ИИТ ЧелГУ Дмитрий Ботов; аспиранты ИИТ ЧелГУ Иван Николаев и Иван Рязанов. В ближайшей перспективе команды разработчиков – создание более точных алгоритмов прогнозирования востребованности на рынке труда тех или иных профессий, а также – отдельных навыков и требований к профессиональному опыту.
Такой проект крайне полезен и востребован обществом. IT-система, обученная анализировать рынок труда, будет хорошим подспорьем для государственных структур, таких как министерство труда, минцифры, минобрнауки для принятия управленческих решений по подготовке специалистов. Программисты ЧелГУ и ЮНИИТ планируют завершить основную работу и представить прототип данных, прошедший апробацию, к концу 2023 года.