25 мая в рамках семинаров ЦИАНО с докладом «Копипаст и другие болезни: лингвистические инструменты диагностики» выступил Михаил Копотев – адьюнкт-профессор, старших преподаватель Университета Хельсинки, а также участник вольного сетевого сообщества «Диссернет».

Доклад был посвящен возможности обнаружения плагиата с помощью машинного анализа текстовых данных. Основная сложность состоит в том, что плагиат бывает разным: начиная банальным копированием кусков текста, и заканчивая глубокой переработкой текста или его переводом с другого языка. И если обыкновенное копирование распознать довольно легко (на этом основываются, например, алгоритмы программы «Антиплагиат»), то для идентификации парафраза необходимо использовать внешние словари, а в случае переводного плагиата и глубокой переработки текста невозможно обойтись без машинного обучения с использованием методов дистрибутивной семантики. Об использовании всех этих методов Михаил Копотев рассказал участникам семинара.

Также Михаил представил сервис, который может быть полезен всем исследователям науки и образования – «Сравнение диссертаций и поиск плагиата». Он предназначен для поиска парафраза в русских, английских и украинских текстах. Пока сервис умеет работать только с теми текстами, которые пользователь загружает сам ввиду отсутствия единой базы научных текстов. Как работает сервис можно посмотреть на примере академических связей некоторых украинских ученых.

Презентация доступна по ссылке.