Нейросети научат интернет-пользователей подбирать слова

Нейросети научат интернет-пользователей подбирать слова

В Центре технологий искусственного интеллекта Сколково изобрели ParaDetox – нейросеть, которая займется детоксификацией высказываний в интернете. Алгоритм составляет до трех переформулировок высказывания в нейтральном стиле без потери первоначального смысла с корректной грамматической структурой. Для его разработки использовались глубокие предобученные нейросети архитектуры Трансформер — GPT-2, T5 и BART. Их применяют с целью  обработки последовательностей, таких как текст, чтобы произвести машинный перевод и автоматическое реферирование (краткое изложение). Это помогает созданию параллельных корпусов – способу представления переводного текста и его оригинала на иностранном языке с выравниванием по предложениям для проведения лингвистических исследований. На сегодняшний день разработку корпусов нельзя выполнить без участия человека, поэтому для создания датасета, определяющего токсичность текста, были привлечены живые пользователи. Им предлагалось перефразировать высказывания в тексте, а полученные варианты проверялись специалистами на предмет того, насколько иной вариант сохраняет смысловое содержание, а затем снова проверяли, не является ли перефраз токсичным. Эту процедуру повторяли несколько раз, чтобы в систему попали только идеальные примеры. В результате для русского языка было собрано около 8,5 тысяч уникальных предложений, для англоязычных пользователей – 12 тысяч перефраз. Источником токсичных текстов послужили посты из Одноклассников, Пикабу и Твиттера.

На сегодняшний день методы борьбы с негативными высказываниями заключаются в фильтрации запрещенных к употреблению слов. Например, во многих социальных сетях предусмотрена функция блокировки пользователей за использование нецензурных или враждебных выражений. Подобную цензуру можно избежать, подключив к работе нейросети. Новейшая модель не ограничивает действия пользователя, она лишь помогает человеку вернуть самообладание и контроль. Однако не всем высказываниям можно найти эквивалент. Разработчикам пришлось удалить из датасета предложения с расистским и националистическим содержанием, поскольку фразу «Люди нации Х — не очень хорошие» невозможно сделать социально приемлемой.

По мнению Александра Панченко, представителя Сколтеха, будущее заявленной технологии в кроссязычной и мультиязычной детоксификации. Именно над этим сейчас работают создатели ParaDetox. К тому же с помощью искусственного интеллекта можно упрощать канцеляризмы, переводить на доступный язык специальные термины, применимые в медицине или праве.

Автор: Николаева Юлия

Короткая ссылка на эту статью: https://cleverrussia.ru/EJFqB

Редакция журнала Умная Россия. Мы ищем материалы, которые будут для вас полезны. Если у вас есть предложения, просим высылать их на почту: news@cleverrussia.ru

Наверх