Ученые предлагают использовать для этого более разнообразные и близкие к обычным разговорам наборы данных для обучения. Эксперименты с различными языковыми моделями, такими как RoBERTa, ChatGPT и Flan-UL2, показали, что разнообразие данных существенно влияет на способность нейросетей отличать юмор от других форм контента.
Использовались как стандартизированные тесты на юмор, так и произведения Льюиса Кэрролла, Чарльза Диккенса, Джерома К. Джерома, несколько сериалов, а также ироничные сообщения из соцсетей.
Как выяснилось, проблемы с распознаванием юмора особенно характерны для алгоритмов, обученных на однообразных данных, в то время как модели, обученные на разнообразных наборах, успешнее справлялись с этой задачей.
Ученые приходят к выводу, что расширение разнообразия примеров юмора в данных обучения языковых нейросетей может существенно повысить их эффективность в распознавании человеческого юмора. Это также способно повысить качество работы голосовых помощников.
Ранее мы писали, что сибирские ученые создали нейросеть, которая помогает управлять инвестициями.