1) кандидат филологических наук, доцент департамента филологии, Национальный исследовательский университет «Высшая Школа Экономики», Россия, Санкт-Петербург, tsherstinova@hse.ru 2) магистрант, Санкт-Петербургский государственный университет, Россия, Санкт-Петербург, daveprintseva@edu.hse.ru
В статье рассматриваются три разных подхода к изучению тематики повседневных разговоров: экспертная тематическая разметка и два автоматических метода (тематическое моделирование и кластеризация). Материалом для исследования послужили расшифровки русской устной повседневной речи из корпуса ОРД, подготовленные на основе звукозаписей спонтанных разговоров, выполненных в естественных коммуникативных ситуациях (дома, на работе, в учебном заведении, в магазине, в поликлинике и т.д.). Представлены результаты трех экспериментов, базирующихся на разных методах выявления тематических групп: 1) экспертное тематическое аннотирование транскриптов, дающее подробную картину тематики повседневного общения в динамике, 2) автоматическое тематическое моделирование, позволяющее выявить латентные темы в корпусе расшифровок, и 3) кластеризация, использованная для группировки разговоров по тематике на основе их лексического сходства. Получены статистические данные о распределении тем в повседневной речи на основе пилотной экспертной разметки, автоматически выявлены тематические классы для различных типов коммуникации, таких как общение с коллегами, членами семьи, друзьями и в процессе обучения. Проведенное исследование позволяет оценить эффективность использования автоматизированных методов в сравнении с экспертной разметкой для политематического корпуса неподготовленной повседневной речи.
русская повседневная речь; тематика повседневных разговоров; корпусная лингвистика; экспертная разметка; тематическое моделирование; кластеризация.
Скачать текст статьиДля цитирования: Шерстинова Т.Ю., Вепринцева Д.А. Анализ тематики повседневных разговоров: экспертный подход и автоматические методы // Человек: Образ и сущность. Гуманитарные аспекты. Москва. ИНИОН РАН, 2025. № 2 (62). С. 89-108. DOI: 10.31249/chel/2025.02.05