Ученые и певцы долговечнее политиков. Анализ британских печатных медиа за 150 лет

Работа развивает область т.н. культуромики — метода гуманитарного исследования культурных тенденций с помощью количественного анализа оцифрованного текста. По сути, метод выступает альтернативой классическому подходу изучения исторических документов, обеспечивая ученых новыми средствами для выявления культурных тенденций в больших объемах текстовых данных. Культуромика как термин впервые была использована в статье «Количественный анализ культуры. Использование оцифрованных книг», соавторами которой являются исследователи Гарвардского университета Жан-Батист-Мишель и Эрез Либерман Эйден. Для своего новаторского исследования они использовали корпус Google Books: на его основе создан проект Google Ngram Viewer, который позволяет отслеживать динамику частоты употребления отдельных слов и словосочетаний c течением времени в литературе.

В новой работе ученые решили обратиться к периодическим изданиям: в основу исследования легли тексты английской периодики, вышедшей с 1800 по 1950 годы. Сбор, анализ и оцифровка газет и других периодических изданий осуществляется в рамках масштабного проекта британской библиотеки. Работа по оцифровке уже заняла около десяти лет, и сейчас в доступе по подписке лежат около двенадцати миллионов страниц 535 наименований газет, вышедших с 1800 до 1959 годы; всего британская библиотека хранит порядка 40 миллионов газетных страниц. Для своего исследования ученые отобрали 120 наименований газет (около 14 процентов оцифрованных текстов), представляющих всю географию Великобритании.

Тексты перевели в формат JSON и провели анализ частоты употребления слов и словосочетаний (n-грамм) длиной до трех слов. Исследование не ограничилось подсчетом частоты использования слов: ученые провели семантический анализ географических наименований, организаций и персоналий, которые в текстах могут быть представлены разными словосочетаниями.

Одной из первоначальных целей исследования стало сравнение результатов анализа книг корпуса Google Books и периодики. Как и ожидалось, периодика оказалась гораздо более точной в отражении исторических событий, таких как коронации, конклавы, эпидемии и войны — пики частоты использования соответствующих слов и словосочетаний точно указывают на даты и географию событий, в то время как литература дает более смазанную во времени картину.

Сравнение корпуса Google Docs (B, D) и периодики (A, C) – события гораздо точнее определяются по периодике (войны, коронации)

Сравнение корпуса Google Docs (F, H) и периодики (E, G) – события точнее определяются по периодике (конклавы, эпидемии)

Затем ученые рассмотрели измерения более общих и менее устоявшихся тенденций в следующих сферах: ценности и убеждения, политика, технологии, экономика, социальные изменения и популярная культура в Великобритании.

В отношении ценностей и убеждений авторы проверили гипотезу Фредерика Гиббса и Дэниела Коэна о постепенном снижении влияния викторианских ценностей. Оказалось, что такие понятия, как «мужество», «долг», «выносливость» действительно употребляются все реже с течением времени, за исключением всплесков во время военных действий. Зато такие понятия как «бережливость» и «терпение» не проявили тенденцию к снижению.

Тренд снижения викторианских ценностей согласно гипотезе Гиббса и Коэна

Ученые также исследовали вопрос национальной самоидентификации в Великобритании и выявили четкий тренд смены «английскости» (Englishness) на «британскость» (Britishness) в начале XX века. Особенно яркими всплесками термин «британский» отличается в время мировых войн, в то время как употребление слова «английский» снижается и оказывается даже ниже частоты использования слова «шотландский».

Britishness vs Englishness в английской периодике

Английская периодика четко отражает технологические и экономические прорывы и изменения: так, на границе XIX и XX веков пар сменяется на электричество, поезда заменяют конный транспорт, растет индустрия коммуникаций, а термин «политическая экономика» сменяется на просто «экономику», отражая выделение экономики в отдельный институт со своими правилами и ритмами, независимыми от законов политики.

Технологии и экономика: пар vs электричество, поезда и лошади, рост коммуникаций, снижение политической экономики

В общественной жизни исследования показывают периоды движения суфражисток, а также периоды социальных волнений, связанных с отделением колоний и анархического движения, совпавшего с ростом большевизма и фашизма в восточной и центральной Европе. В исследуемый период заметен большой гендерный разрыв — слова «он», «мужчина» гораздо более частотны по сравнению с «она» и «женщина» — интересно, что в современной периодике такого разрыва не наблюдается (пропорции сравнимы). Также отмечается рост популярной культуры: популярность политиков и общественных деятелей уступает популярности актеров и певцов.

Социальные изменения и популярная культура.

Тенденции популярности профессий в прессе

Семантический анализ текстов, связывающий имена и персоналии в периодике с данными Wikipedia и DBPedia, позволил выявить тренды популярности знаменитостей в зависимости от их профессий — в частности, выяснилось, что слава ученых более долговечна, чем у политиков, и снижается медленнее после смерти.

Исторические персоналии: исследование показывает, что политики и писатели чаще завоевывают популярность при жизни, в отличие от ученых и математиков, которые становятся широко известными после смерти (зато их слава более долговечна).

Ученые отмечают, что основная цель исследования состояла в демонстрации подхода к поиску исторических тенденций и изменений, который основан на анализе больших корпусов текстовых данных. Такой подход является дополнением к традиционному изучению исторических текстов. 
При таком подходе, историки могут исследовать сложные отношения между общественным дискурсом и жизненным опытом путем выявления тенденций в области статистических сигналов, извлеченных из крупномасштабных текстовых корпусов. Метод предназначен для использования в сочетании с традиционными подходами, которые необходимы как для проектирования исследования, так и для интерпретации результатов. Тем не менее, он предоставляет информацию, которую было бы очень трудно найти, используя только классическое изучение текстов.

Теги:

ТОБІ СПОДОБАЄТЬСЯ

Українські рекламісти додали свої плейлисти на Twenty Songs — платформу музичних вподобань рекламників світу

Українські рекламісти зробили свій внесок у платформу, на якій зібрані музичні плейлисти креативників з кращих рекламних агенцій світу. У проєкті ...

Життя собак тоді і зараз: якби собаки могли мандрувати в минуле, вони б цього не робили

Бренд CESAR запустив кампанію, підкреслюючи, наскільки комфортним є життя собак зараз, порівняно з тим, яким воно було у минулі століття.

Реалізм, гумор і гострі теми: батьки та діти в креативних кампаніях

Ці шість робіт з архівів «Каннських Левів» показують, якими постають справжні батьки та діти в креативних кампаніях. Навіть якщо ті діточки чотирилапі.

X-RAY Marketing Awards: стартувало голосування за номінантів

X-RAY Marketing Awards. Огляд номінації «Соціальний проєкт року»

Розпочалось голосування за найкращі проєкти креативних індустрій у межах щорічної премії X-RAY Marketing Awards від онлайн-медіа MMR та бізнес/медіа бюро ...

X-RAY Marketing Awards: стартувало голосування за номінантів

X-RAY Marketing Awards: стартувало голосування за номінантів

Розпочалось голосування за найкращі проєкти креативних індустрій у межах щорічної премії X-RAY Marketing Awards від онлайн-медіа MMR та бізнес/медіа бюро ...

Banda розробила новий брендинг Зони відчуження Чорнобильської АЕС

Креативна агенція banda розробила новий брендинг Зони відчуження Чорнобильської АЕС, щоб привернути увагу до зникнення місць пам’яті. Мало хто знає, ...