Сколько слов английского языка ещё не попало в словари? Как изменилось понятие славы за последние 200 лет? Как сравнить влияние на массовую культуру учёных и актёров?
На эти и другие вопросы призван ответить новый , разработанный американской корпорацией с помощью (США). Массивная поисковая база данных преподносится как ключ к новой эре научных исследований в области гуманитарных и социальных наук. Новую дисциплину предложено назвать (culturomics).
База данных насчитывает более 5 млн художественных и научно-популярных книг, опубликованных между 1800 и 2000 годами. Это примерно 4% всех когда-либо напечатанных книг. Подавляющее большинство — около 72% — на английском языке с небольшими вкраплениями на французском, испанском, немецком, китайском, русском и иврите.
Гарвардцы Жан-Батист Мишель и Эрез Либерман Эйден разработали поисковый инструмент, который, по их мнению, даст исследователям возможность охватить количественными штудиями огромный спектр тенденций в истории культуры.
«Интерес к математическому подходу к гуманитарным и социальным наукам восходит к 1950-м годам, — напоминает г-н Мишель. — Но все попытки ввести количественные методы в изучение культуры затруднялись отсутствием соответствующей информации. Теперь у нас есть большой набор данных, доступных через интерфейс, который удобен для любого пользователя».
В ходе первоначального анализа базы данных учёные обнаружили, что каждый год в английском языке рождается около 8 500 новых слов. Во второй половине прошлого века лексикон вырос на 70%. Любопытно, что большинство этих слов не появляется в словарях. «По нашим оценкам, 52% английского лексикона состоит из лексической тёмной материи», — отмечают авторы работы.
Исследователи также смогли проследить, как менялись слова в английском языке. Например, в американском варианте существует тенденция образовывать прошедшее время от неправильных глаголов «правильным» образом. Судя по полученным данным, неправильные глаголы обречены и в Англии: каждый год количество носителей языка, сравнимое с населением Кембриджа, начинает употреблять форму burned вместо burnt.
Понятие славы в течение двух столетий тоже сильно изменилось. Сравнив частотность упоминания имён известных людей в литературе, учёные показали, что люди, родившиеся в середине XX века, обычно обретают статус «селебрити» раньше (в среднем в 29 лет) и становятся более известными, чем те, кто жил в предыдущем столетии (43 года в среднем). В то же время их быстрее и забывают.
Марк Твен — самый популярный англоязычный писатель двух последних веков. (1907 год; фото Mark Twain House & Museum.)
Самым упоминаемым англоязычным писателем оказался , а президентом США — . Впрочем, исследователи просят не придавать большого значения итогам сравнения уровня известности исторических деятелей. «Ставить рядом президентов второй половины XX века и их предшественников — всё равно что сравнивать яблоки с апельсинами, — отмечают специалисты. — Первые ещё не достигли пика своей славы».
Что касается актёров, то в середине XX века они становились известными к тридцати годам. Писателям приходилось ждать до сорока, а политикам — до пятидесяти. Об учёных лучше и не говорить, чтобы лишний раз не расстраиваться. Физики и биологи в конце концов всё-таки могут достичь уровня славы актёров, а вот с математиками это происходит чрезвычайно редко. Если вам нужны конкретные имена, то вот: упоминается в несколько раз чаще, чем , или .
База данных способна также пролить свет на историю цензуры в литературе отдельных стран. Еврейский художник , например, упоминается только один раз во всей немецкой литературе с 1936 по 1944 год, хотя в англоязычных книгах того же периода частотность употребления этого имени выросла в пять раз. Очевидно существование цензуры в китайской литературе, когда дело доходит до , и в русских книгах в связи со .
Методы анализа, применённые американскими учёными, не новы. Сенсацией следует считать размер базы данных.