Культура

Культура /

Создана огромная база данных для культурологических исследований

17 декабря 2010 года, 16:22 | Текст: Дмитрий Целиков | Послушать эту новость

Сколько слов английского языка ещё не попало в словари? Как изменилось понятие славы за последние 200 лет? Как сравнить влияние на массовую культуру учёных и актёров?

На эти и другие вопросы призван ответить новый онлайновый инструмент, разработанный американской корпорацией Google с помощью Гарвардского университета (США). Массивная поисковая база данных преподносится как ключ к новой эре научных исследований в области гуманитарных и социальных наук. Новую дисциплину предложено назвать культуромикой (culturomics).

База данных насчитывает более 5 млн художественных и научно-популярных книг, опубликованных между 1800 и 2000 годами. Это примерно 4% всех когда-либо напечатанных книг. Подавляющее большинство — около 72% — на английском языке с небольшими вкраплениями на французском, испанском, немецком, китайском, русском и иврите.

Гарвардцы Жан-Батист Мишель и Эрез Либерман Эйден разработали поисковый инструмент, который, по их мнению, даст исследователям возможность охватить количественными штудиями огромный спектр тенденций в истории культуры.

«Интерес к математическому подходу к гуманитарным и социальным наукам восходит к 1950-м годам, — напоминает г-н Мишель. — Но все попытки ввести количественные методы в изучение культуры затруднялись отсутствием соответствующей информации. Теперь у нас есть большой набор данных, доступных через интерфейс, который удобен для любого пользователя».

В ходе первоначального анализа базы данных учёные обнаружили, что каждый год в английском языке рождается около 8 500 новых слов. Во второй половине прошлого века лексикон вырос на 70%. Любопытно, что большинство этих слов не появляется в словарях. «По нашим оценкам, 52% английского лексикона состоит из лексической тёмной материи», — отмечают авторы работы.

Исследователи также смогли проследить, как менялись слова в английском языке. Например, в американском варианте существует тенденция образовывать прошедшее время от неправильных глаголов «правильным» образом. Судя по полученным данным, неправильные глаголы обречены и в Англии: каждый год количество носителей языка, сравнимое с населением Кембриджа, начинает употреблять форму burned вместо burnt.

Понятие славы в течение двух столетий тоже сильно изменилось. Сравнив частотность упоминания имён известных людей в литературе, учёные показали, что люди, родившиеся в середине XX века, обычно обретают статус «селебрити» раньше (в среднем в 29 лет) и становятся более известными, чем те, кто жил в предыдущем столетии (43 года в среднем). В то же время их быстрее и забывают.

Марк Твен — самый популярный англоязычный писатель двух последних веков. (1907 год; фото Mark Twain House & Museum.)
Марк Твен — самый популярный англоязычный писатель двух последних веков. (1907 год; фото Mark Twain House & Museum.)

Самым упоминаемым англоязычным писателем оказался Марк Твен, а президентом США — Теодор Рузвельт. Впрочем, исследователи просят не придавать большого значения итогам сравнения уровня известности исторических деятелей. «Ставить рядом президентов второй половины XX века и их предшественников — всё равно что сравнивать яблоки с апельсинами, — отмечают специалисты. — Первые ещё не достигли пика своей славы».

Что касается актёров, то в середине XX века они становились известными к тридцати годам. Писателям приходилось ждать до сорока, а политикам — до пятидесяти. Об учёных лучше и не говорить, чтобы лишний раз не расстраиваться. Физики и биологи в конце концов всё-таки могут достичь уровня славы актёров, а вот с математиками это происходит чрезвычайно редко. Если вам нужны конкретные имена, то вот: Фрейд упоминается в несколько раз чаще, чем Галилей, Дарвин или Эйнштейн.

База данных способна также пролить свет на историю цензуры в литературе отдельных стран. Еврейский художник Марк Шагал, например, упоминается только один раз во всей немецкой литературе с 1936 по 1944 год, хотя в англоязычных книгах того же периода частотность употребления этого имени выросла в пять раз. Очевидно существование цензуры в китайской литературе, когда дело доходит до площади Тяньаньмэнь, и в русских книгах в связи со Львом Троцким.

Методы анализа, применённые американскими учёными, не новы. Сенсацией следует считать размер базы данных.

Результаты исследования опубликованы в журнале Science.

Подготовлено по материалам Guardian.

Каждый день слушайте итоговый подкаст Свободного Радио «Компьюлента»!

Последние новости по теме "Культура":