-ѕоиск по дневнику

ѕоиск сообщений в akry

 -ѕодписка по e-mail

 

 -—татистика

—татистика LiveInternet.ru: показано количество хитов и посетителей
—оздан: 21.08.2007
«аписей:
 омментариев:
Ќаписано: 40049

Ёнграммы

ѕонедельник, 20 ƒекабр€ 2010 г. 17:22 + в цитатник

¬ субботу, когда € прочитал про √угл.“ушку, полез смотреть на Google.Labs, что ещЄ у них есть интересного. » не пожалел, хот€ и не выспалс€.

ќдна из главных вещей, подвесивших мен€ на много часов, это Books Ngram Viewer. √ениальна€ штука, позвол€юща€ смотреть частоту упоминани€ того или иного слова Ч но не в интернетах, как это делает яндекс.Wordstat или яндекс.ѕульс, а по книгам. ѕериод исследовани€ Ч с 1800 по 2008 год, что само по себе уже вдохновл€ет. ƒобавим возможность искать отдельно по русско€зычной литературе, британской, американской, немецкой и станет пон€тно, что это суперский инструмент дл€ исследований. »сторикам он поможет провер€ть гипотезы, неисторичным люд€м вроде мен€ Ч просто доставит удовольствие.

  недостаткам в насто€щее врем€ можно отнести

  1. отсутствие морфологии при поиске (Ђкатастрофаї и Ђкатастрофыї Ч два разных слова),
  2. невозможность отключить различение заглавных и строчных букв (Ђ∆изньї и Ђжизньї),
  3. отсутствие пр€мого сравнени€ между статистическими данными на разных €зыках (интересно было бы увидеть, как коррелирует британский Ђкризисї с Ђкризисомї в —Ўј),
  4. много ошибок распознавани€ при сканировании,
  5. невозможность задать коэффициент нормализации дл€ каждого слова, чтобы увидеть именно совпадение трендов, а не частоту.

ќднако авторы сделали исходные данные доступными дл€ скачивани€ и самосто€тельной обработки. “ак что если кому-то горит, он может исправить вышеперечисленные недостатки самосто€тельно.

–азумеетс€, п1 не столь серьЄзен и может быть легко компенсирован заданием сразу нескольких вариантов слова, чтобы убедитьс€, что между ними есть коррел€ци€:

ƒелюсь кое-чем интересненьким, из того, что нашЄл.

1. ƒинамика внимани€ к Ћенину и —талину:

ќбратите внимание на спад количества упоминаний —талина, начавшийс€ в 51-52 годах. Ќапоминаю, что —талин умер в 1953 году. “о есть спад началс€ до его смерти. “акже посмотрите на пик упоминаний Ћенина в 1941 году, одновременно со сталинским провалом. я не знаю причин, но выгл€дит очень любопытно.

2. Ђ’олодное лето 1953-гої. †Ђ¬оровствої и Ђубийствої в период с 1940 по 1960 годы.

¬ 1953 году нет пика ни по Ђворовствуї, ни по Ђубийствуї. „то вполне может объ€сн€тьс€ цензурными причинами. «ато пик Ђворовстваї есть в 1947 году (почему?) и Ђубийстваї в 1954 году.


3. Ђћолитьс€, поститьс€!ї Ч Ђрелиги€ї и Ђголодї

„то косвенно подтверждает это исследование.


4. ЂЌесправедливостьї

ѕросто дл€ калибровки системы. ѕики в 1905 и 1920 году вполне пон€тны. Ќебольшой пик в 1928 и горка, в 1953 любопытны. Ќу и рост Ђнесправедливостиї в 1990-х тоже вполне объ€сним.  стати, обратите внимание, что рост продолжаетс€ и сейчас.


5. ЂLet kill 'em in WCї©.

» мы знаем, кому слово Ђсортирї об€зано такой попул€рностью в последние годы. Ќу, хоть так в историю вошЄл. »ли влип.  стати, посмотрите и Ђмочить в сортиреї Ч там график совсем очевидный.


6. ЂЎизофрени€ї у нас и за рубежом.

Ёто –осси€/———–:

Ёто Ѕритани€:

—Ўј:

ј это √ермани€:

Ўизофрени€ имхо любопытна тем, что упоминание о ней обычно (насколько € знаю) не цензурируетс€. ¬ то же врем€, чем гаже обстановка в стране, тем больше шизофреников (психиатры, поправьте, если € здесь ошибс€). ѕоэтому графики в принципе показывают реальный уровень напр€женности и фрустрированности в обществе. †–азумеетс€ с поправкой на научные публикации и политзаказы. Ќапример, при Ѕрежневе в ———– была попул€рна Ђкарательна€ психиатри€ї, когда диссидентов упекали в дурку. ¬ том числе и с диагнозом Ђшизофрени€ї.††¬озможно этим объ€сн€етс€ пик в 70-х. ј может быть, причина Ч разочарование †в Ђоттепелиї.

¬ –оссии любопытен пик в середине 30-х. ¬озможно он св€зан со всем нам известными событи€ми. ј в √ермании больше SCH стало как раз к 1945 году. ¬еро€тно народ начал приходить в себ€ после угара нацизма и как-то болезненно осознал, что скоро им хана. —Ўј в 65-73 году вели войну во ¬ьетнаме, оттуда возвращались –ембо, а встречали их пацифисты. ѕосмотрите на пик в эти годы.

7. ЂЅоишьс€ ли ты конца, —вета?  онец, —вета, близок!ї

ƒа, 17 год не дл€ всех был счастливым. » с 70-х ощущение неминуемого трындеца стабильно нарастало. Ќо почему такой пик в конце 40-х?

Ћюбопытно, что в англо€зычной литературе ожидани€ конца света (Ђend of the worldї) неизменно снижаютс€. UPD. ЂDoomsdayї выравнивает график.

 ак пример, —Ўј:

Ѕолее-менее равномерные ожидани€ конца света только в англо€зычной художественной литературе (English Fiction corpus).

8. Ќефть, газ, уголь. Oil, gas, coal.

ќтносительна€ роль угл€ стабильно снижаетс€ в ———– с 60-х. » кризисы уголь не подбрасывают.

ј вот в Ѕуржуинии этот спад началс€ раньше. —Ўј:

9. ћлеко, €йки, брот!

Ќу и напоследок, загадка почище улыбки ћоны Ћизы. ќткуда такое параной€льное внимание к €йцам в середине 1930-х? UPD. ¬иноват ‘аберже.

“акже любопытно посмотреть следующие слова:

  • катастрофа
  • war, peace
  • революци€
  • уехать
  • фашизм
  • любовь, дружба
  • заговор
  • купить, продать
  • предатели
  • нефтедоллары
  • астрологи€, astrology
  • говно
  • убили
  • холодна€ война
  • педофили€ Ч рост после 90-х, веро€тнее всего просто стали писать
  • физик, лирик
  • ѕушкин, “олстой, ƒостоевский

ƒл€ более детального исследовани€ можно как скачать исходные данные, так и посмотреть литературу за выбранный период пр€мо онлайн, по ссылкам под графиком.

’орошего вам развлечени€!

ѕроцитировать пост: ѕроцитировать в LiveJournal!ѕроцитировать в FaceBook!ѕроцитировать в Twitter!–Ф–Њ–±–∞–≤–Є—В—М –±–ї–Њ–≥ –≤ GoogleReader!
–убрики:  »нтересное
ћетки:  

ѕроцитировано 2 раз



XYZ   обратитьс€ по имени ѕонедельник, 20 ƒекабр€ 2010 г. 18:01 (ссылка)
>ќбратите внимание на спад количества упоминаний —талина, начавшийс€ в 51-52 годах. Ќапоминаю, что —талин умер в 1953 году. “о есть спад началс€ до его смерти.
вполне пон€тно. книги подготовленные в печать в 51-52 году пошли бы в печать в 53, а там их уже и сн€ли с печати.
ќтветить — цитатой ¬ цитатник
ѕерейти к дневнику

ѕонедельник, 20 ƒекабр€ 2010 г. 18:54ссылка
–азве в то врем€ цикл подготовки книг был аж два года?
XYZ   обратитьс€ по имени ѕонедельник, 20 ƒекабр€ 2010 г. 19:11 (ссылка)
ну не меньше полугода полюбому. год на утверждение - обычное дело.
http://yandex.ru/yandsearch?text=%D0%A1%D0%B4%D0%B...D1%82%D0%B8%2C+1950&lr=213
а ещЄ надо напечатать, переплести, доставить....
думаю дело именно в этом.
ќтветить — цитатой ¬ цитатник
ѕерейти к дневнику

ѕонедельник, 20 ƒекабр€ 2010 г. 20:27ссылка
ѕохоже, что ты прав. я ещЄ поспрашивал, подтверждаетс€. ¬несу сейчас исправление в текст.
ѕерейти к дневнику

ѕонедельник, 20 ƒекабр€ 2010 г. 21:06ссылка
UPD. „то-то € оп€ть засомневалс€. ¬ книге годом выпуска став€т ведь не год начала работы над книгой, а когда она печатаетс€? Ќо тогда спад был бы после смерти —талина, а то, что произошло до Ч уже выпущено.
ѕерейти к дневнику

ѕонедельник, 20 ƒекабр€ 2010 г. 23:20ссылка
XYZ
передо мной книга.
год выпуска 1978
isbn ... 77
сдана в набор 21.09.77
подписана к печати 15.4.78
такие дела...
ѕерейти к дневнику

¬торник, 21 ƒекабр€ 2010 г. 12:30ссылка
Ќу да. ћы сейчас большую книжку делаем, уже почти год. ѕохоже на true.
—амый главный вопрос: они по Ђсдано в наборї или по Ђгод выпускаї мер€ют? ѕотому что если по году выпуска, то получаетс€ така€ штука:
1. автор собирал материал и писал свой опус N лет, непредсказуемо сколько.
2. написав, он (после переговоров с издательством) сдал авторские листы в набор Ч в 1951 году.
3. понабирав и повычитывав, они подписали книгу к печати и она ушла в типографию (не факт, что сразу) Ч в 1952 году.

ј вот если бы автор попыталс€ сунутьс€ в издательство после 53 года, причЄм, после ’рущЄвского Ђќ культе личностиї Ч когда он там был, в мае 53-го? Ч то получил бы отлуп. » веро€тно подписание к печати бы тоже засуспендилось после доклада. ѕоэтому должны были бы быть книги с датами подписи в печать до 53 года (когда бы их ни сдали в набор), а дальше провал.

—талин умер в марте, но сомнительно, что издательства сразу начали придерживать книги о нЄм. —корее наоборот, до доклада ’рущЄва, они печатали их массово, потому что информационный повод.
ƒелитант   обратитьс€ по имени ѕонедельник, 20 ƒекабр€ 2010 г. 20:33 (ссылка)
ќчень интересный сервис!
ќтветить — цитатой ¬ цитатник
Inita   обратитьс€ по имени ѕонедельник, 20 ƒекабр€ 2010 г. 23:54 (ссылка)
≈сли задать конец света как doomsday, график более пон€тен (что-то ночью не разобралась, как тут ночью картинки попроще вставить ))

— любовью грустно... а вот по "религиозным" вопросам все неоднозначно
ќтветить — цитатой ¬ цитатник
ѕерейти к дневнику

¬торник, 21 ƒекабр€ 2010 г. 12:33ссылка
≈сли более вдумчиво исследовать, надо смотреть литературу по каждому пику, чтобы пон€ть, о чЄм речь. Ќапример, до революции было много ЂЅогї, после стало много Ђбогї. ¬полне веро€тно, что речь не о религиозности, а об антирелигиозной литературе.

я то так, не провер€л особо. Ќакидал навскидку вс€кого дл€ возбуждени€ аппетита :)
ѕерейти к дневнику

¬торник, 21 ƒекабр€ 2010 г. 21:22ссылка
ƒа, € это учитывала, писала и с заглавной, и со строчной. » разные слова брала
Inita   обратитьс€ по имени ¬торник, 21 ƒекабр€ 2010 г. 21:25 (ссылка)
гы... вот еще забавное пересечение :) http://ngrams.googlelabs.com/graph?content=%D0%B4%...&corpus=12&smoothing=3
ќтветить — цитатой ¬ цитатник
 омментировать   дневнику —траницы: [1] [Ќовые]
 

ƒобавить комментарий:
“екст комментари€: смайлики

ѕроверка орфографии: (найти ошибки)

ѕрикрепить картинку:

 ѕереводить URL в ссылку
 ѕодписатьс€ на комментарии
 ѕодписать картинку