Ресурсы

Раздел будет пополняться в ходе курса

Библиотека курса

  1. Монография Цифровые гуманитарные исследования

Культуромика

  1. Jean-Baptiste Michel et al. Quantitative Analysis of Culture Using Millions of Digitized Books.
  2. Бонч-Осмоловская А.А. Культуромика в НКРЯ, к постановке задачи. Три века русских дорог
  3. Бонч-Осмоловская А.А. Имена времени: эпитеты десятилетий в НКРЯ как проекция культурной памяти

Стилеметрия

  1. Великанова Н.П., Орехов Б.В. Цифровая текстология: атрибуция текста на примере романа М.А. Шолохова Тихий Дон

  2. Алиева О.В. Pseudoplatonica. Блеск и нищета стилометрии

  3. Алиева О.В. Delta Берроуза для древнегреческих авторов: опыт применения

  4. Алиева О.В. Новая количественная модель Платоновского корпуса 1 : Pseudoplatonica: проблемы происхождения и датировки

Библиотеки Python

Библиотека Описание
regex Набор инструментов для работы с регулярными выражениями
pandas Библиотека для высокопроизводительной обработки и анализа структурированных данных
razdel Часть проекта Natasha, делит русскоязычный текст на токены и предложения
pymorphy3 Морфологический анализатор для русского языка
nltk Библиотека для обработки естественного языка (NLP)
scikit-learn Библиотека для классического машинного обучения, предоставляющая простые, эффективные инструменты для анализа данных, предварительной обработки, классификации, регрессии и кластеризации
requests Библиотека для отправки HTTP-запросов, обеспечивающая простое взаимодействие с веб-сервисами, получение данных (HTML, JSON) и работу с API
matplotlib Библиотека, предназначенная для визуализации данных, создания двумерной (2D) и трехмерной (3D) графики
wordcloud Библиотека для визуализации данных в виде облака слов

Где искать данные

Ресурс Описание
Kaggle Datasets Крупнейшая платформа открытых датасетов
Hugging Face Datasets Датасеты для NLP и ML
Europeana Платформа культурного наследия Европы (есть API)
HathiTrust Цифровая библиотека, корпуса оцифрованных книг
ГПИБ — Encyclopaedia Государственная публичная историческая библиотека России
Национальный корпус русского языка Корпуса текстов на русском языке