В данном репозитории расположен код, который частично реализует автоматическую разметку метаинформации, текстовой части и некоторых именованных сущностей текстов Фундаментальной электронной библиотеки, ЭНИ "Чехов" из формата HTML в TEI. Преобразование текстов в формат TEI проводилось в рамках создания проекта Chekhov Digital - семантического издания текстов А. П. Чехова.
Для запуска необходимо:
- поместить в папку data/notes_html файлы с содержимым html-страницы примечаний, соответсвующие томам (каждый файл должен быть назван <номер тома>.html).
- поместить в папку data/texts_html папки с содержимым каждого тома (внутри которых находятся файлы с содержимым html-страниц текстов). Пример: data/texts_html/1/<название файла>.
Команда для запуска: python main.py
Метаинформация:
- Имя заполняющего
- Название произведения
- Информация об издании
- Объем произведения
- Номер тома
- Дата публикации
- Полное библиографическое описание
- Дата создания произведения
Текстовая часть:
- Нумерация страниц
- Заголовки и подзаголовки
- Изображения
- Подписи к изображениям
- Эпиграфы
- Обращения и подписи в письмах
- Примечания
Именованные сущности:
- Имена
- Даты
Для разметки именованных сущностей использована библиотека natasha.