Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

477 pack for nir 2 #479

Open
wants to merge 39 commits into
base: master
Choose a base branch
from
Open

477 pack for nir 2 #479

wants to merge 39 commits into from

Conversation

MarinaProsche
Copy link
Collaborator

@MarinaProsche MarinaProsche commented Nov 29, 2023

Составлен пак критериев и изменен текущий код в соответствии с заданием.
#477

Пояснения к некоторым введенным проверкам:

  1. При выборе стиля руководствовалась стилем для ВКР. Нужны уточнения по форматам заголовков и пр. (например сейчас, для подразделов выбран "heading 3"), для более точного соблюдения критериев.

3 Доля изображений и таблиц в объеме:
На данный момент доля изображений ищется во всем документе (с приложением). В ветке "449_fix_value_images_report" предложен вариант поиска в основной части документа, его можно будет ввести, если он корректен
Также, введена проверка "доля таблиц", которая исключает из поиска ПРИЛОЖЕНИЕ и первую страницу (алгоритм схож с тем, что в 449)

@MarinaProsche
Copy link
Collaborator Author

MarinaProsche commented Dec 5, 2023

Изменена логика, переопределены методы вместо добавления нового типа отцета (NIR2)
Файл для тестов в общем чате проекта.
Необходимо проверить PR #454 и "вмержить" изменения в данный, поскольку сейчас проверка изображений сохранена как в "master", и она не совсем корректна.
На данный момент параметры некоторых проверок (из BaseReportCriterionPack):
"image_share_check": limit=0.3
"table_share_check": limit=0.3
"banned_words_in_literature": 'wikipedia'
"page_counter": min_number=50, max_number=None
"short_sections_check": min_section_count=5, min_section_len=20
"right_words_check": patterns=["цель"]
'main_character_check': main_character_name_right="А.А. Лисс", main_character_name_wrong="К.В. Кринкин",
main_character_job_right="И.о. зав. кафедрой", main_character_job_wrong="Зав. кафедрой"
"main_text_check": main_text_styles=["body text", "листинг", "вкр_подпись для рисунков", "вкр_подпись таблицы"],
main_text_styles_names=["Основной текст;ВКР_Основной текст", "ВКР_Подпись таблицы",
"ВКР_Подпись для рисунков, схем", "ВКР_Содержимое таблицы"]
"report_template_name": self.allowed_name = '1111_Иванов_ИИ_ВКР'

Набор критериев для пакета проверки NIR2:

[
[
"simple_check"
],
[
"banned_words_in_literature"
],
[
"page_counter"
],
[
"image_share_check"
],
[
"headers_at_page_top_check"
],
[
"lr_sections_check"
],
[
"style_check"
],
[
"short_sections_check"
],
[
"banned_words_check",
{
"headers_map": "wikipedia"
}
],
[
"right_words_check"
],
[
"banned_words_in_literature",
{
"headers_map": "список литературы"
}
],
[
"literature_references",
{
"headers_map": "список литературы"
}
],
[
"image_references"
],
[
"table_references"
],
[
"first_pages_check"
],
[
"main_character_check"
],
[
"needed_headers_check",
{
"headers_map": "NIR_HEADERS"
}
],
[
"header_check"
],
[
"report_section_component"
],
[
"main_text_check"
],
[
"report_template_name",
{
"headers_map": "NIR2"
}
],
[
"table_share_check"
],
[
"spelling_check"
]
]

requirements.txt Outdated
@@ -28,3 +28,6 @@ pytest~=7.1.2
filetype==1.2.0
language-tool-python==2.7.1
markdown==3.4.4
md2pdf
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

нужна конкретная версия

@@ -39,7 +39,9 @@
["header_check"],
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Нужно где-то указать конкретный json для пачки критериев, который мы потом добавим через веб-интерфейс. Пусть будут пока примерные значения параметров (там, где не понятно, что писать)

@@ -39,7 +39,9 @@
["header_check"],
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Если в данном PR были подмержены другие PR - укажите их ссылки в описании (чтобы понимать, что их нужно проверить в первую очередь)

@github-actions github-actions bot added the has conflicts if new merge has conflicts label Feb 19, 2024
@github-actions github-actions bot removed the has conflicts if new merge has conflicts label Apr 24, 2024
@github-actions github-actions bot added the has conflicts if new merge has conflicts label May 20, 2024
@github-actions github-actions bot removed the has conflicts if new merge has conflicts label Sep 29, 2024
@MarinaProsche
Copy link
Collaborator Author

Пакет реанимирован и исправлен.
Проблема с fitz решена: оказывается, после переноса requirements в базовый образ в нем осталась неверная версия. В Dockerfile добавлена команда обновления пакета PyMuPDF (временное решение?)
Подсчет страниц без приложения тоже работает корректно.
Вмержены все последние изменения из мастера, включая изменения в структуре style_check_setting.py
ВАЖНО:
Также вылез баг в literature_references.py, который образовался при изменении структуры: сейчас в master отсутствовует поиск заголовка списка литературы (self.literature_header), из-за чего проверка вовсе не проводилась.

Полный набор кретериев с headers_map (необходимо убрать ненужные):
[
[
"simple_check"
],
[
"banned_words_in_literature",
{
"headers_map": "NIR_HEADERS"
}
],
[
"page_counter"
],
[
"image_share_check"
],
[
"headers_at_page_top_check",
{
"headers": [
"Приложение А Исходный код программы"
]
}
],
[
"headers_at_page_top_check"
],
[
"lr_sections_check"
],
[
"style_check"
],
[
"short_sections_check"
],
[
"banned_words_check",
{
"headers_map": "NIR_HEADERS"
}
],
[
"right_words_check"
],
[
"literature_references",
{
"headers_map": "NIR_HEADERS"
}
],
[
"image_references"
],
[
"table_references"
],
[
"first_pages_check"
],
[
"main_character_check"
],
[
"needed_headers_check",
{
"headers_map": "NIR_HEADERS"
}
],
[
"header_check"
],
[
"report_section_component"
],
[
"main_text_check"
],
[
"spelling_check"
],
[
"max_abstract_size_check"
],
[
"theme_in_report_check"
],
[
"table_share_check"
],
[
"key_words_report_check"
],
[
"empty_task_page_check"
],
[
"template_name",
{
"headers_map": "NIR_HEADERS"
}
]
]

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants