466 criteria pack for md test #471

MarinaProsche · 2023-10-30T08:45:59Z

В продолжение (копия) #465
Ветка для проверки работоспособности нового пакета

HadronCollider · 2024-02-20T13:40:43Z

Можно, пожалуйста, пример набора критериев для проверки? (в формате для https://slides-checker.moevm.info/criterion_pack)

MarinaProsche · 2024-02-20T14:16:09Z

@HadronCollider Дмитрий, уточните, пожалуйста, в таком формате:

[
[
"simple_check"
],
[
"banned_words_in_literature"
],
[
"page_counter"
],
[
"short_sections_check"
],
[
"banned_words_check"
],
[
"right_words_check"
],
[
"banned_words_in_literature"
],
[
"literature_references"
],
[
"image_references"
],
[
"table_references"
],
[
"first_pages_check"
],
[
"main_character_check"
],
[
"needed_headers_check"
],
[
"report_section_component"
],
[
"spelling_check"
]
]

HadronCollider

Из того, что не отмечено в комментариях к коду

если нет таблиц / рисунков / списка литературы - занулять результаты критерия точно не нужно (как минимум, в работах с MD их может не быть, а мы ставим студентам 0), аналогично с ВКР -- возможно, это недосмотр с административной стороны прошлого года, но все-таки кажется, что в случае отсутствия критерий тривиально пройден
стоит уменьшить (или контролировать) "размеры" выводимой структуры в критерии проверки наличия разделов - для md там, по-видимому, вставляются "сырые" названия в html-формате (с h1, h2, etc) - в итоге браузер текст интерпретирует как html и там большушие заголовки - такое нам не надо (но надо отслеживать какой заголовок какого уровня - возможно, с помощью отступов)

HadronCollider · 2024-03-09T23:37:02Z

app/main/checks/report_checks/banned_words_in_literature.py

@@ -83,6 +85,6 @@ def start_of_literature_chapter(self, ):
        start_index = 0
        for i in range(len(self.file.paragraphs)):
            text_string = self.file.paragraphs[i].to_string().lower().split('\n')[1]
-            if re.fullmatch(self.name_pattern, text_string):
+            if re.fullmatch(f'{self.name_pattern}|{self.md_name_pattern}', text_string):


А что будет, если загрузить не md-файл, простую ВКР в docx? это ведь общий критерий

Удалила ненужный паттерн для md

HadronCollider · 2024-03-09T23:38:42Z

app/main/checks/report_checks/literature_references.py

@@ -12,6 +12,7 @@ def __init__(self, file_info, min_ref=1, max_ref=1000):
        self.headers = []
        self.literature_header = []
        self.name_pattern = r'список[ \t]*(использованных|использованной|)[ \t]*(источников|литературы)'
+        self.md_name_pattern = r"<h2>(Список использованных источников|Список использованной литературы)<\/h2>"


Почему тут другой паттерн? https://github.com/moevm/mse_auto_checking_slides_vaganov/pull/471/files#diff-4a9d734369983549e0972bd59f7620e6ec4e30bed37af49ced2fcdc06ab558fbR16

Возможно, его (их / другие regexp) стоит вынести в класс файла (или uploader'а), чтобы использовать в нужных местах проверок и не теряться в их обилии

HadronCollider · 2024-03-09T23:39:50Z

app/main/checks/report_checks/literature_references.py

+            if isinstance(self.file.paragraphs[i], str):
+                detected_references = re.findall(r'\[[\d \-,]+\]', self.file.paragraphs[i])
+            else:    
+                detected_references = re.findall(r'\[[\d \-,]+\]', self.file.paragraphs[i].to_string().split('\n')[1])


А в app/main/checks/report_checks/image_references.py используется self.file.paragraphs[i].paragraph_text - в чем разница?

Исправила на "paragraph_text", работает корректно

HadronCollider · 2024-03-09T23:40:01Z

app/main/checks/report_checks/literature_references.py

@@ -86,16 +90,22 @@ def search_references(self, start_par):
                            for k in range(int(start), int(end) + 1):
                                array_of_references.add(k)
                        elif one_part != '':
-                            array_of_references.add(int(one_part))
+                            array_of_references.add(int(one_part))               


Пустые изменения

Исправила

HadronCollider · 2024-03-09T23:41:16Z

app/main/checks/report_checks/literature_references.py

-            if re.fullmatch(self.name_pattern, text_string):
-                start_index = i
-                break
+            if isinstance(self.file.paragraphs[i], str):


В app/main/checks/report_checks/banned_words_in_literature.py логики для name_pattern нет, а тут есть

Исправила, работает корректно

HadronCollider · 2024-03-09T23:50:19Z

app/main/reports/md_uploader/md_uploader.py

-    def get_headers(self):
-        header_regex = "<h1>(.*?)<\/h1>"
-        self.headers = re.findall(header_regex, self.html_text)
+    def page_counter(self):


Предлагаю совсем не считать (как минимум сейчас) количество страниц в md - это, кажется, несколько бессмысленным (+ замедляет проверку из-за построчного анализа страниц pdf версии)

Сейчас этот подсчет нужен для того, чтобы открывать в качестве ссылки страницу со списком литературы в проверке источников (обсуждали в переписке). Удалить?

Давайте пометим на будущее комментарием в коде, что/зачем происходит - чтобы не забыть

HadronCollider · 2024-03-09T23:50:59Z

app/main/reports/md_uploader/md_uploader.py

+        self.pdf_file = PdfDocumentManager(self.path_to_md_file, md2pdf(self.pdf_filepath, md_file_path=self.path_to_md_file))
+
+    def make_paragraphs(self, html_text):
+        html_text = html_text.replace("<li>", "").replace("</li>", "").replace("</ol>", "").replace("<ol>", "")


Не сделаем ли мы плохо, потеряв оформление списков?

Пока выглядит, как будто мы сделали хорошо, потому что в некоторых документах (не всех, что тоже придает хаоса) при парсинге тэги сохраняются в отдельные строки, а это как раз приводит к некорректным проверкам

HadronCollider · 2024-03-09T23:54:21Z

app/utils/check_file.py

+            if file.mimetype != 'text/markdown':
+                return "mime_type_does_not_match_extension"


С простым текстовым файлом (пусть и содержащим текст с markdown форматированием) у меня возникли проблемы - тип там "text/plain" и проверка не проходит

HadronCollider · 2024-03-09T23:55:39Z

app/utils/check_file.py

+                return "mime_type_does_not_match_extension"
+
+    return "ok"


Чтобы было проще обрабатывать результат этой функции пусть она возвращает None (или пустую строку), если тип допустимый - иначе проверки вида != / == "ok" сильно усложняют код и читаемость

Исправила

HadronCollider · 2024-03-09T23:59:04Z

app/main/checks/report_checks/table_references.py

+            if  isinstance(self.file.paragraphs[i], str):
+                detected_references = re.findall(r'таблиц[аеыу][\d .]+', self.file.paragraphs[i])
+            else:    
+                detected_references = re.findall(r'таблиц[аеыу][\d .]+', self.file.paragraphs[i].paragraph_text)


Аналогично про

А в `app/main/checks/report_checks/image_references.py` используется `self.file.paragraphs[i].paragraph_text` - в чем разница?

Оставила "paragraph_text"

MarinaProsche added 8 commits October 5, 2023 14:28

change parser

423c3bf

change mime_type = False

be66bf9

add if MIME-check

e20e27a

add new abstract method

595487c

problem with len(self.headers)

45c78d4

fix len()

dc92232

changed all checks for md

fc87018

full_test_of_md-file 1.0

7f666ce

MarinaProsche requested a review from zmm October 30, 2023 08:46

MarinaProsche added 2 commits November 8, 2023 13:20

fix conflicts

9510244

resolve conflicts

3c0ee06

github-actions bot added the has conflicts if new merge has conflicts label Nov 17, 2023

add gitflow

3ae0696

github-actions bot removed the has conflicts if new merge has conflicts label Nov 17, 2023

MarinaProsche added 3 commits March 5, 2024 13:36

chepter parser fixed

5c7074b

checks are ready

21a7fb2

pack for md is changed

568b6eb

github-actions bot added the has conflicts if new merge has conflicts label Mar 6, 2024

resolve conflict

0d408dd

HadronCollider requested changes Mar 10, 2024

View reviewed changes

MarinaProsche added 8 commits March 12, 2024 17:12

first part of improvment

0940f2a

fix size in show_chapters (md), mime and results for table/images

541cd03

button for all results is added

a87c53b

structure of base class is changed

c95b2b5

fix and change name

e0489c3

False-->True changed

371b283

example of headers_map

9aa2130

special parameters for MD

928bf03

little fixes for deploy

6245561

HadronCollider approved these changes Mar 13, 2024

View reviewed changes

Merge branch 'master' into 466_criteria_pack_for_md_test

905295d

github-actions bot removed the has conflicts if new merge has conflicts label Mar 13, 2024

HadronCollider merged commit 727e18c into master Mar 16, 2024
2 checks passed

HadronCollider mentioned this pull request Mar 16, 2024

465 class document uploader #470

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

466 criteria pack for md test #471

466 criteria pack for md test #471

MarinaProsche commented Oct 30, 2023

HadronCollider commented Feb 20, 2024

MarinaProsche commented Feb 20, 2024

HadronCollider left a comment

HadronCollider Mar 9, 2024

MarinaProsche Mar 12, 2024

HadronCollider Mar 9, 2024

HadronCollider Mar 9, 2024

MarinaProsche Mar 12, 2024

HadronCollider Mar 9, 2024

MarinaProsche Mar 12, 2024

HadronCollider Mar 9, 2024

MarinaProsche Mar 12, 2024

HadronCollider Mar 9, 2024

MarinaProsche Mar 11, 2024

HadronCollider Mar 13, 2024

HadronCollider Mar 9, 2024

MarinaProsche Mar 11, 2024

HadronCollider Mar 9, 2024

HadronCollider Mar 9, 2024

MarinaProsche Mar 11, 2024

HadronCollider Mar 9, 2024

MarinaProsche Mar 12, 2024

		if file.mimetype != 'text/markdown':
		return "mime_type_does_not_match_extension"

466 criteria pack for md test #471

466 criteria pack for md test #471

Conversation

MarinaProsche commented Oct 30, 2023

HadronCollider commented Feb 20, 2024

MarinaProsche commented Feb 20, 2024

HadronCollider left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment