diff --git a/tests/test_tokenize_uk.py b/tests/test_tokenize_uk.py index b23d03c..b108283 100644 --- a/tests/test_tokenize_uk.py +++ b/tests/test_tokenize_uk.py @@ -31,6 +31,17 @@ def test_word_tokenization(self): assert tokenize_words("Комп'ютер") == [ "Комп'ютер"] + # Test preservation of special characters such as €, × or ° + assert tokenize_words("Збільшення 0,6×") == [ + "Збільшення", "0,6", "×"] + + assert tokenize_words("за ставкою € 1.") == [ + "за", "ставкою", "€", "1", "."] + + assert tokenize_words("під час установки 25 °.") == [ + "під", "час", "установки", "25", "°", "."] + + def test_sent_tokenization(self): assert len(tokenize_sents("""Результати цих досліджень опубліковано в таких колективних працях, як «Статистичні параметри стилів», «Морфемна структура слова», «Структурна граматика української мови Проспект», «Частотний словник сучасної української художньої прози», «Закономірності структурної організації науково-реферативного тексту», «Морфологічний аналіз наукового тексту на ЕОМ», «Синтаксичний аналіз наукового тексту на ЕОМ», «Використання ЕОМ у лінгвістичних дослідженнях» та ін. за участю В.І.Перебийніс, diff --git a/tokenize_uk/tokenize_uk.py b/tokenize_uk/tokenize_uk.py index 3607cd8..c3a3fbc 100644 --- a/tokenize_uk/tokenize_uk.py +++ b/tokenize_uk/tokenize_uk.py @@ -19,7 +19,7 @@ |[+-]?[0-9](?:[0-9,.-]*[0-9])? |[\w""" + ACCENT + """](?:[\w'’`-""" + ACCENT + """]?[\w""" + ACCENT + """]+)* |[\w""" + ACCENT + """].(?:\[\w""" + ACCENT + """].)+[\w""" + ACCENT + """]? -|["#$%&*+,/:;<=>@^`~…\\(\\)⟨⟩{}\[\|\]‒–—―«»“”‘’'№] +|[^\s] |[.!?]+ |-+ """, re.X | re.U)