Skip to content

Latest commit

 

History

History
33 lines (22 loc) · 1.57 KB

medical-term-extraction.md

File metadata and controls

33 lines (22 loc) · 1.57 KB

F-measure

Unigrams are better

Unstructured Natural Language Text

Paper's object: medical term extraction

Conditional Random Fields (CRF) - разновидность метода Марковских Случайных Полей (Markov Random Field) [статья на хабре]

C-Value/NC-Value

Рассматривается medical term extraction как извлечение ключевых фраз или document summarization task, анализируя граф совместной встречаемости (co-occurence graph) с использованием алгоритма TextRank.

  • Sequence mining основывается на том, что слова в сложных медицинских текстах часто встречаются в порядке, за который отвечает (?) lexical level.
  • Для C-Value необходима фильтрация syntactical level по части речи для определения (?) фраз и их частот. TextRank уделяет много внимания графу, основанному на совместном отношении structural level.

Для объединения трёх ranking scores был разработан Genetic Algorithm (GA).

Related Work

Candidate Term Generation
  • Linguistic Filters
  • N-gram
Statistical analysis

Используется эмпирический порог для отсечки.

Measures:

  • frequency
  • t-score
  • log-likelihood
  • mutual information
  • Chi-squared