Skip to content
This repository has been archived by the owner on Nov 14, 2022. It is now read-only.
OgDInstant edited this page Feb 14, 2021 · 4 revisions

Popis fungování:

Parsovani textoveho souboru obsahu

Ziskame vety. Kazda veta ma 3 vlastnosti:

hloubka

        podle nazvu paragraphu (2.3.1)

        podle poctu tabulatoru

text

stranka (cislo na konci radku)

Provadime zakladni cisteni textu (np. odstranime sekvence tecek)

Gramaticka analyza vetu pomoci MorphoDiTa (http://lindat.mff.cuni.cz/services/morphodita/info.php)

Tim ziskame seznam slov a jejich funkce ve vete

Generovani moznych kandidatu:

Kazdy podstatne jmeno

Kazda sekvenze pridannych jmen a podstatneho jmena

Sekvence podstatneho jmena a slov ve druhem padu (genitiv)

Pro kazdy kandidat urcime typ (jmeno, vlastni jmeno, jmeno+genitivy ...)

Dalsi mozne kandidaty ziskame jednoduchym rozdelenim slov, bez gramatika (nekdy MorphoDiTa to nedela spravne)

Pro kazdy nalezeny vyraz provadime nasledujici:

        - Vypocitame pocet vyskytu v celem obsahu.

        - Hledame mozne nalezy v jiz existucijim slovniku klikovych slov (PSH, klcova slova, konspekt, nas rizene slovnik). Toto hledani neprovadime pro vyrazy na seznamu blacklist.

Jako zvlastni veta pouzivame titulek dokumentu. Ten ziskame pomoci dotazovani na XServer podle sysno

Vypocitame score pomoci konfiguraci. Hodnoty budou v pripade vystyku nasobeni. Konfiguracni soubor ma nasledujici parametry:

"matched": 2.0, // nasli jsme vyraz v slovnikach

"multiple": 3.0, // vyraz je vyceslovni (jsou zajimavejsi)

"hasProperNoun": 1.9, // ve vyrazu je podstatne jmeno

"isDictionaryWord": 2.0, // vyraz byl nalezen mimo gramatickeho zpracovani (jednoduche rozdeleni slov) a byl nalezen ve slovnikach

"extent": 0.1, // Rozsah stran. Body se pridavaji v hodnote rozsah_stran x found

"inTitle": 1.5, // vyraz je v titulku

"addExtentForTitle": false, // pokud ano, pro vyrazy z titulku pridame jeste parametr "extent" pro celkovy pocet stran dokumentu

"dictionaries": { // je li vyraz v konkretnim slovniku.

  "PSH": 3.0, 

  "keywords": 1.2,

  "konspekt": 4.0

},

"found": 0.2, // Pocet vyskytu vyrazu v celem obsahu. Body se pridavaji v hodnote pocet_nalezu_v_obsahu x found

Jsou urcite problemy pri gramaticke analyze vet:

  • Zkratky, acronymy

  • Zavorky

  • Vyrazu typu (Rovnice Rankineova - Hugoniotova)

Gramatika ceskeho jazyka. Neni to pripravene pro anglicky jazyk.

TOC v NTK

V NTK beží na: http://digi-workflow.ntkcz.cz:8082/ntk_toc/home

zároveň nastaveno zrcadlení na http://toc.ntkcz.cz/ntk_toc/home

Clone this wiki locally