-
Notifications
You must be signed in to change notification settings - Fork 0
Home
Parsovani textoveho souboru obsahu
Ziskame vety. Kazda veta ma 3 vlastnosti:
hloubka
podle nazvu paragraphu (2.3.1)
podle poctu tabulatoru
text
stranka (cislo na konci radku)
Provadime zakladni cisteni textu (np. odstranime sekvence tecek)
Gramaticka analyza vetu pomoci MorphoDiTa (http://lindat.mff.cuni.cz/services/morphodita/info.php)
Tim ziskame seznam slov a jejich funkce ve vete
Generovani moznych kandidatu:
Kazdy podstatne jmeno
Kazda sekvenze pridannych jmen a podstatneho jmena
Sekvence podstatneho jmena a slov ve druhem padu (genitiv)
Pro kazdy kandidat urcime typ (jmeno, vlastni jmeno, jmeno+genitivy ...)
Dalsi mozne kandidaty ziskame jednoduchym rozdelenim slov, bez gramatika (nekdy MorphoDiTa to nedela spravne)
Pro kazdy nalezeny vyraz provadime nasledujici:
- Vypocitame pocet vyskytu v celem obsahu.
- Hledame mozne nalezy v jiz existucijim slovniku klikovych slov (PSH, klcova slova, konspekt, nas rizene slovnik). Toto hledani neprovadime pro vyrazy na seznamu blacklist.
Jako zvlastni veta pouzivame titulek dokumentu. Ten ziskame pomoci dotazovani na XServer podle sysno
Vypocitame score pomoci konfiguraci. Hodnoty budou v pripade vystyku nasobeni. Konfiguracni soubor ma nasledujici parametry:
"matched": 2.0, // nasli jsme vyraz v slovnikach
"multiple": 3.0, // vyraz je vyceslovni (jsou zajimavejsi)
"hasProperNoun": 1.9, // ve vyrazu je podstatne jmeno
"isDictionaryWord": 2.0, // vyraz byl nalezen mimo gramatickeho zpracovani (jednoduche rozdeleni slov) a byl nalezen ve slovnikach
"extent": 0.1, // Rozsah stran. Body se pridavaji v hodnote rozsah_stran x found
"inTitle": 1.5, // vyraz je v titulku
"addExtentForTitle": false, // pokud ano, pro vyrazy z titulku pridame jeste parametr "extent" pro celkovy pocet stran dokumentu
"dictionaries": { // je li vyraz v konkretnim slovniku.
"PSH": 3.0,
"keywords": 1.2,
"konspekt": 4.0
},
"found": 0.2, // Pocet vyskytu vyrazu v celem obsahu. Body se pridavaji v hodnote pocet_nalezu_v_obsahu x found
Jsou urcite problemy pri gramaticke analyze vet:
-
Zkratky, acronymy
-
Zavorky
-
Vyrazu typu (Rovnice Rankineova - Hugoniotova)
Gramatika ceskeho jazyka. Neni to pripravene pro anglicky jazyk.
V NTK beží na: http://digi-workflow.ntkcz.cz:8082/ntk_toc/home
zároveň nastaveno zrcadlení na http://toc.ntkcz.cz/ntk_toc/home