Home

Popis fungování:

Parsovani textoveho souboru obsahu

Ziskame vety. Kazda veta ma 3 vlastnosti:

hloubka

        podle nazvu paragraphu (2.3.1)

        podle poctu tabulatoru

text

stranka (cislo na konci radku)

Provadime zakladni cisteni textu (np. odstranime sekvence tecek)

Gramaticka analyza vetu pomoci MorphoDiTa (http://lindat.mff.cuni.cz/services/morphodita/info.php)

Tim ziskame seznam slov a jejich funkce ve vete

Generovani moznych kandidatu:

Kazdy podstatne jmeno

Kazda sekvenze pridannych jmen a podstatneho jmena

Sekvence podstatneho jmena a slov ve druhem padu (genitiv)

Pro kazdy kandidat urcime typ (jmeno, vlastni jmeno, jmeno+genitivy ...)

Dalsi mozne kandidaty ziskame jednoduchym rozdelenim slov, bez gramatika (nekdy MorphoDiTa to nedela spravne)

Pro kazdy nalezeny vyraz provadime nasledujici:

        - Vypocitame pocet vyskytu v celem obsahu.

        - Hledame mozne nalezy v jiz existucijim slovniku klikovych slov (PSH, klcova slova, konspekt, nas rizene slovnik). Toto hledani neprovadime pro vyrazy na seznamu blacklist.

Jako zvlastni veta pouzivame titulek dokumentu. Ten ziskame pomoci dotazovani na XServer podle sysno

Vypocitame score pomoci konfiguraci. Hodnoty budou v pripade vystyku nasobeni. Konfiguracni soubor ma nasledujici parametry:

"matched": 2.0, // nasli jsme vyraz v slovnikach

"multiple": 3.0, // vyraz je vyceslovni (jsou zajimavejsi)

"hasProperNoun": 1.9, // ve vyrazu je podstatne jmeno

"isDictionaryWord": 2.0, // vyraz byl nalezen mimo gramatickeho zpracovani (jednoduche rozdeleni slov) a byl nalezen ve slovnikach

"extent": 0.1, // Rozsah stran. Body se pridavaji v hodnote rozsah_stran x found

"inTitle": 1.5, // vyraz je v titulku

"addExtentForTitle": false, // pokud ano, pro vyrazy z titulku pridame jeste parametr "extent" pro celkovy pocet stran dokumentu

"dictionaries": { // je li vyraz v konkretnim slovniku.

  "PSH": 3.0, 

  "keywords": 1.2,

  "konspekt": 4.0

},

"found": 0.2, // Pocet vyskytu vyrazu v celem obsahu. Body se pridavaji v hodnote pocet_nalezu_v_obsahu x found

Jsou urcite problemy pri gramaticke analyze vet:

Zkratky, acronymy
Zavorky
Vyrazu typu (Rovnice Rankineova - Hugoniotova)

Gramatika ceskeho jazyka. Neni to pripravene pro anglicky jazyk.

TOC v NTK

V NTK beží na: http://digi-workflow.ntkcz.cz:8082/ntk_toc/home

zároveň nastaveno zrcadlení na http://toc.ntkcz.cz/ntk_toc/home

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Home

Popis fungování:

TOC v NTK

Clone this wiki locally