Skip to content

kaharjan/uzb-frequent-words

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 

Repository files navigation

uzb-frequent-words

Ўзбек тилида ишлатиладиган сўзлар рўйхати

Энг кўп ишлатиладиган сўзлар рўйхатда аввал келиб, камроқ ишлатиладиган сўзлар кейинроқ келган. Сўзлар ўзбекчада ёзилган китоблар ҳамда веб сайтлардан олинган. Сўзларнинг орасида хатолари ҳам бор, бошқа тиллардаги, масалан русчадаги, сўзлар ҳам кириб қолган бўлиши мумкин. Лекин, умуман олганда, кўпилик сўзлар тўғри.

Сўзлар луғатдаги сўзлардан шуниси билан фарқ қилади-ки, унда қўшимчалар ва грамматик ўзгаришлар сақланиб қолган. Масалан, таҳлил қилинган матнларда «демоқ» сўзидан кўра «деб» сўзи кўпроқ ишлатилган. Шу сабабли рўйхатда «деб» сўзи «демоқ» сўзидан олдинда туради.

Рўйхатга атоқли отлар киритилмаган. Таҳлил давомида 700 мингдан ортиқ сўз ажратиб олинган бўлсада, уларнинг кўплари рус тилидаги сўзлар, ёки имло жиҳатидан хато ёзилган ўзбекча сўзлар бўлгани учун, бундай сўзлар охирги рўйхатга киритилмади. Ушбу рўйхатда ҳаммаси бўлиб 419,999 та сўз бор.

Ушбу сўзларни турли хил фойдали ишларда ишлатса бўлади. Масалан, китобларни электрон ҳолга келтириш учун tesseract дастуридан фойдаланиб ўзбек тилида ёзилган сўзларни аниқлаш учун. Ёки бўлмаса, ўзбек тилида ёзилган матнларни маъносини таҳлил қилиш ёки уларни бошқа тилларга таржима қилиш учун [apertium] (https://www.apertium.org) дастури учун моделлар яратишда ишлатиш мумкин.

Рўйхат GNU GENERAL PUBLIC LICENSE v3.0 билан лицензияланган.

About

List of words in Uzbek sorted by frequency

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published