Ўзбек тилида ишлатиладиган сўзлар рўйхати
Энг кўп ишлатиладиган сўзлар рўйхатда аввал келиб, камроқ ишлатиладиган сўзлар кейинроқ келган. Сўзлар ўзбекчада ёзилган китоблар ҳамда веб сайтлардан олинган. Сўзларнинг орасида хатолари ҳам бор, бошқа тиллардаги, масалан русчадаги, сўзлар ҳам кириб қолган бўлиши мумкин. Лекин, умуман олганда, кўпилик сўзлар тўғри.
Сўзлар луғатдаги сўзлардан шуниси билан фарқ қилади-ки, унда қўшимчалар ва грамматик ўзгаришлар сақланиб қолган. Масалан, таҳлил қилинган матнларда «демоқ» сўзидан кўра «деб» сўзи кўпроқ ишлатилган. Шу сабабли рўйхатда «деб» сўзи «демоқ» сўзидан олдинда туради.
Рўйхатга атоқли отлар киритилмаган. Таҳлил давомида 700 мингдан ортиқ сўз ажратиб олинган бўлсада, уларнинг кўплари рус тилидаги сўзлар, ёки имло жиҳатидан хато ёзилган ўзбекча сўзлар бўлгани учун, бундай сўзлар охирги рўйхатга киритилмади. Ушбу рўйхатда ҳаммаси бўлиб 419,999 та сўз бор.
Ушбу сўзларни турли хил фойдали ишларда ишлатса бўлади. Масалан, китобларни электрон ҳолга келтириш учун tesseract дастуридан фойдаланиб ўзбек тилида ёзилган сўзларни аниқлаш учун. Ёки бўлмаса, ўзбек тилида ёзилган матнларни маъносини таҳлил қилиш ёки уларни бошқа тилларга таржима қилиш учун [apertium] (https://www.apertium.org) дастури учун моделлар яратишда ишлатиш мумкин.
Рўйхат GNU GENERAL PUBLIC LICENSE v3.0 билан лицензияланган.