Skip to content

Latest commit

 

History

History
449 lines (436 loc) · 38.5 KB

README.md

File metadata and controls

449 lines (436 loc) · 38.5 KB

GeoWordsDatabase

This Mysql database contains around 310 000 unique Georgian words.

check db statistics and words cloud visualization

Other datasets

  1. akalongman (Avtandil Kikabidze) / geo-words
  2. 0xh3x (Giorgi Jvaridze) / scraped-words
  3. sandrinio( Sandro Sukhitashvili) / Scraped / GeoWordsDatabase
  4. Kevin Scannell / Scraped
  5. Irakli Koberidze / Merged / Frequency_Dictionary_GE_363_202

Linked Applications

  • ka_GE.spell - Georgian spell checking dictionary
  • geowords - web client (web app is not online)
  • ritma - mobile client (apk can be downloaded, but is not in play store)
  • რითმა - fb chat bot (online)

Database structure

Database Relations image

Statistics

უნიკალური სიტყვების რაოდენობა

309,916

მთლიანი სიტყვების რაოდენობა

2,970,640

ასო-ბგერების რაოდენობა

19,737,919

ყველაზე განმეორებადი სიტყვა

და (4.46 %)

ყველაზე განმეორებადი ასო-ბგერა

(15.01 %)

ნაკლებ განმეორებადი ასო-ბგერა

(0.07 %)

33 ყველაზე განმეორებადი სიტყვა
# სიტყვა რაოდენობა ბაზაში პროცენტული ფარდობა
1 და 132,585 4.463 %
2 რომ 26,542 0.893 %
3 არ 24,154 0.813 %
4 ამ 14,984 0.504 %
5 ეს 13,588 0.457 %
6 თუ 13,429 0.452 %
7 რომელიც 11,946 0.402 %
8 იყო 11,768 0.396 %
9 11,682 0.393 %
10 კი 11,448 0.385 %
11 მაგრამ 11,055 0.372 %
12 ან 10,780 0.363 %
13 არა 9,955 0.335 %
14 უნდა 9,948 0.335 %
15 ის 9,173 0.309 %
16 მისი 8,718 0.293 %
17 მე 8,416 0.283 %
18 როგორც 8,335 0.281 %
19 რა 8,168 0.275 %
20 არის 7,169 0.241 %
21 მას 7,154 0.241 %
22 იგი 6,844 0.230 %
23 იმ 6,811 0.229 %
24 ერთი 6,686 0.225 %
25 რაც 5,922 0.199 %
26 შემდეგ 5,573 0.188 %
27 სხვა 5,430 0.183 %
28 მათ 5,238 0.176 %
29 ილია 5,177 0.174 %
30 მხოლოდ 5,117 0.172 %
31 ვერ 4,957 0.167 %
32 4,912 0.165 %
33 მის 4,857 0.164 %
ასო ბგერათა სიხშირე
# ასო-ბგერა რაოდენობა ბაზაში პროცენტული ფარდობა
1 2,963,523 15.014 %
2 2,257,751 11.439 %
3 1,738,635 8.809 %
4 1,290,017 6.536 %
5 1,173,323 5.945 %
6 1,072,087 5.432 %
7 987,471 5.003 %
8 852,648 4.320 %
9 832,634 4.218 %
10 818,302 4.146 %
11 711,784 3.606 %
12 688,035 3.486 %
13 561,099 2.843 %
14 542,778 2.750 %
15 454,138 2.301 %
16 317,244 1.607 %
17 295,257 1.496 %
18 288,025 1.459 %
19 285,833 1.448 %
20 264,382 1.339 %
21 190,572 0.966 %
22 176,053 0.892 %
23 156,242 0.792 %
24 143,723 0.728 %
25 142,221 0.721 %
26 120,430 0.610 %
27 107,048 0.542 %
28 95,529 0.484 %
29 82,122 0.416 %
30 43,684 0.221 %
31 41,305 0.209 %
32 30,314 0.154 %
33 13,710 0.069 %