- Wikipedia Hiyerarşisini Çıkartabilmek için ilk olarak Categorylinks, Page ve category tabloları indirilir.
wget https://dumps.wikimedia.org/trwiki/latest/trwiki-latest-category.sql.gz gunzip trwiki-latest-category.sql.gz
wget https://dumps.wikimedia.org/trwiki/latest/trwiki-latest-categorylinks.sql.gz gunzip trwiki-latest-categorylinks.sql.gz
wget https://dumps.wikimedia.org/trwiki/latest/trwiki-latest-page.sql.gz gunzip trwiki-latest-page.sql.gz
- Wikipedia Hiyerarşisini elde etme
extract_wikipedia_hierarchy.ipynb notebook çalıştırılarak wikipedia hiyerarşisi çıkartılır.
Aşağıdaki çalışma örnek alınmıştır.
https://github.com/niwatolli3/wikipedia-category-csv
3)Elde edilen hiyerarşiden graf çıkartılması ve tüm yaprak düğümlere ait bilgilerin toplanması
graph_analysis.ipynb notebook çalıştırılarak elde edilir.
-
Belli kategoriler ait ontolojiler çıkartılarak otomatik veri etiketleme altyapısının oluşturulması coming soon...
-
Etiketli veri ile farklı modellerin eğitilmesi coming soon...