Skip to content

Козынченко Вячеслав 411 группа 2022 год

Notifications You must be signed in to change notification settings

KozynchenkoVS/SearchSystem

Repository files navigation

SearchSystem

Козынченко Вячеслав 411 группа 2022 год

Scrapper.ipynb

Первая реализация парсера фандомной википедии(poor code)

ScrapperImproved.ipynb

Улучшенная реализация парсера. Добавлен парсинг полей страниц(Имя, Фамилия, Семья, ...)

tfidfDopusk.ipynb

Модель машинного обучения TF-IDF, Logistic Regression для классификации страниц на страницы персонажей/не персонажей.

SearchSystemAutomata.ipynb

Модель машинного обучения(TF-IDF, Logistic Regression) с предобученными word2vec векторами с rusvectores

schema_OldParser.xml

Схема данных для последующей индексации в Solr ядре

schema_NewParser.xml

Улучшенная схема данных. Добавлены русские и английские синонимы, а также настройка стопслов для русского языка

myCoreOldJsonTemp

Первая попытка создания Solr ядра с плохо спаршенными данными

myCoreNewJson

Ядро Solr, предназначенное для работы с улучшенной схемой данных

About

Козынченко Вячеслав 411 группа 2022 год

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published