Проект для курса по организации процессов c DS и ML на Stepik.org
В рамках проекта необходимо реализовать бота для Telegram, который будет классифицировать тексты на русском языке по уровню токсичности в виде вероятностной школы.
В блокноте dataset.txt находится модель для определения степени токсичности текстовых комментариев.
Настроим бота для Telegram. Для этого необходимо создать бота с помощью @BotFather. После этого получим токен для доступа к HTTP API. Токен необходимо сохранить в переменной TOKEN.
-
Убедитесь, что у вас установлен Python версии 3.7 и выше. Инструкция по установлению Python https://www.python.org/downloads/.
-
Создайте виртуальное окружение и устанавливаем зависимости:
python3 -m venv venv
source venv/bin/activate
pip3 install -r requirements.txt
- Создайте бота и получите telegram-токен:
- Напишите https://t.me/BotFather и введите команду /newbot
- Введите имя нового бота и его юзернейм
- Скопируйте и вставьте в ячейку ниже токен, который отправит вам BotFather. Это ключ от управления свежесозданным ботом.
-
Склонируйте репозиторий
git clone https://github.com/ayranamo/project-2-tgbot-toxicity-class.git
-
Перейдите в папку
cd project-2-tgbot-toxicity-class
-
Введите команду в командой строке:
export TOKEN="<Введите сюда свой telegram-токен>"
- Запустите бота командой:
python3 main.py
- Тот же проект вы можете попробовать реализовать в Google Colab. Пример кода — по ссылке.
- Давиду Дале, NLP-исследователю https://daviddale.ru/
- Байлак Монгуш, DevOps-инженеру https://github.com/npetrelli/