B

BotClub

Sentify (Text Tonality Analyzer)

Приложение для определения тональности текста от команды «Ботанский клуб»

Состав команды :

  • Кульпин Егор – Backend
  • Матяшов Владимир – ML
  • Голев Семён – DS
  • Пастухова Зоя – Frontend
  • Фарисеева Арина – Frontend

О приложении

Наш проект представляет собой веб-приложение, способное анализировать тональность текста и ранжировать текст по 3-х бальной шкале, где:

Оценка Описание
0 Нейтральная оценка
1 Положительная оценка
2 Негативная оценка

В данной сфере очень важно правильно производить классификацию данных, визуализировать данные, чтобы облегчить их понимание, и возможность выгрузки файла с размеченными данными для дальнейшей работы.

Наше приложение предоставляет удобный интерфейс для пользователя, позволяющий загрузить свой .csv файл с данными и дальнейшим анализом этих данных. Анализ данных представляет из себя несколько возможных видов визуализации, а именно:

  • Список, в котором отображаются отзывы с цветовой и текстовой пометкой об их тональности;

  • Таблица с отзывами, в которой есть такие столбцы как: отзыв, тональность, источник;

  • Диаграммы, которые представляют собой удобный дашборд, на котором с помощью диаграмм можно узнать информацию по загруженным данным.

Итоговый ответ для F1_macro представлен в файле submission.csv

Сайт работает по ссылке https://botclub.kulpin.online

Главная страница Таблица данных Аналитика
Основная страница Таблица Диаграммы

Pipeline системы

Система построена на базе градиентного бустинга LightGBM и использует TF-IDF для векторизации текста.

Пайплайн модели

Технический стек и процесс

1. Предобработка (Preprocessing)

  • Приведение к нижнему регистру.
  • Очистка от спецсимволов и лишних пробелов.
  • Замена сущностей (URL, email, даты, числа) на токены.

2. Векторизация (Feature Engineering)

  • TF-IDF Vectorizer:
    • Лимит: 40,000 признаков.
    • N-граммы: униграммы, биграммы и триграмма.

3. Модель (Model)

  • LightGBM Classifier:
    • Обучение с кросс-валидацией (Stratified K-Fold, 3 фолда).
    • Метрика оптимизации: F1-macro score.
    • Сохранение модели и векторизатора через joblib.

Запуск

Ниже представлены команды для локального запуска приложения

git clone https://hub.mos.ru/semengolev2005/botclub.git
cd botclub
docker-compose up -d

Приложение будет работать на http://localhost:3000