Максименко Александр Николаевич / Sentiment-analyzer · Mos.Hub

git clone https://github.com/meloch287/Sentiment-analyzer.git
cd Sentiment-analyzer
docker compose up --build
docker compose down
cd backend
python -m venv venv
venv\Scripts\activate        # Windows
source venv/bin/activate     # Linux/Mac
pip install -r requirements.txt
uvicorn app.main:app --reload --port 8000
cd frontend
npm install
npm run dev
sentiment-analyzer/
├── backend/
│   ├── app/
│   │   ├── api/
│   │   │   └── routes.py          # API эндпоинты
│   │   ├── models/
│   │   │   ├── classifier.py      # ML классификатор
│   │   │   └── preprocessing.py   # Препроцессинг текста
│   │   ├── services/
│   │   │   └── ml_service.py      # Сервис анализа
│   │   ├── core/
│   │   │   └── config.py          # Конфигурация
│   │   └── main.py                # FastAPI приложение
│   ├── training/
│   │   ├── train_model.py         # Скрипт обучения
│   │   └── evaluate.py            # Скрипт оценки
│   ├── requirements.txt
│   └── Dockerfile
├── frontend/
│   ├── src/
│   │   ├── pages/                 # Страницы приложения
│   │   ├── components/            # UI компоненты
│   │   ├── services/              # API клиент
│   │   └── store/                 # Zustand store
│   ├── package.json
│   └── Dockerfile
├── data/
│   ├── test_sample.csv            # Тестовые данные
│   └── validation_sample.csv      # Данные для валидации
├── docker-compose.yml
└── README.md
text,src
"Отличный товар! Очень доволен покупкой!",ozon
"Ужасное качество, деньги на ветер.",wildberries
"Нормальный товар, ничего особенного.",yandex
text,src,label,confidence
"Отличный товар! Очень доволен покупкой!",ozon,2,0.95
"Ужасное качество, деньги на ветер.",wildberries,0,0.89
"Нормальный товар, ничего особенного.",yandex,1,0.76
http://localhost:8000/api
curl -X POST "http://localhost:8000/api/analyze" \
  -H "Content-Type: multipart/form-data" \
  -F "file=@reviews.csv"
{
  "task_id": "550e8400-e29b-41d4-a716-446655440000",
  "message": "Analysis started"
}
curl "http://localhost:8000/api/results/550e8400-e29b-41d4-a716-446655440000"
{
  "status": "processing",
  "progress": 150,
  "total": 500
}
{
  "status": "completed",
  "data": [
    {
      "text": "Отличный товар!",
      "src": "ozon",
      "label": 2,
      "confidence": 0.95
    }
  ],
  "stats": {
    "total": 500,
    "negative": 120,
    "neutral": 180,
    "positive": 200
  }
}
curl -O "http://localhost:8000/api/results/550e8400-e29b-41d4-a716-446655440000/download"
curl -X POST "http://localhost:8000/api/validate" \
  -H "Content-Type: multipart/form-data" \
  -F "file=@validation.csv"
{
  "macro_f1": 0.823,
  "precision": {
    "0": 0.85,
    "1": 0.78,
    "2": 0.87
  },
  "recall": {
    "0": 0.82,
    "1": 0.81,
    "2": 0.84
  },
  "confusion_matrix": [
    [192, 28, 14],
    [54, 459, 54],
    [26, 43, 364]
  ]
}
curl "http://localhost:8000/api/search?task_id=550e8400&query=отличный&source=ozon"
{
  "results": [
    {
      "text": "Отличный товар!",
      "src": "ozon",
      "label": 2,
      "confidence": 0.95
    }
  ]
}
curl "http://localhost:8000/api/filter?task_id=550e8400&label=2&source=ozon"
{
  "results": [
    {
      "text": "Отличный товар!",
      "src": "ozon",
      "label": 2,
      "confidence": 0.95
    }
  ]
}
curl -X PATCH "http://localhost:8000/api/results/550e8400/correct?text_id=5&new_label=1"
{
  "status": "updated",
  "text_id": 5,
  "new_label": 1
}
curl "http://localhost:8000/health"
{
  "status": "healthy"
}
from preprocessing import preprocess_text, preprocess_batch

text = preprocess_text("СУПЕР товар!!! 🔥 https://shop.ru")
# Результат: "супер товар!"

texts = preprocess_batch(["Отлично!!!", "Брак 😡"])
# Результат: ["отлично!", "брак"]
cd backend/training
python test_prepocessing.py
cd backend/training

# Базовый запуск
python run_preprocessing.py --input ../../data/train.csv

# С параметрами
python run_preprocessing.py \
  --input ../../data/train.csv \
  --output ../../data/train_cleaned.csv \
  --column text \
  --chunk 50000
cd backend/training

python train_model.py \
  --data_path train.csv \
  --output_dir ./model \
  --model_name cointegrated/rubert-tiny2 \
  --epochs 5 \
  --batch_size 16
python evaluate.py \
  --model_path ./model \
  --test_path test.csv \
  --output_report metrics_report.txt