Go to file

Main ee159d004a v14		2024-10-19 18:15:54 +00:00
app	v13	2024-10-19 18:12:35 +00:00
data	v12	2024-10-19 18:10:47 +00:00
notebooks	v10	2024-10-19 12:20:20 +03:00
tests	v1	2024-10-16 23:24:08 +03:00
.gitignore	v4	2024-10-17 10:24:52 +03:00
Dockerfile	v1	2024-10-16 23:24:08 +03:00
README.md	v14	2024-10-19 18:15:54 +00:00
docker-compose.yaml	v12	2024-10-19 18:10:47 +00:00
main.py	v12	2024-10-19 18:10:47 +00:00
poetry.lock	v12	2024-10-19 18:10:47 +00:00
pyproject.toml	v12	2024-10-19 18:10:47 +00:00

README.md

hse-python-assistant

Ссылки

Тестирующая система: https://dsworks.ru/champ/hse-2024-october
Лендинг: https://www.hse.ru/ai-assistant-hack-python/

Запуск

Клонирование репозитория

git clone https://git.xolostxutor.msk.ru/os.zakharov/hse-python-assistant
cd hse-python-assistant

Загрузка модели

Замените <your_path> на путь, куда хотите сохранить модель.

app/utils/download_model.sh <your_path>
cd <your_path>
tar -xzf qwen2.5-7b-instruct-hse-fine-tuned.tar.gz

Docker

Поменяйте путь в docker-compose.yaml на путь, где сохранена скачанная модель.

docker compose run app

Poetry

Поменяйте model_path в main.py на путь, где сохранена скачанная модель.

poetry install
poetry run python main.py

Структура проекта

.
├── app
│   ├── __init__.py
│   ├── models   <------------------------ Подключаемые модели
│   └── utils    <------------------------ Утилиты
├── data
│   ├── processed <----------------------- Промежуточный этап подготовки данных
│   └── raw <----------------------------- Исходные данные
│       ├── submit_example.csv
│       ├── test
│       │   ├── solutions.xlsx
│       │   ├── tasks.xlsx
│       │   └── tests.xlsx
│       └── train
│           ├── solutions.xlsx
│           ├── tasks.xlsx
│           └── tests.xlsx
├── main.py <---------------------------- [ВАЖНО] Именно этот скрипт мы будем запускать при проверке ваших решений. Он должен генерировать финальный сабмит.
├── notebooks
│   └── finetuning.ipynb <---------------------------- Процесс файнтюнинга модели
├── poetry.lock
├── pyproject.toml
├── README.md
└── tests
    ├── test_correctness.py <------------------------ Проверить на корректность сабмит
    └── test_embedding_generation.py <--------------- Попробовать генерацию эмбеддингов и подсчёт метрики