2024-10-16 20:24:08 +00:00
|
|
|
# hse-python-assistant
|
|
|
|
|
|
|
|
## Ссылки
|
|
|
|
|
|
|
|
Тестирующая система: https://dsworks.ru/champ/hse-2024-october \
|
|
|
|
Лендинг: https://www.hse.ru/ai-assistant-hack-python/
|
|
|
|
|
|
|
|
## Запуск
|
2024-10-19 09:22:51 +00:00
|
|
|
### Клонирование репозитория
|
|
|
|
```
|
|
|
|
git clone https://git.xolostxutor.msk.ru/os.zakharov/hse-python-assistant
|
|
|
|
cd hse-python-assistant
|
|
|
|
```
|
|
|
|
|
2024-10-19 09:20:20 +00:00
|
|
|
### Загрузка модели
|
2024-10-19 18:10:47 +00:00
|
|
|
Замените `<your_path>` на путь, куда хотите сохранить модель.
|
2024-10-19 09:22:51 +00:00
|
|
|
```
|
2024-10-19 09:20:20 +00:00
|
|
|
app/utils/download_model.sh <your_path>
|
2024-10-19 09:32:11 +00:00
|
|
|
cd <your_path>
|
|
|
|
tar -xzf qwen2.5-7b-instruct-hse-fine-tuned.tar.gz
|
2024-10-19 09:20:20 +00:00
|
|
|
```
|
2024-10-18 20:44:44 +00:00
|
|
|
|
|
|
|
### Docker
|
2024-10-19 18:15:54 +00:00
|
|
|
Поменяйте путь в `docker-compose.yaml` на путь, где сохранена скачанная модель.
|
2024-10-18 20:44:44 +00:00
|
|
|
```
|
2024-10-19 18:10:47 +00:00
|
|
|
docker compose run app
|
2024-10-18 20:44:44 +00:00
|
|
|
```
|
|
|
|
|
|
|
|
### Poetry
|
2024-10-19 18:10:47 +00:00
|
|
|
Поменяйте `model_path` в `main.py` на путь, где сохранена скачанная модель.
|
2024-10-18 20:44:44 +00:00
|
|
|
```
|
|
|
|
poetry install
|
|
|
|
poetry run python main.py
|
|
|
|
```
|
2024-10-16 20:24:08 +00:00
|
|
|
|
|
|
|
## Структура проекта
|
|
|
|
|
|
|
|
```
|
|
|
|
.
|
|
|
|
├── app
|
|
|
|
│ ├── __init__.py
|
2024-10-18 20:44:44 +00:00
|
|
|
│ ├── models <------------------------ Подключаемые модели
|
|
|
|
│ └── utils <------------------------ Утилиты
|
2024-10-16 20:24:08 +00:00
|
|
|
├── data
|
2024-10-18 20:44:44 +00:00
|
|
|
│ ├── processed <----------------------- Промежуточный этап подготовки данных
|
|
|
|
│ └── raw <----------------------------- Исходные данные
|
2024-10-16 20:24:08 +00:00
|
|
|
│ ├── submit_example.csv
|
|
|
|
│ ├── test
|
|
|
|
│ │ ├── solutions.xlsx
|
|
|
|
│ │ ├── tasks.xlsx
|
|
|
|
│ │ └── tests.xlsx
|
|
|
|
│ └── train
|
|
|
|
│ ├── solutions.xlsx
|
|
|
|
│ ├── tasks.xlsx
|
|
|
|
│ └── tests.xlsx
|
|
|
|
├── main.py <---------------------------- [ВАЖНО] Именно этот скрипт мы будем запускать при проверке ваших решений. Он должен генерировать финальный сабмит.
|
2024-10-18 20:44:44 +00:00
|
|
|
├── notebooks
|
|
|
|
│ └── finetuning.ipynb <---------------------------- Процесс файнтюнинга модели
|
2024-10-16 20:24:08 +00:00
|
|
|
├── poetry.lock
|
|
|
|
├── pyproject.toml
|
|
|
|
├── README.md
|
|
|
|
└── tests
|
2024-10-18 20:44:44 +00:00
|
|
|
├── test_correctness.py <------------------------ Проверить на корректность сабмит
|
|
|
|
└── test_embedding_generation.py <--------------- Попробовать генерацию эмбеддингов и подсчёт метрики
|
|
|
|
```
|