Репозиторий содержит скрипты для создания базы данных, парсер, написанный на Python и файлы, необходимые для быстрого запуска парсера внутри Docker контейнера.
Для запуска парсера необходимо:
- Python 3
- Модули Python:
- PostgreSQL
- Docker и docker-compose, если необходим запуск СУБД в контейнере
Работа парсера проверялась в ОС GNU/Linux, но поскольку Python кроссплатформенный язык, он также должен работать в Windows/MacOS.
Для конфигурации парсера необходимо использовать файл config.py
. Параметры конфигурации описаны ниже.
Параметр | Комментарий |
---|---|
dsn | Строка для подключения к базе данных, если используется Docker-контейнер на локальной машине, то это postgresql://mdb@127.0.0.1:20000/mdb |
year | Год, за который запускается парсер, используется для распаралелливания |
anticaptcha['key'] | Ключ к API сервиса anti-captcha.com |
anticaptcha['url'] | URL API сервиса anti-captcha.com, используется API версии 2 (https://api.anti-captcha.com/) |
Поднять базу данных для парсера можно одним из двух способов.
Для того, чтобы поднять базу данных в Docker контейнере, достаточно запустить скрипт rebuild.sh
либо отдельно следующие команды в корневой директории проекта:
docker-compose up --build database
База данных будет доступна на порту 20000.
Для запуска СУБД вне Docker контейнера необходимо выполнить скрипт db/install.sql
под суперпользователем БД. В psql при этом необходимо передать значение для SQL переменной database
:
cd db
psql -v database=mdb -f install.sql
Этот скрипт создаст БД и все необходимые сущности в ней.