ДигиТекс је вишеплатформна апликација за дигитализацију докумената на српском језику, заснована на оптичком препознавању карактера (и језичким моделима*).
Документ који је предмет дигитализације се најпре трансформише у слику помоћу Поплера, док је за препознавање текста на слици задужен Гугл Тесеракт. (Коначно, текст се обрађује језичким моделом за српски језик, јертех355, што омогућава прецизније одређивање вероватноће сваке речи у контексту, као и аутоматско исправљање лоше рашчитаног текста.*)
Дигитекс се може покретати као Фласк веб апликација на рачунарима са Виндоус и Виндоус сервер оперативним системима, за шта је неопходно инсталирати Пајтон 3.12, или се може скинути и покренути компајлована верзија која у себи садржи неопходан софтвер.
Скините прекомпајловану апликацију доступну на Гитхаб репозиторијуму софтвера и покрените програм на вашем рачунару.
-
Преузмите апликацију у целости и сачувајте је на вашем рачунару.
-
Инсталирајте Пајтон интерпретер (препоручена верзија 3.12)
-
У командној линији подесите радно окружење на директоријум у којем је похрањен преузети софтвер
cd ./direktorijum/digiteks/softvera
- Покрените припремљено виртуелно окружење
.\venv\Scripts\activate
- Покрените апликацију
python main.py
-
Преузмите апликацију у целости и сачувајте је на вашем рачунару.
-
Инсталирајте Пајтон интерпретер (препоручена верзија 3.12)
-
У командној линији подесите радно окружење на директоријум у којем је похрањен преузети софтвер
cd ./direktorijum/digiteks/softvera
- Инсталиратје неопходне Пајтон пакете
pip install -r requirements.txt
-
Преузмите инсталацију пакета tesserocr за вашу верзију Пајтон интерпретера на овој адреси
-
Инсталирајте преузети пакет (tesserocr)
pip install <путања/преузетог/пакета/име>.whl
- Покрените апликацију
python main.py
-
Преузмите апликацију у целости и сачувајте је на вашем рачунару.
-
Инсталирајте Пајтон интерпретер (препоручена верзија 3.12)
-
У командној линији подесите радно окружење на директоријум у којем је похрањен преузети софтвер
cd ./direktorijum/digiteks/softvera
- Инсталиратје неопходне Пајтон пакете
pip install -r requirements.txt
- Инсталирајте Tesseract
sudo apt-get install tesseract-ocr libtesseract-dev libleptonica-dev pkg-config
- Инсталирајте Poppler
sudo apt-get install -y poppler-utils
- Инсталирајте пакет (tesserocr)
pip install tesserocr
- Покрените апликацију
python main.py
-
Преузмите апликацију у целости и сачувајте је на вашем рачунару (нпр. у директоријуму var/www/digiteks).
-
Инсталирајте Пајтон интерпретер (препоручена верзија 3.12)
-
У командној линији подесите радно окружење на директоријум у којем је похрањен преузети софтвер
cd ./direktorijum/digiteks/softvera
- Инсталиратје неопходне Пајтон пакете
sudo -H pip3 install -r requirements.txt
- Инсталирајте Tesseract
sudo apt-get install tesseract-ocr libtesseract-dev libleptonica-dev pkg-config ffmpeg libsm6 libxext6
- Инсталирајте Poppler
sudo apt-get install -y poppler-utils
- Инсталирајте пакет (tesserocr)
sudo -H pip3 install tesserocr
- Инсталација и подешавање apache веб сервера
sudo apt install apache2
apache2 -v
sudo apt-get install libapache2-mod-wsgi-py3
sudo a2enmod rewrite
sudo a2enmod wsgi
sudo nano /etc/apache2/sites-available/digiteks.conf
У конфигурациону датотеку упишите:
<VirtualHost *:5001>
WSGIDaemonProcess digiteks user=www-data group=www-data threads=5
WSGIScriptAlias / /var/www/digiteks/digiteks.wsgi
<Directory /var/www/digiteks>
WSGIProcessGroup digiteks
WSGIApplicationGroup %{GLOBAL}
Order deny,allow
Allow from 127.0.0.1 ::1/128 <ADRESA SERVERA>
</Directory>
</VirtualHost>
sudo nano /etc/apache2/ports.conf
Listen 5001
Урадите неопходно ажурирање и рестарт сервиса
sudo a2ensite digiteks
sudo service apache2 restart
и апликација ће бити покренута и доступна на порту 5001
-
Припремање прекомпајловане апликације за Linux оперативне системе;
-
Припрема детаљнијег упутства за употребу;
-
Имплементација адекватних језичких модела путем библиотеке трансформерс.