This is the xls ingester project, it reads data from excele files in a given directory into an sql database.
קבצי המקור הם דוחות "הנכס הבודד" רבעוניים מהגופים הפנסוניים
importer_kupot - רשימת כל החברות והמסלולים
importer_reports - linked to kupot - contains the report date and file name
importer_asset_details - linked to reports - contains the details of assets and values.
make init
make makemigrations
make serve
cd djang
../venv/bin/python3 manage.py import_from_folder path <path to directory where excel files are> [force_overrride]
This environment resembles the production environment as closely as possible.
Run migrations:
docker-compose run --build --rm migrate
Start the web app:
docker-compose up -d --build ingress
Access at http://localhost:8000
Start a shell to run management commands:
docker-compose exec web bash
pytyhon manage.py
Start the Q Cluster:
docker-compose up -d --build qcluster
Some of the xlsx files do not open, an exception is thrown.
The list of problematic files is in the database in importer_filesnotingested table.
The error is "Failed to read workbook
<class 'openpyxl.styles.named_styles._NamedCellStyle'>.name should be <class 'str'> but value is <class 'NoneType'>"
- This issue is now resolved using calamine library to open the files that did not open with pyxl
Another exception is trown with some files, seems to be caused by formula fields.
Error is: "תעודות התחייבות ממשלתיות-R25
+++Code 300. The number of operands is more than available in stack for function "+". Formula: C13+C15++C16+C17+C18+C19+C20+C21". - '
שאלה אם בכלל כדאי לשמור שדות מחושבים בדאטהבייס או לחשב אותם בשליפה, לדוגמא שדות עם סיכום סך הכל משדות אחרים , אחוזים או ממוצאים
בחלק מהגליונות הערכים בשדות האלה קיימים ובחלק אלה שדות עם נוסחאות
...
קיים ממשק משתמש בסיסי שיכול לשמש לבדיקת נכונות הנתונים - זה לא ממשק למשתמש קצה
השלבים הבאים - בדיקת נכונות הנתונים וטיוב
התאמה לפורמט חדש שבשימוש מהשנה
מתאמת מערכת BI לתשאול ומחקר של הנתונים