Tools for a Data Science projects

This repository is a compendium of notebooks and scripts to be used in my daily work for Data Science projects. I will try to use this landscape as reference:

Content

Tools

Data understanding [0]
Experiments mlflow [5]

Scripts

Analysis [0]
- ADA [5]
- Decision tree for analysis [3]
  - Dataset files [0]
- Errors [3]
Plot [4]
Datasets [8]
- Tools [1]
- Kaggle [0]
  - Titanic [1]
- Summaries [0]
- Data [0]
Pipelines [3]
Utils [6]
Models [7]
- Xgboost [5]
- GAM [1]
Dashboarding [1]
Preprocessing [2]
- Scalers [1]
- Smoothers [1]
- Outliers [3]
Data [2]

Cheatsheets

Statistics [0]
Mathematics miscelaneous [0]
Agile [1]
Programming [0]
Ds project management [0]
Plots [0]

Data

Notebooks

Statistics [0]
- Probability [2]
- Sampling [4]
  - pycache [1]
- Hypotesis testing [4]
- Multimodal distribution analysis [2]
- Impurity measurements [2]
  - pycache [1]
Anomaly detection [1]
Pycaret [0]
- Anomaly detection [1]
- Supervised learning [1]
Timeseries [2]
Analysis [0]
- Density estimation [1]
- EDA [0]
  - Eda-tools [3]
  - Eda-autoeda libraries [7]
- Analysis missing values [1]
- Analysis dpi [1]
- Factor analysis [2]
- Analysis regression [2]
- Analysis errors [1]
- Analysis fourier [2]
- Analysis clustering [2]
  - Src [2]
    - pycache [2]
- Analysis decision tree [1]
- Analysis non-linear correlation [3]
- Analysis anomalies [4]
- Analysis data quality [1]
- Plots [0]
  - Scatter plots [1]
  - Hist kde [1]
  - Pie chart [1]
  - My final plots [6]
  - Bar plots [1]
Data quality [4]
- pycache [1]
Synthetic data [2]
Mlops [3]
- Pyarrow dataset [1]
  - Data [0]
    - Sample dataset [0]
    - Parquet dataset partitioned [0] - Part=a [0] - Part=b [0] - Part=c [0]
    - Parquet dataset 2 [0]
    - Parquet dataset 3 [0] - Folder 2 [0] - Folder 1 [0]
    - Parquet dataset 4 [0]
    - Partitioned dataset [0] - C=1 [0] - C=2 [0]
    - Parquet dataset 1 [0]
- Automated code style [1]
  - .ruff cache [0]
    - 0.6.9 [0]
  - .mypy cache [0]
    - 3.9 [0] - typeshed [0] - Sys [0] - Os [0] - Importlib [0] - Metadata [0] - Collections [0] - Email [0]
- Automated documentation [0]
  - Docs [0]
    - Src [0] - Module2 [0] - Module1 [0]
  - Src [0]
    - Module2 [2] - pycache [2]
    - Module1 [2] - pycache [2]
- Workflow [0]
  - Snakemake [0]
    - Paralel [1] - .snakemake [0] - Locks [0] - Conda [0] - Incomplete [0] - Shadow [0] - Conda-archive [0] - Singularity [0] - Log [0] - Metadata [0] - Auxiliary [0]
    - Introduction [1] - .snakemake [0] - Locks [0] - Conda [0] - Incomplete [0] - Shadow [0] - Conda-archive [0] - Singularity [0] - Log [0] - Metadata [0] - Auxiliary [0] - Data [0]
  - Experiments [1]
    - Experiments [0]
  - Pipelines [2]
- Configs [2]
  - Conf [0]
    - Environment [0]
    - Experiment [0]
- Documentation generators [0]
  - Library pdoc [1]
    - Html [0]
- Make task with invoke [3]
- Bigdata [1]
- Testing with pytest [0]
  - .pytest cache [0]
    - V [0] - Cache [0]
  - Tests [1]
    - pycache [1]
    - Module1 [3] - pycache [3]
  - Src [1]
    - pycache [1]
    - Module1 [3] - pycache [5]
Datasets [5]
Similarity [1]
Sampling [3]
Learning semi supervised [1]
Learning supervised [0]
- Lib lightgbm [1]
- Interpretability [1]
Automl [1]
- Extended eda [0]
- Automl 1 [0]
  - Ensemble [0]
  - 6 default randomforest [0]
  - EDA [0]
  - 2 decisiontree [0]
  - 3 linear [0]
  - 1 baseline [0]
  - 5 default neuralnetwork [0]
  - 4 default xgboost [0]
Model interpretability [4]
Dashboards [0]
- Panel [0]
  - 4-dashboard to html [1]
  - 2-power curve app v2 [1]
  - 3-nested selectors [1]
  - 0-first app [1]
  - 1-power curve app v1 [1]
NLP [9]
Feature engineering [0]
- Missing values imputation [1]
- Features selection [5]
- Best practices for classification [1]
- Auto data preparation [1]
Algorithms selection [2]
- Multiple algorithms evaluation with lazypredict [2]
Learning un supervised [2]
Data cleaning [2]
Information theory [1]

Updated on 2024-10-12 21:06:37

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Tools for a Data Science projects

Content

Tools

Scripts

Cheatsheets

Data

Notebooks

Files

README.md

Latest commit

History

README.md

File metadata and controls

Tools for a Data Science projects

Content

Tools

Scripts

Cheatsheets

Data

Notebooks