TableVectoriser's "numerical_transformer" does not accept Pipelines #886

DSoudis · 2024-01-29T13:24:13Z

Describe the bug

As per the Documentation of TableVectoriser here:

Transformer used on numerical features. Can either be a transformer object instance (e.g. StandardScaler), a Pipeline containing the preprocessing steps, ‘drop’ for dropping the columns, ‘remainder’ for applying remainder, or ‘passthrough’ to return the unencoded columns (default).

So i would assume that i can pass a pipeline.

Steps/Code to Reproduce

from sklearn.datasets import load_breast_cancer

from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.pipeline import make_pipeline

from skrub import TableVectorizer

# get data
cancer = load_breast_cancer(return_X_y = True, as_frame = True)
X = cancer[0]
y = cancer[1]


# Numerical transformer. No NAN in the data but it could be any pipeline
num_prep = make_pipeline(SimpleImputer(add_indicator = True), 
                         StandardScaler())


#TableVectoriser
encoder = TableVectorizer(numerical_transformer = num_prep)


# Model
clf = make_pipeline(encoder, LogisticRegression())
clf.fit(X, y)```

### Expected Results

Should fit the data

### Actual Results

ValueError: 'transformer' must be an instance of sklearn.base.TransformerMixin, 'remainder' or 'passthrough'. Got transformer=Pipeline(steps=[('simpleimputer', SimpleImputer(add_indicator=True)),
                ('standardscaler', StandardScaler())]).

### Versions

```shell
System:
    python: 3.12.1 | packaged by conda-forge | (main, Dec 23 2023, 08:01:35) [Clang 16.0.6 ]
executable: /opt/homebrew/Caskroom/miniforge/base/envs/test_skrub/bin/python
   machine: macOS-14.3-arm64-arm-64bit

Python dependencies:
      sklearn: 1.4.0
          pip: 23.3.2
   setuptools: 69.0.3
        numpy: 1.26.3
        scipy: 1.12.0
       Cython: None
       pandas: 2.2.0
   matplotlib: None
       joblib: 1.3.2
threadpoolctl: 3.2.0

Built with OpenMP: True

threadpoolctl info:
       user_api: blas
   internal_api: openblas
    num_threads: 8
         prefix: libopenblas
       filepath: /opt/homebrew/Caskroom/miniforge/base/envs/test_skrub/lib/libopenblas.0.dylib
        version: 0.3.26
threading_layer: openmp
   architecture: VORTEX

       user_api: openmp
   internal_api: openmp
    num_threads: 8
         prefix: libomp
       filepath: /opt/homebrew/Caskroom/miniforge/base/envs/test_skrub/lib/libomp.dylib
        version: None
0.1.0

The text was updated successfully, but these errors were encountered:

jeromedockes · 2024-02-01T11:32:23Z

thanks a lot for reporting this! We'll make sure to address it in #877

jeromedockes · 2024-05-02T13:56:56Z

here is a reproducer, to be added to our test suite:

import pandas as pd
from skrub import TableVectorizer
from sklearn.pipeline import make_pipeline

df = pd.DataFrame(dict(a=[1.1, 2.2]))
tv = TableVectorizer(numerical_transformer=make_pipeline('passthrough'))
tv.fit(df)

jeromedockes · 2024-05-28T15:13:20Z

fixed by #902

DSoudis added the bug Something isn't working label Jan 29, 2024

jeromedockes mentioned this issue May 2, 2024

Add column-wise transforms & refactor TableVectorizer #902

Merged

jeromedockes mentioned this issue May 13, 2024

Should accept pipelines and transformers #904

Closed

jeromedockes closed this as completed May 28, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

TableVectoriser's "numerical_transformer" does not accept Pipelines #886

TableVectoriser's "numerical_transformer" does not accept Pipelines #886

DSoudis commented Jan 29, 2024

jeromedockes commented Feb 1, 2024

jeromedockes commented May 2, 2024

jeromedockes commented May 28, 2024

TableVectoriser's "numerical_transformer" does not accept Pipelines #886

TableVectoriser's "numerical_transformer" does not accept Pipelines #886

Comments

DSoudis commented Jan 29, 2024

Describe the bug

Steps/Code to Reproduce

jeromedockes commented Feb 1, 2024

jeromedockes commented May 2, 2024

jeromedockes commented May 28, 2024