microsoft · StrikerRUS · Sep 17, 2021 · Apr 1, 2021 · Apr 3, 2021 · Apr 3, 2021
@@ -134,8 +134,8 @@ def is_numpy_column_array(data):
     return len(shape) == 2 and shape[1] == 1
 
 
-def cast_numpy_1d_array_to_dtype(array, dtype):
-    """Cast numpy 1d array to given dtype."""
+def cast_numpy_array_to_dtype(array, dtype):
+    """Cast numpy array to given dtype."""
     if array.dtype == dtype:
         return array
     return array.astype(dtype=dtype, copy=False)
@@ -146,14 +146,24 @@ def is_1d_list(data):
     return isinstance(data, list) and (not data or is_numeric(data[0]))
 
 
+def is_1d_collection(data):
-def is_1d_collection(data):
+def _is_1d_collection(data: Any) -> bool:
-def is_1d_collection(data):
+def _is_1d_collection(data: Any) -> bool:
+    """Check whether data is a 1-D collection."""
+    return (
+        is_numpy_1d_array(data)
+        or is_numpy_column_array(data)
+        or is_1d_list(data)
+        or isinstance(data, pd_Series)
+    )
+
+
 def list_to_1d_numpy(data, dtype=np.float32, name='list'):
     """Convert data to numpy 1-D array."""
     if is_numpy_1d_array(data):
-        return cast_numpy_1d_array_to_dtype(data, dtype)
+        return cast_numpy_array_to_dtype(data, dtype)
     elif is_numpy_column_array(data):
         _log_warning('Converting column-vector to 1d array')
         array = data.ravel()
-        return cast_numpy_1d_array_to_dtype(array, dtype)
+        return cast_numpy_array_to_dtype(array, dtype)
     elif is_1d_list(data):
         return np.array(data, dtype=dtype, copy=False)
     elif isinstance(data, pd_Series):
@@ -165,6 +175,39 @@ def list_to_1d_numpy(data, dtype=np.float32, name='list'):
                         "It should be list, numpy 1-D array or pandas Series")
 
 
+def is_numpy_2d_array(data):
-def is_numpy_2d_array(data):
+def _is_numpy_2d_array(data: Any) -> bool:
-def is_numpy_2d_array(data):
+def _is_numpy_2d_array(data: Any) -> bool:
+    """Check whether data is a numpy 2-D array."""
+    return isinstance(data, np.ndarray) and len(data.shape) == 2 and data.shape[1] > 1
+
+
+def is_2d_list(data):
-def is_2d_list(data):
+def _is_2d_list(data: Any) -> bool:
-def is_2d_list(data):
+def _is_2d_list(data: Any) -> bool:
+    """Check whether data is a 2-D list."""
+    return isinstance(data, list) and len(data) > 0 and is_1d_list(data[0])
+
+
+def is_2d_collection(data):
-def is_2d_collection(data):
+def _is_2d_collection(data: Any) -> bool:
-def is_2d_collection(data):
+def _is_2d_collection(data: Any) -> bool:
+    """Check whether data is a 2-D collection."""
+    return (
+        is_numpy_2d_array(data)
+        or is_2d_list(data)
-        is_numpy_2d_array(data)
-        or is_2d_list(data)
+        _is_numpy_2d_array(data)
+        or _is_2d_list(data)
-        is_numpy_2d_array(data)
-        or is_2d_list(data)
+        _is_numpy_2d_array(data)
+        or _is_2d_list(data)
+        or isinstance(data, pd_DataFrame)
+    )
+
+
+def data_to_2d_numpy(data, dtype=np.float32, name='list'):
-def data_to_2d_numpy(data, dtype=np.float32, name='list'):
+def _data_to_2d_numpy(data, dtype=np.float32, name='list'):
-def data_to_2d_numpy(data, dtype=np.float32, name='list'):
+def _data_to_2d_numpy(data, dtype=np.float32, name='list'):
+    """Convert data to numpy 2-D array."""
+    if is_numpy_2d_array(data):
-    if is_numpy_2d_array(data):
+    if _is_numpy_2d_array(data):
-    if is_numpy_2d_array(data):
+    if _is_numpy_2d_array(data):
+        return cast_numpy_array_to_dtype(data, dtype)
+    if is_2d_list(data):
+        return np.array(data, dtype=dtype)
+    if isinstance(data, pd_DataFrame):
+        if _get_bad_pandas_dtypes(data.dtypes):
+            raise ValueError('DataFrame.dtypes must be int, float or bool')
+        return cast_numpy_array_to_dtype(data.values, dtype)
+    raise TypeError(f"Wrong type({type(data).__name__}) for {name}.\n"
+                    "It should be list of lists, numpy 2-D array or pandas DataFrame")
+
+
 def cfloat32_array_to_numpy(cptr, length):
     """Convert a ctypes float pointer array to a numpy array."""
     if isinstance(cptr, ctypes.POINTER(ctypes.c_float)):
@@ -1070,7 +1113,7 @@ def __init__(self, data, label=None, reference=None,
             sum(group) = n_samples.
             For example, if you have a 100-document dataset with ``group = [10, 20, 40, 10, 10, 10]``, that means that you have 6 groups,
             where the first 10 records are in the first group, records 11-30 are in the second group, records 31-70 are in the third group, etc.
-        init_score : list, numpy 1-D array, pandas Series or None, optional (default=None)
+        init_score : list, list of lists (for multi-class task), numpy array, pandas Series, pandas DataFrame (for multi-class task) or None, optional (default=None)
             Init score for Dataset.
         silent : bool, optional (default=False)
             Whether to print messages during construction.
@@ -1487,7 +1530,7 @@ def create_valid(self, data, label=None, weight=None, group=None,
             sum(group) = n_samples.
             For example, if you have a 100-document dataset with ``group = [10, 20, 40, 10, 10, 10]``, that means that you have 6 groups,
             where the first 10 records are in the first group, records 11-30 are in the second group, records 31-70 are in the third group, etc.
-        init_score : list, numpy 1-D array, pandas Series or None, optional (default=None)
+        init_score : list, list of lists (for multi-class task), numpy array, pandas Series, pandas DataFrame (for multi-class task) or None, optional (default=None)
             Init score for Dataset.
         silent : bool, optional (default=False)
             Whether to print messages during construction.
@@ -1823,7 +1866,7 @@ def set_init_score(self, init_score):
 
         Parameters
         ----------
-        init_score : list, numpy 1-D array, pandas Series or None
+        init_score : list, list of lists (for multi-class task), numpy array, pandas Series, pandas DataFrame (for multi-class task) or None, optional (default=None)
             Init score for Booster.
 
         Returns
@@ -1833,7 +1876,16 @@ def set_init_score(self, init_score):
         """
         self.init_score = init_score
         if self.handle is not None and init_score is not None:
-            init_score = list_to_1d_numpy(init_score, np.float64, name='init_score')
+            if is_1d_collection(init_score):
+                init_score = list_to_1d_numpy(init_score, np.float64, name='init_score')
+            elif is_2d_collection(init_score):
+                init_score = data_to_2d_numpy(init_score, np.float64, name='init_score')
+                init_score = init_score.ravel(order='F')
+            else:
+                raise TypeError(
+                    'init_score must be list, numpy 1-D array or pandas Series.\n'
+                    'In multiclass classification init_score can also be a list of lists, numpy 2-D array or pandas DataFrame.'
+                )
             self.set_field('init_score', init_score)
             self.init_score = self.get_field('init_score')  # original values can be modified at cpp side
         return self

@@ -717,7 +717,7 @@ def _get_meta_data(collection, name, i):
         X_shape="array-like or sparse matrix of shape = [n_samples, n_features]",
         y_shape="array-like of shape = [n_samples]",
         sample_weight_shape="array-like of shape = [n_samples] or None, optional (default=None)",
-        init_score_shape="array-like of shape = [n_samples] or None, optional (default=None)",
+        init_score_shape="array-like of shape = [n_samples] or shape = [n_samples * n_classes] (for multi-class task) or shape = [n_samples, n_classes] (for multi-class task) or None, optional (default=None)",
         group_shape="array-like or None, optional (default=None)"
     ) + "\n\n" + _lgbmmodel_doc_custom_eval_note
 

@@ -8,7 +8,7 @@
 from sklearn.model_selection import train_test_split
 
 import lightgbm as lgb
-from lightgbm.compat import PANDAS_INSTALLED, pd_Series
+from lightgbm.compat import PANDAS_INSTALLED, pd_DataFrame, pd_Series
 
 from .utils import load_breast_cancer
 
@@ -411,3 +411,19 @@ def test_list_to_1d_numpy(y, dtype):
     result = lgb.basic.list_to_1d_numpy(y, dtype=dtype)
     assert result.size == 10
     assert result.dtype == dtype
+
+
+@pytest.mark.parametrize('init_score_type', ['array', 'dataframe', 'list'])
+def test_init_score_for_multiclass_classification(init_score_type):
+    init_score = [[0, 1, 2] for _ in range(10)]
+    if init_score_type == 'array':
+        init_score = np.array(init_score)
+    elif init_score_type == 'dataframe':
+        if not PANDAS_INSTALLED:
+            pytest.skip('Pandas is not installed.')
+        init_score = pd_DataFrame(init_score)
+    data = np.random.rand(10, 2)
+    ds = lgb.basic.Dataset(data, init_score=init_score)
+    ds.construct()
+    expected_init_score = np.hstack([np.repeat(i, 10) for i in range(3)])
+    np.testing.assert_equal(ds.init_score, expected_init_score)
@@ -1277,17 +1277,14 @@ def test_init_score(task, output, cluster):
             'time_out': 5
         }
         init_score = random.random()
-        # init_scores must be a 1D array, even for multiclass classification
 init_score: Optional[_DaskVectorLike] = None, 
 eval_init_score: Optional[List[_DaskCollection]] = None, 
     init_score : Dask Array or Dask Series of shape = [n_samples] or None, optional (default=None) 
         Init score of training data. 
     eval_init_score : list of Dask Arrays, Dask Series or None, optional (default=None) 
         Initial model score for each validation set in eval_set. 
 init_score: Optional[_DaskVectorLike] = None, 
 eval_init_score: Optional[List[_DaskCollection]] = None, 
 init_score: Optional[_DaskVectorLike] = None, 
 eval_init_score: Optional[List[_DaskCollection]] = None, 
 init_score_shape="Dask Array or Dask Series of shape = [n_samples] or None, optional (default=None)", 
 eval_init_score_shape="list of Dask Arrays or Dask Series or None, optional (default=None)", 
 init_score: Optional[_DaskVectorLike] = None, 
 eval_init_score: Optional[List[_DaskCollection]] = None, 
 init_score_shape="Dask Array or Dask Series of shape = [n_samples] or None, optional (default=None)", 
 eval_init_score_shape="list of Dask Arrays or Dask Series or None, optional (default=None)", 
 init_score: Optional[_DaskVectorLike] = None, 
 eval_init_score: Optional[List[_DaskCollection]] = None, 
 init_score_shape="Dask Array or Dask Series of shape = [n_samples] or None, optional (default=None)", 
 eval_init_score_shape="list of Dask Arrays or Dask Series or None, optional (default=None)", 
 init_score: Optional[_DaskVectorLike] = None, 
 eval_init_score: Optional[List[_DaskCollection]] = None, 
     init_score : Dask Array or Dask Series of shape = [n_samples] or None, optional (default=None) 
         Init score of training data. 
     eval_init_score : list of Dask Arrays, Dask Series or None, optional (default=None) 
         Initial model score for each validation set in eval_set. 
 init_score: Optional[_DaskVectorLike] = None, 
 eval_init_score: Optional[List[_DaskCollection]] = None, 
 init_score: Optional[_DaskVectorLike] = None, 
 eval_init_score: Optional[List[_DaskCollection]] = None, 
 init_score_shape="Dask Array or Dask Series of shape = [n_samples] or None, optional (default=None)", 
 eval_init_score_shape="list of Dask Arrays or Dask Series or None, optional (default=None)", 
 init_score: Optional[_DaskVectorLike] = None, 
 eval_init_score: Optional[List[_DaskCollection]] = None, 
 init_score_shape="Dask Array or Dask Series of shape = [n_samples] or None, optional (default=None)", 
 eval_init_score_shape="list of Dask Arrays or Dask Series or None, optional (default=None)", 
 init_score: Optional[_DaskVectorLike] = None, 
 eval_init_score: Optional[List[_DaskCollection]] = None, 
 init_score_shape="Dask Array or Dask Series of shape = [n_samples] or None, optional (default=None)", 
 eval_init_score_shape="list of Dask Arrays or Dask Series or None, optional (default=None)", 
-        # where you need to provide 1 score per class for each row in X
-        # https://github.com/microsoft/LightGBM/issues/4046
         size_factor = 1
         if task == 'multiclass-classification':
             size_factor = 3  # number of classes
 
         if output.startswith('dataframe'):
-            init_scores = dy.map_partitions(lambda x: pd.Series([init_score] * x.size * size_factor))
+            init_scores = dy.map_partitions(lambda x: pd.DataFrame([[init_score] * size_factor] * x.size))
         else:
-            init_scores = dy.map_blocks(lambda x: np.repeat(init_score, x.size * size_factor))
+            init_scores = dy.map_blocks(lambda x: np.full((x.size, size_factor), init_score))
         model = model_factory(client=client, **params)
         model.fit(dX, dy, sample_weight=dw, init_score=init_scores, group=dg)
         # value of the root node is 0 when init_score is set