rapidsai · rapids-bot · Jan 23, 2023 · Jan 9, 2023 · Jan 17, 2023 · Jan 17, 2023
diff --git a/docs/cudf/source/user_guide/io/read-json.md b/docs/cudf/source/user_guide/io/read-json.md
@@ -19,14 +19,14 @@ each object corresponds to a row.
     {"a": "v2", "b": 7},
     {"a": "v3", "b": 5}
 ]'''
->>> df_records = cudf.read_json(j, engine='cudf_experimental')
+>>> df_records = cudf.read_json(j, engine='cudf')
 
 >>> j = '\n'.join([
 ...     '{"a": "v1", "b": 12}',
 ...     '{"a": "v2", "b": 7}',
 ...     '{"a": "v3", "b": 5}'
 ... ])
->>> df_lines = cudf.read_json(j, lines=True, engine='cudf_experimental')
+>>> df_lines = cudf.read_json(j, lines=True, engine='cudf')
 
 >>> df_lines
     a   b
@@ -49,7 +49,7 @@ reading nested JSON data.
     {"list": [0,1,2], "struct": {"k":"v1"}},
     {"list": [3,4,5], "struct": {"k":"v2"}}
 ]'''
->>> df = cudf.read_json(j, engine='cudf_experimental')
+>>> df = cudf.read_json(j, engine='cudf')
 >>> df
         list       struct
 0  [0, 1, 2]  {'k': 'v1'}
@@ -61,7 +61,7 @@ reading nested JSON data.
 ...     '{"a": [{"k": 0}], "b": {"k": [0, 1], "m": 5}}',
 ...     '{"a": [{"k": 1}, {"k": 2}], "b": {"k": [2, 3], "m": 6}}',
 ... ])
->>> df = cudf.read_json(j, lines=True, engine='cudf_experimental')
+>>> df = cudf.read_json(j, lines=True, engine='cudf')
 >>> df
                       a                      b
 0            [{'k': 0}]  {'k': [0, 1], 'm': 5}
@@ -97,7 +97,7 @@ should be adjacent, as shown in the following example.
 ...         j,
 ...         lines=True,
 ...         byte_range=(chunk_size * x, chunk_size),
-...         engine='cudf_experimental'
+...         engine='cudf'
 ...     )
 ...     data.append(d)
 >>> df = cudf.concat(data)
@@ -115,7 +115,7 @@ raw strings, or file-like objects, as well as iterables of these sources.
 >>> j1 = '{"id":0}\n{"id":1}\n'
 >>> j2 = '{"id":2}\n{"id":3}\n'
 
->>> df = cudf.read_json([j1, j2], lines=True, engine='cudf_experimental')
+>>> df = cudf.read_json([j1, j2], lines=True, engine='cudf')
 ```
 
 ## Unpacking list and struct data
@@ -133,7 +133,7 @@ following example demonstrates how to extract data from a struct column.
 ...    '{"x": "Jakarta", "y": {"country": "Indonesia", "iso2": "ID"}}',
 ...    '{"x": "Shanghai", "y": {"country": "China", "iso2": "CN"}}'
 ... ])
->>> df = cudf.read_json(j, lines=True, engine='cudf_experimental')
+>>> df = cudf.read_json(j, lines=True, engine='cudf')
 >>> df = df.drop(columns='y').join(df['y'].struct.explode())
 >>> df
           x    country iso2
@@ -156,7 +156,7 @@ list column.
 ...    '{"name": "New Bedford, MA", "coord": [41.63, -70.93]}'
 ... ])
 
->>> df = cudf.read_json(j, lines=True, engine='cudf_experimental')
+>>> df = cudf.read_json(j, lines=True, engine='cudf')
 >>> df['latitude'] = df['coord'].list.get(0)
 >>> df['longitude'] = df['coord'].list.get(1)
 >>> df = df.drop(columns='coord')
@@ -181,7 +181,7 @@ the parent dataframe.
 ...    '{"product": "shirts", "ratings": [3, 4]}'
 ... ])
 
->>> df = cudf.read_json(j, lines=True, engine='cudf_experimental')
+>>> df = cudf.read_json(j, lines=True, engine='cudf')
 >>> df = df.drop(columns='ratings').join(df['ratings'].explode())
 >>> df
   product  ratings
@@ -217,7 +217,7 @@ reads a JSON object as a single line and then extracts the
 }'''
 
 # first read the JSON object with line=True
->>> df = cudf.read_json(j, lines=True, engine='cudf_experimental')
+>>> df = cudf.read_json(j, lines=True, engine='cudf')
 >>> df
              metadata                                            records
 0  {'vehicle': 'car'}  [{'id': 0, 'distance': 1.2}, {'id': 1, 'distan...

@@ -31,7 +31,7 @@ cpdef read_json(object filepaths_or_buffers,
                 bool lines,
                 object compression,
                 object byte_range,
-                bool experimental,
+                bool legacy,
                 bool keep_quotes):
     """
     Cython function to call into libcudf API, see `read_json`.
@@ -99,7 +99,7 @@ cpdef read_json(object filepaths_or_buffers,
         .lines(c_lines)
         .byte_range_offset(c_range_offset)
         .byte_range_size(c_range_size)
-        .legacy(not experimental)
+        .legacy(legacy)
         .build()
     )
     if is_list_like_dtypes:

@@ -1,4 +1,4 @@
-# Copyright (c) 2019-2022, NVIDIA CORPORATION.
+# Copyright (c) 2019-2023, NVIDIA CORPORATION.
 
 import warnings
 from collections import abc
@@ -37,16 +37,31 @@ def read_json(
             f"or a bool, or None. Got {type(dtype)}"
         )
 
-    if engine == "cudf" and not lines:
+    if engine == "cudf_experimental":
+        raise ValueError(
+            "engine='cudf_experimental' support has been removed, "
+            "use `engine='cudf'`"
+        )
+
+    if engine == "cudf_legacy":
+        # TODO: Deprecated in 23.02, please
+        # give some time until `cudf_legacy`
+        # support can be removed completely.
+        warnings.warn(
+            "engine='cudf_legacy' is a deprecated engine."
+            "This will be removed in a future release."
+            "Please switch to using engine='cudf'.",
+            FutureWarning,
+        )
+    if engine == "cudf_legacy" and not lines:
         raise ValueError(f"{engine} engine only supports JSON Lines format")
-    if engine != "cudf_experimental" and keep_quotes:
+    if engine != "cudf" and keep_quotes:
         raise ValueError(
-            "keep_quotes='True' is supported only with"
-            " engine='cudf_experimental'"
+            "keep_quotes='True' is supported only with engine='cudf'"
         )
     if engine == "auto":
         engine = "cudf" if lines else "pandas"
-    if engine == "cudf" or engine == "cudf_experimental":
+    if engine == "cudf_legacy" or engine == "cudf":
         if dtype is None:
             dtype = True
 
@@ -97,7 +112,7 @@ def read_json(
             lines,
             compression,
             byte_range,
-            engine == "cudf_experimental",
+            engine == "cudf_legacy",
             keep_quotes,
         )
     else:

@@ -319,7 +319,7 @@ def test_json_engine_selection():
         assert isinstance(col_name, str)
 
     # should use the pandas engine
-    df = cudf.read_json(json, lines=False)
+    df = cudf.read_json(json, lines=False, engine="pandas")
     # column names are ints when parsing with pandas
     for col_name in df.columns:
         assert isinstance(col_name, int)
@@ -332,7 +332,7 @@ def test_json_engine_selection():
 
     # should raise an exception
     with pytest.raises(ValueError):
-        cudf.read_json(json, lines=False, engine="cudf")
+        cudf.read_json(json, lines=False, engine="cudf_legacy")
 
 
 def test_json_bool_values():
@@ -352,6 +352,9 @@ def test_json_bool_values():
     np.testing.assert_array_equal(pd_df.dtypes, cu_df.dtypes)
 
 
+@pytest.mark.filterwarnings(
+    "ignore:engine='cudf_legacy' is a deprecated engine."
+)
 @pytest.mark.parametrize(
     "buffer",
     [
@@ -362,7 +365,7 @@ def test_json_bool_values():
     ],
 )
 def test_json_null_literal(buffer):
-    df = cudf.read_json(buffer, lines=True)
+    df = cudf.read_json(buffer, lines=True, engine="cudf_legacy")
 
     # first column contains a null field, type should be set to float
     # second column contains only empty fields, type should be set to int8
@@ -532,12 +535,13 @@ def test_default_integer_bitwidth(default_integer_bitwidth, engine):
     "engine",
     [
         pytest.param(
-            "cudf",
+            "cudf_legacy",
             marks=pytest.mark.skip(
                 reason="cannot partially set dtypes for cudf json engine"
             ),
         ),
         "pandas",
+        "cudf",
     ],
 )
 def test_default_integer_bitwidth_partial(default_integer_bitwidth, engine):
@@ -589,7 +593,7 @@ def test_json_nested_basic(tmpdir):
     pdf = pd.DataFrame(data)
     pdf.to_json(fname, orient="records")
 
-    df = cudf.read_json(fname, engine="cudf_experimental", orient="records")
+    df = cudf.read_json(fname, engine="cudf", orient="records")
     pdf = pd.read_json(fname, orient="records")
 
     assert_eq(pdf, df)
@@ -617,9 +621,7 @@ def test_json_nested_lines(data, lines):
     pdf = pd.DataFrame(data)
     pdf.to_json(bytes, orient="records", lines=lines)
     bytes.seek(0)
-    df = cudf.read_json(
-        bytes, engine="cudf_experimental", orient="records", lines=lines
-    )
+    df = cudf.read_json(bytes, engine="cudf", orient="records", lines=lines)
     bytes.seek(0)
     pdf = pd.read_json(bytes, orient="records", lines=lines)
     # In the second test-case we need to take a detour via pyarrow
@@ -638,9 +640,7 @@ def test_json_nested_data():
         '[{"0":{},"2":{}},{"1":[[""],[]],"2":{"2":""}},'
         '{"0":{"a":"1"},"2":{"0":"W&RR=+I","1":""}}]'
     )
-    df = cudf.read_json(
-        StringIO(json_str), engine="cudf_experimental", orient="records"
-    )
+    df = cudf.read_json(StringIO(json_str), engine="cudf", orient="records")
     pdf = pd.read_json(StringIO(json_str), orient="records")
     pdf.columns = pdf.columns.astype("str")
     pa_table_pdf = pa.Table.from_pandas(
@@ -659,7 +659,7 @@ def test_json_empty_types():
     """
     df = cudf.read_json(
         StringIO(json_str),
-        engine="cudf_experimental",
+        engine="cudf",
         orient="records",
         lines=True,
     )
@@ -676,9 +676,7 @@ def test_json_types_data():
         '{"1":[123],"0":{"0":"foo","1":123.4},"2":{"0":false}},'
         '{"0":{},"1":[],"2":{"0":null}}]'
     )
-    df = cudf.read_json(
-        StringIO(json_str), engine="cudf_experimental", orient="records"
-    )
+    df = cudf.read_json(StringIO(json_str), engine="cudf", orient="records")
     pdf = pd.read_json(StringIO(json_str), orient="records")
     pdf.columns = pdf.columns.astype("str")
     pa_table_pdf = pa.Table.from_pandas(
@@ -725,7 +723,7 @@ def test_json_types_data():
 def test_json_quoted_values_with_schema(col_type, json_str):
     experimental_df = cudf.read_json(
         StringIO(json_str),
-        engine="cudf_experimental",
+        engine="cudf",
         orient="records",
         dtype={"k": col_type},
     )
@@ -767,7 +765,7 @@ def test_json_quoted_values_with_schema(col_type, json_str):
 def test_json_quoted_values(col_type, json_str, expected):
     experimental_df = cudf.read_json(
         StringIO(json_str),
-        engine="cudf_experimental",
+        engine="cudf",
         orient="records",
         dtype={"k": col_type},
     )
@@ -818,7 +816,7 @@ def test_json_keep_quotes(keep_quotes, result):
 
     actual = cudf.read_json(
         bytes_file,
-        engine="cudf_experimental",
+        engine="cudf",
         orient="records",
         lines=True,
         keep_quotes=keep_quotes,
@@ -875,7 +873,7 @@ def test_json_dtypes_nested_data():
 
     df = cudf.read_json(
         StringIO(actual_json_str),
-        engine="cudf_experimental",
+        engine="cudf",
         orient="records",
         lines=True,
         dtype={
@@ -947,17 +945,15 @@ def test_json_dtypes_nested_data():
 class TestNestedJsonReaderCommon:
     @pytest.mark.parametrize("chunk_size", [10, 100, 1024, 1024 * 1024])
     def test_chunked_nested_json_reader(self, tag, data, chunk_size):
-        expected = cudf.read_json(
-            StringIO(data), engine="cudf_experimental", lines=True
-        )
+        expected = cudf.read_json(StringIO(data), engine="cudf", lines=True)
 
         source_size = len(data)
         chunks = []
         for chunk_start in range(0, source_size, chunk_size):
             chunks.append(
                 cudf.read_json(
                     StringIO(data),
-                    engine="cudf_experimental",
+                    engine="cudf",
                     byte_range=[chunk_start, chunk_size],
                     lines=True,
                 )
@@ -967,9 +963,7 @@ def test_chunked_nested_json_reader(self, tag, data, chunk_size):
 
     def test_order_nested_json_reader(self, tag, data):
         expected = pd.read_json(StringIO(data), lines=True)
-        target = cudf.read_json(
-            StringIO(data), engine="cudf_experimental", lines=True
-        )
+        target = cudf.read_json(StringIO(data), engine="cudf", lines=True)
         if tag == "dtype_mismatch":
             with pytest.raises(AssertionError):
                 # pandas parses integer values in float representation
@@ -1087,13 +1081,13 @@ def _replace_with_nulls(df, replace_items):
     pdf = _replace_with_nulls(pdf, [123, "123", 12.3, "abc"])
     gdf = cudf.read_json(
         StringIO(jsonl_string),
-        engine="cudf_experimental",
+        engine="cudf",
         orient="records",
         lines=True,
     )
     gdf2 = cudf.read_json(
         StringIO(json_string),
-        engine="cudf_experimental",
+        engine="cudf",
         orient="records",
         lines=False,
     )
@@ -1134,7 +1128,7 @@ def test_json_nested_mixed_types_error(jsonl_string):
     with pytest.raises(RuntimeError):
         cudf.read_json(
             StringIO(jsonl_string),
-            engine="cudf_experimental",
+            engine="cudf",
             orient="records",
             lines=True,
         )