GlareDB · tychoish · Feb 21, 2024 · Feb 12, 2024 · Feb 12, 2024 · Feb 12, 2024
diff --git a/crates/datafusion_ext/src/planner/relation/mod.rs b/crates/datafusion_ext/src/planner/relation/mod.rs
@@ -19,7 +19,8 @@ use std::collections::HashMap;
 use std::path::Path;
 
 use async_recursion::async_recursion;
-use datafusion::common::{DataFusionError, OwnedTableReference, Result};
+use datafusion::common::{DataFusionError, GetExt, OwnedTableReference, Result};
+use datafusion::datasource::file_format::file_compression_type::FileCompressionType;
 use datafusion::logical_expr::{LogicalPlan, LogicalPlanBuilder};
 use datafusion::scalar::ScalarValue;
 use datafusion::sql::planner::PlannerContext;
@@ -247,24 +248,34 @@ fn infer_func_for_file(path: &str) -> Result<OwnedTableReference> {
     Ok(match ext.as_str() {
         "parquet" => OwnedTableReference::Partial {
             schema: "public".into(),
-            table: "parquet_scan".into(),
+            table: "read_parquet".into(),
+        },
+        "xlsx" => OwnedTableReference::Partial {
+            schema: "public".into(),
+            table: "read_excel".into(),
         },
         "csv" => OwnedTableReference::Partial {
             schema: "public".into(),
-            table: "csv_scan".into(),
+            table: "read_csv".into(),
         },
         "json" | "jsonl" | "ndjson" => OwnedTableReference::Partial {
             schema: "public".into(),
-            table: "ndjson_scan".into(),
+            table: "read_ndjson".into(),
         },
         "bson" => OwnedTableReference::Partial {
             schema: "public".into(),
             table: "read_bson".into(),
         },
         ext => {
-            return Err(DataFusionError::Plan(format!(
-                "unable to infer how to handle file extension: {ext}"
-            )))
+            if let Ok(compression_type) = ext.parse::<FileCompressionType>() {
+                let ext = compression_type.get_ext();
+                let path = path.trim_end_matches(ext.as_str());
+                infer_func_for_file(path)?
+            } else {
+                return Err(DataFusionError::Plan(format!(
+                    "unable to infer how to handle file extension: {ext}"
+                )));
+            }
         }
     })
 }
diff --git a/testdata/csv/userdata1.csv.gz b/testdata/csv/userdata1.csv.gz
diff --git a/testdata/parquet/userdata1.parquet.gz b/testdata/parquet/userdata1.parquet.gz
diff --git a/testdata/sqllogictests/infer.slt b/testdata/sqllogictests/infer.slt
@@ -51,3 +51,33 @@ select count(*) from './testdata/parquet/*.parquet'
 statement error missing file extension
 select count(*) from './testdata/parquet/*'
 
+#Tests for inferring table functions from compressed file formats
+
+query
+select count(*) from './testdata/csv/userdata1.csv.gz'
+----
+1000
+
+
+query IT
+select id, "./testdata/csv/userdata1.csv.gz".first_name
+  from './testdata/csv/userdata1.csv.gz'
+  order by id
+  limit 1
+----
+1  Amanda
+
+#For read_parquet table function with compressed files 
+
+query
+select count(*) from './testdata/parquet/userdata1.parquet.gz'
+----
+1000
+
+query IT
+select id, "./testdata/parquet/userdata1.parquet.gz".first_name
+  from './testdata/parquet/userdata1.parquet.gz'
+  order by id
+  limit 1
+----
+1  Amanda