Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Arrow_Fdwでファイル名の一部を列名として使用する。 #834

Open
kaigai opened this issue Oct 16, 2024 · 0 comments
Open
Labels
feature developer considers it is the feature to be supported on the future version
Milestone

Comments

@kaigai
Copy link
Contributor

kaigai commented Oct 16, 2024

あるArrowテーブルが次のような命名規則で並ぶファイルを読み出すとする。

  • 2019_tokyo_sales_record.arrow
  • 2020_tokyo_sales_record.arrow
  • 2021_tokyo_sales_record.arrow
  • 2022_tokyo_sales_record.arrow
  • 2023_tokyo_sales_record.arrow
  • 2020_osaka_sales_record.arrow
  • 2021_osaka_sales_record.arrow
  • 2022_osaka_sales_record.arrow
  • 2023_osaka_sales_record.arrow

この時、ファイル名のパターンとして $(year)_$(area)_sales_record.arrow みたいのを指定すると、
Arrowファイル本体に yeararea という列がなくとも、yeararea列としてファイル名の一部が参照できるという機能。

これは同時にmin/max統計情報としても利用され、例えば条件句に year >= 2022 が含まれれば、古い年次のファイルは
そもそも読み出さないといった使い方ができる。

「ファイル名の一部」は文字列として切り出せるので、その列名を指定のデータ型に変換できない時は

  • エラーにする
  • NULLにする
  • 無視する(noticeを出す)

という3パターン程度。

@kaigai kaigai added the feature developer considers it is the feature to be supported on the future version label Oct 16, 2024
@kaigai kaigai added this to the v5.3 milestone Oct 16, 2024
kaigai added a commit that referenced this issue Oct 23, 2024
issue #834
right now, it works just a filter of files.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
feature developer considers it is the feature to be supported on the future version
Projects
None yet
Development

No branches or pull requests

1 participant