SPARK-EMR-DEV

demo various data ETL process via AWS EMR

Scala Projects

spark_emr_dev - Demo of submitting Hadoop ecosystem jobs to AWS EMR
spark-etl-pipeline - Demo of various Spark ETL processes
utility_Scala - Scala/Spark programming basic demo

File structure

# ├── README.md
# ├── athena            : athena query
# ├── build.sbt         : build.sbt build sbt dev env
# ├── config            : config for cres access AWS, 3rd party services
# ├── data              : sample data for script tes
# ├── doc               : ref docs
# ├── hive              : hive scripts 
# ├── project           : sbt project files 
# ├── pyspark           : pyspark code 
# ├── quick_start.sh    : help script run sbt/spark commands
# ├── script            : help script
# ├── src               : main scala spark ETL code
# ├── target            : compiled java file
# └── task_step         : json files define tasks at EMR

Quick Start

quick_start.md

Prerequisites

Modify config with yours and rename them (e.g. aws.config.dev -> aws.config) to access services like data source, file system.. and so on.
Install SBT as scala dependency management tool
Install Java, Spark
Modify build.sbt aligned your dev env
Check the spark etl scripts : src

Ref

https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-build-binaries.html

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SPARK-EMR-DEV

demo various data ETL process via AWS EMR

Scala Projects

File structure

Quick Start

Prerequisites

Ref

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 128 Commits
.github/workflows		.github/workflows
athena		athena
config		config
data		data
doc		doc
hadoop		hadoop
hive		hive
pig		pig
project		project
pyspark		pyspark
script		script
src		src
task_step		task_step
.gitignore		.gitignore
.travis.yml		.travis.yml
Dockerfile		Dockerfile
README.md		README.md
build.sbt		build.sbt
quick_start.sh		quick_start.sh
travis_build.sh		travis_build.sh

yennanliu/spark_emr_dev

Folders and files

Latest commit

History

Repository files navigation

SPARK-EMR-DEV

demo various data ETL process via AWS EMR

Scala Projects

File structure

Quick Start

Prerequisites

Ref

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages