apache-spark-on-k8s · ifilonenko · Jun 16, 2017 · Jun 17, 2017 · Jun 17, 2017 · Jun 20, 2017
diff --git a/README.md b/README.md
@@ -24,6 +24,7 @@ We've been asked by an Apache Spark Committer to work outside of the Apache infr
 
 This is a collaborative effort by several folks from different companies who are interested in seeing this feature be successful.  Companies active in this project include (alphabetically):
 
+- Bloomberg
 - Google
 - Haiwen
 - Hyperpilot

diff --git a/core/src/main/scala/org/apache/spark/deploy/SparkSubmit.scala b/core/src/main/scala/org/apache/spark/deploy/SparkSubmit.scala
@@ -335,8 +335,8 @@ object SparkSubmit {
     (clusterManager, deployMode) match {
       case (KUBERNETES, CLIENT) =>
         printErrorAndExit("Client mode is currently not supported for Kubernetes.")
-      case (KUBERNETES, CLUSTER) if args.isPython || args.isR =>
-        printErrorAndExit("Kubernetes does not currently support python or R applications.")
+      case (KUBERNETES, CLUSTER) if args.isR =>
+        printErrorAndExit("Kubernetes does not currently support R applications.")
       case (STANDALONE, CLUSTER) if args.isPython =>
         printErrorAndExit("Cluster deploy mode is currently not supported for python " +
           "applications on standalone clusters.")
@@ -620,8 +620,15 @@ object SparkSubmit {
 
     if (isKubernetesCluster) {
       childMainClass = "org.apache.spark.deploy.kubernetes.submit.Client"
-      childArgs += args.primaryResource
-      childArgs += args.mainClass
+      if (args.isPython) {
+        childArgs += args.primaryResource
+        childArgs += "org.apache.spark.deploy.PythonRunner"
+        childArgs += args.pyFiles
+      }
+      else {
+        childArgs += args.primaryResource
+        childArgs += args.mainClass
+      }
       childArgs ++= args.childArgs
     }
 

diff --git a/...anagers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/constants.scala b/...anagers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/constants.scala
@@ -67,6 +67,8 @@ package object constants {
   private[spark] val ENV_DRIVER_ARGS = "SPARK_DRIVER_ARGS"
   private[spark] val ENV_DRIVER_JAVA_OPTS = "SPARK_DRIVER_JAVA_OPTS"
   private[spark] val ENV_MOUNTED_FILES_DIR = "SPARK_MOUNTED_FILES_DIR"
+  private[spark] val ENV_PYSPARK_FILES = "PYSPARK_FILES"
+  private[spark] val ENV_PYSPARK_PRIMARY = "PYSPARK_PRIMARY"
 
   // Bootstrapping dependencies with the init-container
   private[spark] val INIT_CONTAINER_ANNOTATION = "pod.beta.kubernetes.io/init-containers"

diff --git a/...ers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/Client.scala b/...ers/kubernetes/core/src/main/scala/org/apache/spark/deploy/kubernetes/submit/Client.scala
@@ -47,11 +47,14 @@ private[spark] class Client(
     appName: String,
     kubernetesResourceNamePrefix: String,
     kubernetesAppId: String,
+    mainAppResource: String,
+    isPython: Boolean,
     mainClass: String,
     sparkConf: SparkConf,
     appArgs: Array[String],
     sparkJars: Seq[String],
     sparkFiles: Seq[String],
+    pySparkFiles: List[String],
     waitForAppCompletion: Boolean,
     kubernetesClient: KubernetesClient,
     initContainerComponentsProvider: DriverInitContainerComponentsProvider,
@@ -83,7 +86,14 @@ private[spark] class Client(
   def run(): Unit = {
     validateNoDuplicateFileNames(sparkJars)
     validateNoDuplicateFileNames(sparkFiles)
-
+    if (isPython) {validateNoDuplicateFileNames(pySparkFiles)}
+    val arguments = if (isPython) pySparkFiles match {
+      case Nil => appArgs
+      case a::b => a match {
+        case _ if a==mainAppResource && b==Nil => appArgs
+        case _ => appArgs.drop(1)
+      }
+    } else appArgs
     val driverCustomLabels = ConfigurationUtils.combinePrefixedKeyValuePairsWithDeprecatedConf(
       sparkConf,
       KUBERNETES_DRIVER_LABEL_PREFIX,
@@ -135,7 +145,7 @@ private[spark] class Client(
         .endEnv()
       .addNewEnv()
         .withName(ENV_DRIVER_ARGS)
-        .withValue(appArgs.mkString(" "))
+        .withValue(arguments.mkString(" "))
         .endEnv()
       .withNewResources()
         .addToRequests("cpu", driverCpuQuantity)
@@ -204,7 +214,7 @@ private[spark] class Client(
     val resolvedDriverJavaOpts = resolvedSparkConf.getAll.map {
       case (confKey, confValue) => s"-D$confKey=$confValue"
     }.mkString(" ") + driverJavaOptions.map(" " + _).getOrElse("")
-    val resolvedDriverPod = podWithInitContainerAndMountedCreds.editSpec()
+    val resolvedDriverPodBuilder = podWithInitContainerAndMountedCreds.editSpec()
       .editMatchingContainer(new ContainerNameEqualityPredicate(driverContainer.getName))
         .addNewEnv()
           .withName(ENV_MOUNTED_CLASSPATH)
@@ -216,7 +226,15 @@ private[spark] class Client(
           .endEnv()
         .endContainer()
       .endSpec()
-      .build()
+    val resolvedDriverPod = if (!isPython) {
+      resolvedDriverPodBuilder.build()
+    } else {
+      initContainerComponentsProvider
+        .provideDriverPodFileMounter()
+        .addPySparkFiles(
+          mainAppResource, pySparkFiles, driverContainer.getName, resolvedDriverPodBuilder)
+        .build()
+    }
     Utils.tryWithResource(
         kubernetesClient
             .pods()
@@ -266,30 +284,36 @@ private[spark] class Client(
   }
 }
 
-private[spark] object Client {
+private[spark] object Client{
   def main(args: Array[String]): Unit = {
     val sparkConf = new SparkConf(true)
     val mainAppResource = args(0)
     val mainClass = args(1)
     val appArgs = args.drop(2)
     run(sparkConf, mainAppResource, mainClass, appArgs)
   }
-
   def run(
       sparkConf: SparkConf,
       mainAppResource: String,
       mainClass: String,
       appArgs: Array[String]): Unit = {
-    val sparkJars = sparkConf.getOption("spark.jars")
+    val isPython = mainAppResource.endsWith(".py")
+    val sparkJars = if (isPython) Array.empty[String] else {
+      sparkConf.getOption("spark.jars")
       .map(_.split(","))
       .getOrElse(Array.empty[String]) ++
       Option(mainAppResource)
         .filterNot(_ == SparkLauncher.NO_RESOURCE)
-        .toSeq
+        .toSeq }
     val launchTime = System.currentTimeMillis
     val sparkFiles = sparkConf.getOption("spark.files")
       .map(_.split(","))
       .getOrElse(Array.empty[String])
+    val pySparkFiles: Array[String] = if (isPython) {
+      appArgs(0) match {
+        case null => Array(mainAppResource)
+        case _ => mainAppResource +: appArgs(0).split(",")
+      }} else {Array.empty[String]}
     val appName = sparkConf.getOption("spark.app.name").getOrElse("spark")
     // The resource name prefix is derived from the application name, making it easy to connect the
     // names of the Kubernetes resources from e.g. Kubectl or the Kubernetes dashboard to the
@@ -302,12 +326,17 @@ private[spark] object Client {
     val namespace = sparkConf.get(KUBERNETES_NAMESPACE)
     val master = resolveK8sMaster(sparkConf.get("spark.master"))
     val sslOptionsProvider = new ResourceStagingServerSslOptionsProviderImpl(sparkConf)
+    // No reason to distribute python files that are locally baked into Docker image
+    def filterByFile(pFiles: Array[String]) : Array[String] = {
+      val LocalPattern = "(local://)(.*)"
+      pFiles.filter(fi => !(fi matches LocalPattern))
+    }
     val initContainerComponentsProvider = new DriverInitContainerComponentsProviderImpl(
         sparkConf,
         kubernetesResourceNamePrefix,
         namespace,
         sparkJars,
-        sparkFiles,
+        sparkFiles ++ filterByFile(pySparkFiles),
         sslOptionsProvider.getSslOptions)
     Utils.tryWithResource(SparkKubernetesClientFactory.createKubernetesClient(
         master,
@@ -328,11 +357,14 @@ private[spark] object Client {
           appName,
           kubernetesResourceNamePrefix,
           kubernetesAppId,
+          mainAppResource,
+          isPython,
           mainClass,
           sparkConf,
           appArgs,
           sparkJars,
           sparkFiles,
+          pySparkFiles.toList,
           waitForAppCompletion,
           kubernetesClient,
           initContainerComponentsProvider,

diff --git a/...ala/org/apache/spark/deploy/kubernetes/submit/DriverInitContainerComponentsProvider.scala b/...ala/org/apache/spark/deploy/kubernetes/submit/DriverInitContainerComponentsProvider.scala
@@ -41,6 +41,8 @@ private[spark] trait DriverInitContainerComponentsProvider {
       maybeSubmittedResourceSecrets: Option[SubmittedResourceSecrets])
       : Option[SubmittedDependencySecretBuilder]
   def provideInitContainerBootstrap(): SparkPodInitContainerBootstrap
+  def provideDriverPodFileMounter(): DriverPodKubernetesFileMounter
+
 }
 
 private[spark] class DriverInitContainerComponentsProviderImpl(
@@ -202,4 +204,7 @@ private[spark] class DriverInitContainerComponentsProviderImpl(
         configMapKey,
         resourceStagingServerSecretPlugin)
   }
+  override def provideDriverPodFileMounter(): DriverPodKubernetesFileMounter = {
+    new DriverPodKubernetesFileMounterImpl(filesDownloadPath)
+  }
 }
diff --git a/...main/scala/org/apache/spark/deploy/kubernetes/submit/DriverPodKubernetesFileMounter.scala b/...main/scala/org/apache/spark/deploy/kubernetes/submit/DriverPodKubernetesFileMounter.scala
@@ -0,0 +1,74 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+package org.apache.spark.deploy.kubernetes.submit
+
+import io.fabric8.kubernetes.api.model.{Container, PodBuilder}
+
+import org.apache.spark.deploy.kubernetes.constants._
+
+ /**
+  * Trait that is responsible for providing full file-paths dynamically after
+  * the filesDownloadPath has been defined. The file-names are then stored in the
+  * environmental variables in the driver-pod.
+  */
+private[spark] trait DriverPodKubernetesFileMounter {
+  def addPySparkFiles(mainAppResource: String, pythonFiles: List[String],
+    mainContainerName: String, originalPodSpec: PodBuilder) : PodBuilder
+}
+
+private[spark] class DriverPodKubernetesFileMounterImpl(filesDownloadPath: String)
+  extends DriverPodKubernetesFileMounter {
+  val LocalPattern = "(local://)(.*)".r
+  val FilePattern = "(file:/)(.*)".r
+  def getName(file: String, separatorChar: Char) : String = {
+    val index: Int = file.lastIndexOf(separatorChar)
+    file.substring(index + 1)
+  }
+  def fileLoc(file: String) : String = file match {
+    case "" => ""
+    case LocalPattern(_, file_name) => file_name
+    case FilePattern(_, file_name) => filesDownloadPath + "/" + getName(file_name, '/')
+    case _ => filesDownloadPath + "/" + getName(file, '/')
+  }
+  def pythonFileLocations(pFiles: List[String], mainAppResource: String) : String = {
+    def recFileLoc(file: List[String]): List[String] = file match {
+      case Nil => List.empty[String]
+      case a::b => a match {
+        case _ if a==mainAppResource => recFileLoc(b)
+        case _ => fileLoc(a) +: recFileLoc(b)
+      }
+  }
+    recFileLoc(pFiles).mkString(",")
+  }
+  override def addPySparkFiles(mainAppResource: String, pythonFiles: List[String],
+                               mainContainerName: String,
+                               originalPodSpec: PodBuilder): PodBuilder = {
+    originalPodSpec
+      .editSpec()
+      .editMatchingContainer(new ContainerNameEqualityPredicate(mainContainerName))
+      .addNewEnv()
+      .withName(ENV_PYSPARK_PRIMARY)
+      .withValue(fileLoc(mainAppResource))
+      .endEnv()
+      .addNewEnv()
+      .withName(ENV_PYSPARK_FILES)
+      .withValue(pythonFileLocations(pythonFiles, mainAppResource))
+      .endEnv()
+      .endContainer()
+      .endSpec()
+  }
+}
diff --git a/...ernetes/core/src/test/scala/org/apache/spark/deploy/kubernetes/submit/ClientV2Suite.scala b/...ernetes/core/src/test/scala/org/apache/spark/deploy/kubernetes/submit/ClientV2Suite.scala
@@ -301,11 +301,14 @@ class ClientV2Suite extends SparkFunSuite with BeforeAndAfter {
       APP_NAME,
       APP_RESOURCE_PREFIX,
       APP_ID,
+      null,
+      false,
       MAIN_CLASS,
       SPARK_CONF,
       APP_ARGS,
       SPARK_JARS,
       SPARK_FILES,
+      null,
       true,
       kubernetesClient,
       initContainerComponentsProvider,
@@ -386,11 +389,14 @@ class ClientV2Suite extends SparkFunSuite with BeforeAndAfter {
       APP_NAME,
       APP_RESOURCE_PREFIX,
       APP_ID,
+      null,
+      false,
       MAIN_CLASS,
       SPARK_CONF,
       APP_ARGS,
       SPARK_JARS,
       SPARK_FILES,
+      null,
       false,
       kubernetesClient,
       initContainerComponentsProvider,

diff --git a/resource-managers/kubernetes/docker-minimal-bundle/src/main/docker/driver-py/Dockerfile b/resource-managers/kubernetes/docker-minimal-bundle/src/main/docker/driver-py/Dockerfile
@@ -0,0 +1,48 @@
+#
+# Licensed to the Apache Software Foundation (ASF) under one or more
+# contributor license agreements.  See the NOTICE file distributed with
+# this work for additional information regarding copyright ownership.
+# The ASF licenses this file to You under the Apache License, Version 2.0
+# (the "License"); you may not use this file except in compliance with
+# the License.  You may obtain a copy of the License at
+#
+#    http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+#
+
+FROM spark-base
+
+# If this docker file is being used in the context of building your images from a Spark distribution, the docker build
+# command should be invoked from the top level directory of the Spark distribution. E.g.:
+# docker build -t spark-driver-py:latest -f dockerfiles/driver-py/Dockerfile .
+
+ADD examples /opt/spark/examples
+ADD python /opt/spark/python
+
+RUN apk add --no-cache python && \
+    python -m ensurepip && \
+    rm -r /usr/lib/python*/ensurepip && \
+    pip install --upgrade pip setuptools && \
+    rm -r /root/.cache
+# UNCOMMENT THE FOLLOWING TO START PIP INSTALLING PYTHON PACKAGES
+# RUN apk add --update alpine-sdk python-dev
+# RUN pip install numpy
+
+ENV PYTHON_VERSION 2.7.13
+ENV PYSPARK_PYTHON python
+ENV PYSPARK_DRIVER_PYTHON python
+ENV PYTHONPATH ${SPARK_HOME}/python/:${SPARK_HOME}/python/lib/py4j-0.10.4-src.zip:${PYTHONPATH}
+
+CMD SPARK_CLASSPATH="${SPARK_HOME}/jars/*" && \
+    if ! [ -z ${SPARK_MOUNTED_CLASSPATH+x} ]; then SPARK_CLASSPATH="$SPARK_MOUNTED_CLASSPATH:$SPARK_CLASSPATH"; fi && \
+    if ! [ -z ${SPARK_SUBMIT_EXTRA_CLASSPATH+x} ]; then SPARK_CLASSPATH="$SPARK_SUBMIT_EXTRA_CLASSPATH:$SPARK_CLASSPATH"; fi && \
+    if ! [ -z ${SPARK_EXTRA_CLASSPATH+x} ]; then SPARK_CLASSPATH="$SPARK_EXTRA_CLASSPATH:$SPARK_CLASSPATH"; fi && \
+    if ! [ -z ${SPARK_MOUNTED_FILES_DIR} ]; then cp -R "$SPARK_MOUNTED_FILES_DIR/." .; fi && \
+    exec /sbin/tini -- ${JAVA_HOME}/bin/java $SPARK_DRIVER_JAVA_OPTS -cp $SPARK_CLASSPATH \
+    -Xms$SPARK_DRIVER_MEMORY -Xmx$SPARK_DRIVER_MEMORY \
+    $SPARK_DRIVER_CLASS $PYSPARK_PRIMARY $PYSPARK_FILES $SPARK_DRIVER_ARGS
-Original file line number
+Diff line change
@@ Expand Up @@
     This is a collaborative effort by several folks from different companies who are interested in seeing this feature be successful.  Companies active in this project include (alphabetically):
+    - Bloomberg
     - Google
     - Haiwen
     - Hyperpilot
@@ Expand Down @@