pyspark- все статьи тега


Доступ к Spark из приложения Flask

Я написал простое приложение Flask, чтобы передать некоторые данные в Spark. Скрипт работает в IPython Notebook, но не тогда, когда я пытаюсь запустить его на собственном сервере. Я не думаю, что контекст Spark работает в сценарии. Как заставить Spark работать в следующем примере? from flask import Flask, request from pyspark import SparkConf, SparkContext app = Flask(__name__) conf = SparkConf() conf.setMaster("local") conf.setAppName("SparkContext1") conf.set("spark.executor.memory", "1g ...

Как найти стандартное отклонение в столбце В RDD в PySpark

У меня есть RDD, и я хочу найти standard deviation в данных, которые являются одним из столбцов RDD. Мой текущий код: def extract(line): # line[11] is the column in which I want to find standard deviation return (line[1],line[2],line[5],line[6],line[8],line[10],line[11]) inputfile1 = sc.textFile('file1.csv').zipWithIndex().filter(lambda (line,rownum): rownum>=0).map(lambda (line, rownum): line) data = (inputfile1 .map(lambda line: line.split(";")) .filter(lambda line: len ...

PySpark python error: Exception: процесс Java gateway вышел перед отправкой драйверу его номера порта

Я использую PySpark с python 3, и я только что загрузил pyspark с командой conda install pyspark И его успешно загрузить, я импортировал файл в Jupyter Notebook , а затем попытался запустить следующий код sc1 = sp.SparkContext.getOrCreate() Я получаю следующее исключение Exception Traceback (most recent call last) <ipython-input-9-a4daca8dcb9d> in <module>() ----> 1 sc1 = sp.SparkContext.getOrCreate() ~Anaconda3libsite-packagespyspark ...

Преобразования эпохи на сегодняшний день в Elasticsearch СПАРК

У меня есть фрейм данных, который я записываю в ES Прежде чем писать в ES, я преобразую столбец EVTExit в дату, которая находится в эпохе. workset = workset.withColumn("EVTExit", to_date(from_unixtime($"EVTExit".divide(1000)))) workset.select("EVTExit").show(10) +----------+ | EVTExit| +----------+ |2014-06-03| |null | |2012-10-23| |2014-06-03| |2015-11-05| Как я вижу, это EVTExit преобразуется в дату. workset.write.format("org.elasticsearch.spark.sql").save("workset/workset1") Но ...

PySpark addPyFile добавить zip of.py файлы, но модуль все еще не найден

Использование addPyFiles(), похоже, не добавляет нужные файлы к узлам задания spark (new to spark so может отсутствовать некоторое базовое знание использования здесь). Пытался запустить скрипт с помощью pyspark и видел ошибки, что некоторые модули не найдены для импорта. Никогда не использовал spark раньше, но другие сообщения (из пакета в вопросе https://github.com/cerndb/dist-keras/issues/36#issuecomment-378918484 и https://stackoverflow.com/a/39779271/8236733 ) рекомендуется застегивать мод ...

Как я могу добавить новый столбец к таблице данных СПАРК (используя PySpark)?

У меня есть Spark DataFrame (используя PySpark 1.5.1) и хотел бы добавить новый столбец. Я пробовал следующее без всякого успеха: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) также получил ошибку, используя это: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Итак, как доб ...

Загрузите CSV-файл с помощью Spark

Я новичок в Spark, и я пытаюсь прочитать данные CSV из файла с Spark. Вот что я делаю : sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Я ожидал бы, что этот вызов даст мне список из двух первых столбцов моего файла, но я получаю эту ошибку: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out of range хотя мой CSV-файл в более чем один столбец. ...

Как добавить постоянный столбец в таблице данных СПАРК?

Я хочу добавить столбец в DataFrame С некоторым произвольным значением (то же самое для каждой строки). Я получаю сообщение об ошибке, когда я использую withColumn следующим образом: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, m ...

Как я могу установить Python версии драйвера в Искра?

Я использую spark 1.4.0-rc2, поэтому я могу использовать python 3 с spark. Если я добавлю export PYSPARK_PYTHON=python3 к моему .файл bashrc, я могу запустить spark в интерактивном режиме с python 3. Однако, если я хочу запустить автономную программу в локальном режиме, я получаю сообщение об ошибке: Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot run with different minor versions как я могу указать версию python для драйвера? Установка export ...