apache-spark- все статьи тега ➜ страница 2

Как остановить отображение информационных сообщений на консоли spark?

Я хотел бы остановить различные сообщения, которые приходят на spark shell. Я пытался изменить log4j.properties файл для остановки этих сообщений. вот содержание log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m% ...

759

24 июля 2019 г.

apache-spark spark-submit

Spark-загрузить CSV-файл в качестве фрейма данных?

Я хотел бы прочитать CSV в spark и преобразовать его в виде фрейма данных и сохранить его в HDFS с df.registerTempTable("table_name") Я пробовал: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") ошибка, которую я получил: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.sp ...

954

24 июля 2019 г.

scala hadoop hdfs apache-spark apache-spark-sql

Как я могу добавить новый столбец к таблице данных СПАРК (используя PySpark)?

У меня есть Spark DataFrame (используя PySpark 1.5.1) и хотел бы добавить новый столбец. Я пробовал следующее без всякого успеха: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) также получил ошибку, используя это: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Итак, как доб ...

1323

24 июля 2019 г.

python apache-spark pyspark apache-spark-sql spark-dataframe

Загрузите CSV-файл с помощью Spark

Я новичок в Spark, и я пытаюсь прочитать данные CSV из файла с Spark. Вот что я делаю : sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Я ожидал бы, что этот вызов даст мне список из двух первых столбцов моего файла, но я получаю эту ошибку: File "<ipython-input-60-73ea98550983>", line 1, in <lambda> IndexError: list index out of range хотя мой CSV-файл в более чем один столбец. ...

724

24 июля 2019 г.

python apache-spark pyspark csv

Как добавить постоянный столбец в таблице данных СПАРК?

Я хочу добавить столбец в DataFrame С некоторым произвольным значением (то же самое для каждой строки). Я получаю сообщение об ошибке, когда я использую withColumn следующим образом: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, m ...

718

24 июля 2019 г.

python dataframe apache-spark pyspark spark-dataframe

Spark-ошибка "основной URL должен быть установлен в вашей конфигурации" при отправке приложения

у меня есть приложение Spark,которое работает без проблем в локальном режиме, но есть некоторые проблемы при отправке в кластер Spark. ошибка msg выглядит следующим образом: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon.hasNext(Ite ...

756

24 июля 2019 г.

scala apache-spark

Как работает HashPartitioner?

Я прочитал в документации HashPartitioner. К сожалению, ничего особенного не было объяснено, кроме вызовов API. Я исхожу из предположения, что HashPartitioner разбивает распределенный набор на основе хэша ключей. Например, если мои данные как (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) таким образом, разделитель поместил бы это в разные разделы с одинаковыми ключами, попадающими в один и тот же раздел. Однако я не понимаю значение аргумента конструктора new HashPartitoner(numPartitions) //Wh ...

682

24 июля 2019 г.

scala apache-spark rdd

Может ли apache spark работать без hadoop?

существуют ли какие-либо зависимости между Искра и Hadoop? Если нет, есть ли какие-либо функции, которые я пропущу при запуске Искра без Hadoop? ...

996

24 июля 2019 г.

amazon-s3 hadoop apache-spark mapreduce

Запись на несколько выходов с помощью ключа Spark-одно задание Spark

как вы можете писать на несколько выходов, зависящих от ключа, используя Spark в одном задании. связанный: запись на несколько выходов с помощью ключа ошпаривания Hadoop, одно задание MapReduce например. sc.makeRDD(Seq((1, "a"), (1, "b"), (2, "c"))) .writeAsMultiple(prefix, compressionCodecOption) обеспечили бы cat prefix/1 - это a b и cat prefix/2 будет c ответ для точного ответа с полным импортом, pimp и кодеком сжатия см. https://stackoverflow.com/a/46118044/1586965 ...

665

24 июля 2019 г.

scala hadoop hdfs apache-spark output

Как пропустить заголовок из CSV-файлов в Spark?

предположим, я даю три пути файлов к контексту Spark для чтения, и каждый файл имеет схему в первой строке. Как мы можем пропустить строки схемы из заголовков? val rdd=sc.textFile("file1,file2,file3") теперь, как мы можем пропустить строки заголовка из этого rdd? ...

695

24 июля 2019 г.

scala apache-spark csv

Извлечение значений столбцов фрейма данных в виде списка в Apache Spark

Я хотел бы преобразовать строковый столбец фрейма данных в список. Что я могу найти от Dataframe API-это RDD, поэтому я попытался сначала преобразовать его обратно в RDD, а затем применить toArray функция для RDD. В этом случае длина и SQL работают просто отлично. Однако результат, который я получил от RDD, имеет квадратные скобки вокруг каждого элемента, подобного этому [A00001]. Мне было интересно, если есть способ преобразовать столбец в список или способ снять квадратные скобки. любой предл ...

1547

24 июля 2019 г.

scala apache-spark apache-spark-sql spark-dataframe

Как я могу установить Python версии драйвера в Искра?

Я использую spark 1.4.0-rc2, поэтому я могу использовать python 3 с spark. Если я добавлю export PYSPARK_PYTHON=python3 к моему .файл bashrc, я могу запустить spark в интерактивном режиме с python 3. Однако, если я хочу запустить автономную программу в локальном режиме, я получаю сообщение об ошибке: Exception: Python in worker has different version 3.4 than that in driver 2.7, PySpark cannot run with different minor versions как я могу указать версию python для драйвера? Установка export ...

710

24 июля 2019 г.

apache-spark pyspark