apache-spark- все статьи тега


Искра Отправить Вопрос

Я пытаюсь запустить жирную банку на кластере искр, используя Spark submit. Я сделал кластер, используя исполняемый файл "spark-ec2" в Spark bundle на AWS. Команда, которую я использую для запуска файла jar, является bin/spark-submit --class edu.gatech.cse8803.main.Main --master yarn-cluster ../src1/big-data-hw2-assembly-1.0.jar Вначале это давало мне ошибку, что по крайней мере одна из переменных окружения HADOOP_CONF_DIR или YARN_CONF_DIR должна быть установлена. Я не знал, на что их настро ...

Как создать SparkSession из существующего SparkContext

У меня есть приложение Spark, которое использует Spark 2.0 new API с SparkSession. Я строю это приложение поверх другого приложения, которое использует SparkContext. Я хотел бы передать SparkContext в мое приложение и инициализировать SparkSession, используя существующий SparkContext. Однако я не мог найти способ, как это сделать. Я обнаружил, что SparkSession конструктор с SparkContext является частным, поэтому я не могу инициализировать его таким образом, и builder не предлагает никакого мет ...

Как преобразовать байты из Кафки в их исходный объект?

Я извлекаю данные из Kafka, а затем десериализую Array[Byte], используя декодер по умолчанию, и после этого мои элементы RDD выглядят следующим образом (null,[B@406fa9b2), (null,[B@21a9fe0) но мне нужны мои исходные данные, которые имеют схему, так как я могу этого достичь? Я сериализирую сообщения в формате Avro. ...

Что такое "Hadoop" - определение Hadoop?

Это отчасти очевидно, и мы все согласимся, что мы можем назвать HDFS + YARN + MapReduce как Hadoop. Но что происходит с различными другими комбинациями и другими продуктами в экосистемеHadoop ? Является ли, например, HDFS + YARN + Spark все еще Hadoop ? Есть HBASE Хадуп? я думаю, мы рассмотрим HDFS + YARN + Pig Hadoop , так какPig использует MapReduce. Являются только инструментыMapReduce , рассматриваемые Hadoop , но все остальное работает на HDFS + YARN (например Spark ) - это non Hadoop ? ...

Как я могу распараллелить цикл for в spark с scala?

Например, у нас есть файл parquet с ценой закрытия 2000 биржевых символов за последние 3 года, и мы хотим рассчитать 5-дневную скользящую среднюю для каждого символа. Поэтому я создаю spark SQLContext, а затем val marketData = sqlcontext.sql("select DATE, SYMBOL, PRICE from stockdata order by DATE").cache() Чтобы получить список символов, val symbols = marketData.select("SYMBOL").distinct().collect() А вот цикл for: for (symbol <- symbols) { marketData.filter(symbol).rdd.sliding( ...

Доступ к Spark из приложения Flask

Я написал простое приложение Flask, чтобы передать некоторые данные в Spark. Скрипт работает в IPython Notebook, но не тогда, когда я пытаюсь запустить его на собственном сервере. Я не думаю, что контекст Spark работает в сценарии. Как заставить Spark работать в следующем примере? from flask import Flask, request from pyspark import SparkConf, SparkContext app = Flask(__name__) conf = SparkConf() conf.setMaster("local") conf.setAppName("SparkContext1") conf.set("spark.executor.memory", "1g ...

Как найти стандартное отклонение в столбце В RDD в PySpark

У меня есть RDD, и я хочу найти standard deviation в данных, которые являются одним из столбцов RDD. Мой текущий код: def extract(line): # line[11] is the column in which I want to find standard deviation return (line[1],line[2],line[5],line[6],line[8],line[10],line[11]) inputfile1 = sc.textFile('file1.csv').zipWithIndex().filter(lambda (line,rownum): rownum>=0).map(lambda (line, rownum): line) data = (inputfile1 .map(lambda line: line.split(";")) .filter(lambda line: len ...

Производительность программы Spark-GC & десериализация задач и параллельное выполнение

У меня есть кластер из 4 машин, 1 Мастер и три рабочих, каждый с памятью 128 г и 64 ядрами. Я использую Spark 1.5.0 в автономном режиме. Моя программа считывает данные из таблиц Oracle с помощью JDBC, затем делает ETL, манипулируя данными, и выполняет задачи машинного обучения, такие как k-means. У меня есть фрейм данных (myDF.cache ()), который объединяет результаты с двумя другими фреймами данных и кэшируется. Фрейм данных содержит 27 миллионов строк, а размер данных составляет около 1,5 G. ...

Как избежать того, чтобы Spark executor потерялся и контейнер пряжи убил его из-за ограничения памяти?

У меня есть следующий код, который срабатывает hiveContext.sql() большую часть времени. Моя задача состоит в том, чтобы создать несколько таблиц и вставить значения в после обработки для всех разделов таблицы hive. Поэтому я сначала запускаю show partitions и, используя его выход в цикле for, вызываю несколько методов, которые создают таблицу (если она не существует) и вставляют в них с помощью hiveContext.sql. Теперь мы не можем выполнить hiveContext в исполнителе, поэтому я должен выполнит ...

Первичные ключи с Apache Spark

У меня есть соединение JDBC с Apache Spark и PostgreSQL, и я хочу вставить некоторые данные в свою базу данных. Когда я использую режим append, мне нужно указать id для каждого DataFrame.Row. Существует ли какой-либо способ для Spark создавать первичные ключи? ...

Кэширование временных таблиц с помощью spark-sql

Является таблицей, зарегистрированной с помощью registerTempTable (createOrReplaceTempView с искрой 2.+) кэшируется? Используя Zeppelin, я регистрирую DataFrame в своем коде scala, после тяжелых вычислений, а затем в %pyspark я хочу получить к нему доступ и далее фильтровать его. Будет ли он использовать кэшированную в памяти версию таблицы? Или он будет перестраиваться каждый раз? ...

Преобразования эпохи на сегодняшний день в Elasticsearch СПАРК

У меня есть фрейм данных, который я записываю в ES Прежде чем писать в ES, я преобразую столбец EVTExit в дату, которая находится в эпохе. workset = workset.withColumn("EVTExit", to_date(from_unixtime($"EVTExit".divide(1000)))) workset.select("EVTExit").show(10) +----------+ | EVTExit| +----------+ |2014-06-03| |null | |2012-10-23| |2014-06-03| |2015-11-05| Как я вижу, это EVTExit преобразуется в дату. workset.write.format("org.elasticsearch.spark.sql").save("workset/workset1") Но ...

Apache Spark RDD фильтр на два RDDs

Мне нужно разделить RDD на 2 части: 1 часть, которая удовлетворяет условию; другая часть, которая не удовлетворяет. Я могу сделать filter дважды на оригинальном RDD, но это кажется неэффективным. Есть ли способ сделать то, что мне нужно? Я ничего не могу найти ни в API, ни в литературе. ...

СПАРК - передел() против объединиться()

Согласно учебной Искре Имейте в виду, что перераспределение данных-довольно дорогостоящая операция. Spark также имеет оптимизированную версию функции repartition () под названием coalesce (), которая позволяет избежать перемещения данных, но только при уменьшении числа разделов RDD. Одно отличие, которое я получаю, состоит в том, что с помощью repartition () количество разделов может быть увеличено/уменьшено, но с coalesce () количество разделов может быть только уменьшившийся. Если ра ...

Заменить значения NULL в таблице данных СПАРК

Я увидел здесь решение, но когда я попробовал, оно не работает для меня. Сначала я импортирую автомобили.csv-файл: val df = sqlContext.read .format("com.databricks.spark.csv") .option("header", "true") .load("/usr/local/spark/cars.csv") Который выглядит следующим образом: +----+-----+-----+--------------------+-----+ |year| make|model| comment|blank| +----+-----+-----+--------------------+-----+ |2012|Tesla| S| No comment| ...

Есть ли хороший способ присоединиться к потоку в spark с пеленальным столиком?

Наша искровая среда: DataBricks 4.2 (включает Apache Spark 2.3.1, Scala 2.11) Чего мы пытаемся достичь: Мы хотим обогатить потоковые данные некоторыми справочными данными, которые регулярно обновляются. Обогащение осуществляется путем соединения потока с эталонными данными. Что мы реализовали: Мы реализовали два искровых задания (jars): Первый-это обновление таблицы Spark TEST_TABLE каждый час (назовем ее "справочными данными") с помощью .писать.режим (SaveMode.Переписывать).saveAsTable ("TES ...

PySpark addPyFile добавить zip of.py файлы, но модуль все еще не найден

Использование addPyFiles(), похоже, не добавляет нужные файлы к узлам задания spark (new to spark so может отсутствовать некоторое базовое знание использования здесь). Пытался запустить скрипт с помощью pyspark и видел ошибки, что некоторые модули не найдены для импорта. Никогда не использовал spark раньше, но другие сообщения (из пакета в вопросе https://github.com/cerndb/dist-keras/issues/36#issuecomment-378918484 и https://stackoverflow.com/a/39779271/8236733 ) рекомендуется застегивать мод ...

В чем разница между Apache Spark и Apache Flink? [закрытый]

в чем разница между Apache Spark и Apache Flink? будет Apache Flink заменить Hadoop? ...

Разница между DataFrame (в Spark 2.0 т. е. DataSet[Row]) и RDD в Spark

мне просто интересно, в чем разница между RDD и DataFrame(Spark 2.0.0 DataFrame - это просто псевдоним типа для Dataset[Row]) в Apache Spark? вы можете конвертировать один в другой? ...

В чем разница между map и flatMap и хорошим вариантом использования для каждого?

может ли кто-нибудь объяснить мне разницу между картой и flatMap и что является хорошим вариантом использования для каждого? Что означает" сгладить результаты"? Для чего это хорошо? ...