spark-dataframe- все статьи тега
Как я могу распараллелить цикл for в spark с scala?
Например, у нас есть файл parquet с ценой закрытия 2000 биржевых символов за последние 3 года, и мы хотим рассчитать 5-дневную скользящую среднюю для каждого символа. Поэтому я создаю spark SQLContext, а затем val marketData = sqlcontext.sql("select DATE, SYMBOL, PRICE from stockdata order by DATE").cache() Чтобы получить список символов, val symbols = marketData.select("SYMBOL").distinct().collect() А вот цикл for: for (symbol <- symbols) { marketData.filter(symbol).rdd.sliding( ...
Разница между DataFrame (в Spark 2.0 т. е. DataSet[Row]) и RDD в Spark
мне просто интересно, в чем разница между RDD и DataFrame(Spark 2.0.0 DataFrame - это просто псевдоним типа для Dataset[Row]) в Apache Spark? вы можете конвертировать один в другой? ...
Как я могу добавить новый столбец к таблице данных СПАРК (используя PySpark)?
У меня есть Spark DataFrame (используя PySpark 1.5.1) и хотел бы добавить новый столбец. Я пробовал следующее без всякого успеха: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) также получил ошибку, используя это: my_df_spark.withColumn("hours", sc.parallelize(randomed_hours)) Итак, как доб ...
Как добавить постоянный столбец в таблице данных СПАРК?
Я хочу добавить столбец в DataFrame С некоторым произвольным значением (то же самое для каждой строки). Я получаю сообщение об ошибке, когда я использую withColumn следующим образом: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, m ...
Извлечение значений столбцов фрейма данных в виде списка в Apache Spark
Я хотел бы преобразовать строковый столбец фрейма данных в список. Что я могу найти от Dataframe API-это RDD, поэтому я попытался сначала преобразовать его обратно в RDD, а затем применить toArray функция для RDD. В этом случае длина и SQL работают просто отлично. Однако результат, который я получил от RDD, имеет квадратные скобки вокруг каждого элемента, подобного этому [A00001]. Мне было интересно, если есть способ преобразовать столбец в список или способ снять квадратные скобки. любой предл ...