hadoop- все статьи тега
Искра Отправить Вопрос
Я пытаюсь запустить жирную банку на кластере искр, используя Spark submit. Я сделал кластер, используя исполняемый файл "spark-ec2" в Spark bundle на AWS. Команда, которую я использую для запуска файла jar, является bin/spark-submit --class edu.gatech.cse8803.main.Main --master yarn-cluster ../src1/big-data-hw2-assembly-1.0.jar Вначале это давало мне ошибку, что по крайней мере одна из переменных окружения HADOOP_CONF_DIR или YARN_CONF_DIR должна быть установлена. Я не знал, на что их настро ...
Системы Pentaho и Hadoop
Извините, если этот вопрос кажется наивным, но я новичок в области разработки данных, так как я сам обучаюсь прямо сейчас, однако мои вопросы-каковы различия между продуктами ETL, такими как Pentaho и Hadoop? когда я использую это вместо этого? или я могу использовать их вместе, как? Спасибо, ...
Hadoop-2.2.0 " похоже, что вы делаете HTTP-запрос к порту IPC Hadoop. "
Я новичок в hadoop.После того, как я установил hadoop-2.2.0 на single-node, я посетил url: localhost: 9000, он вернул следующий результат: Похоже, что вы делаете HTTP-запрос к порту IPC Hadoop. Это не правильный порт для веб-интерфейса на этом демоне. Я настроил свой основной сайт.xml, как показано ниже: <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> <description>The name of the defaultfile system. Either the ...
Что такое "Hadoop" - определение Hadoop?
Это отчасти очевидно, и мы все согласимся, что мы можем назвать HDFS + YARN + MapReduce как Hadoop. Но что происходит с различными другими комбинациями и другими продуктами в экосистемеHadoop ? Является ли, например, HDFS + YARN + Spark все еще Hadoop ? Есть HBASE Хадуп? я думаю, мы рассмотрим HDFS + YARN + Pig Hadoop , так какPig использует MapReduce. Являются только инструментыMapReduce , рассматриваемые Hadoop , но все остальное работает на HDFS + YARN (например Spark ) - это non Hadoop ? ...
Что такое ElasticSearch-Hadoop (es-hadoop) и его преимущества перед HBase для живого веб-приложения?
Мне не совсем ясно, что такое es-hadoop из описания . Является ли это просто "соединителем", который будет перемещать данные из вашего кластера ES в HDFS для Hadoop analytics? Если да,то почему бы просто не использовать HBase для текстовых запросов с низкой задержкой? Отличается ли es-Hadoop от обычной ES? Пожалуйста, некоторые разъяснения. Спасибо. ...
Восстановить таблицу HBase (неназначенная область в переходе)
Я немного застрял, восстанавливая неисправную таблицу (на Hbase 0.92.1-cdh4.0.0, Hadoop 2.0.0-cdh4.0.0) Есть область перехода, которая не заканчивается: Region State bf2025f4bc154914b5942af4e72ea063 counter_traces,1329773878.35_766a0b4df75e4381a686fbc07db9e333,1339425291230.bf2025f4bc154914b5942af4e72ea063. state=OFFLINE, ts=Tue Jun 12 11:43:53 CEST 2012 (0s ago), server=null Когда я запускаю sudo -u hbase hbase hbck -repair, я получаю следующее: Number of empty REGIONINFO_QUALIFIER r ...
команда hadoop fs-put
Я построил одноузловую среду Hadoop на CentOS, используя хранилище CDH Cloudera. Когда я хочу скопировать локальный файл в HDFS, я использую команду: sudo -u hdfs hadoop fs -put /root/MyHadoop/file1.txt / Но результат меня угнетал: put: '/root/MyHadoop/file1.txt': No such file or directory Я уверен, что этот файл существует. Пожалуйста, помогите мне,Спасибо! ...
Pig продолжает пытаться подключиться к серверу истории заданий (и терпит неудачу)
Я запускаю задание Pig, которое не может подключиться к серверу истории заданий Hadoop. Задача (обычно любая задача с GROUP BY) выполняется некоторое время, а затем начинается с сообщения типа: 2015-04-21 19:05:22,825 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server 2015-04-21 19:05:26,721 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020 ...
Первичные ключи с Apache Spark
У меня есть соединение JDBC с Apache Spark и PostgreSQL, и я хочу вставить некоторые данные в свою базу данных. Когда я использую режим append, мне нужно указать id для каждого DataFrame.Row. Существует ли какой-либо способ для Spark создавать первичные ключи? ...
Как изменить формат даты в улье?
В моей таблице в hive есть файл даты в формате '2016/06/01'. но я нахожу, что это не в ущерб формату "2016-06-01". Они не могут сравнивать, например. Оба они-струны . Поэтому я хочу знать, как сделать их в хармори и могу сравнить их. Или, с другой стороны, как изменить "2016/06/01" на "2016-06-01", чтобы их можно было сравнить. Большое спасибо. ...
Проблема с памятью при запуске Kafka broker
Я новичок в технологиях Кафки и Хадупа. Я пытался установить и запустить свой первый одиночный узел, кластер Single Broker на экземпляре виртуальной машины AWS EC2, я закончил с: 1) Установка java 2) Обновление ~/.bashrc and ~/.nash_profile файлов с записями, связанными с java 3) Возможность запуска внутреннего экземпляра zookeeper, но 4) Как только я пытаюсь запустить Kafka broker, он выдает мне следующее сообщение об ошибке: $ bin/kafka-server-start.sh config/server.properties Java H ...
В чем разница между Apache Spark и Apache Flink? [закрытый]
в чем разница между Apache Spark и Apache Flink? будет Apache Flink заменить Hadoop? ...
Когда использовать Hadoop, HBase, Hive и Pig?
каковы преимущества использования либо Hadoop или HBase или куст ? в моем понимании, HBase избегает использования map-reduce и имеет ориентированное на столбец хранилище поверх HDFS. куст - это SQL-подобный интерфейс для Hadoop и HBase. Я также хотел бы знать, как куст сравнивает с свинья. ...
Цепочка нескольких заданий MapReduce в Hadoop
во многих реальных ситуациях, когда вы применяете MapReduce, конечные алгоритмы заканчиваются несколькими шагами MapReduce. т. е. Map1 , Reduce1 , Map2 , Reduce2 и так далее. таким образом, у вас есть выход из последнего сокращения, который необходим в качестве входных данных для следующей карты. промежуточные данные-это то, что вы (в целом) не хотите хранить после успешного завершения конвейера. Также потому, что эти промежуточные данные в целом некоторые структура данных (например, "карта" ...
Имя узла находится в безопасном режиме. Не в состоянии уйти
root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. не в состоянии создать что-либо в hdfs Я root# bin/hadoop fs -safemode leave но показывает safemode: Unknown command в чем проблема? решение ...
Как скопировать файл из HDFS в локальную файловую систему
Как скопировать файл из HDFS в локальную файловую систему . Под файлом нет физического местоположения файла, даже каталога . как я могу переместить их в свой локальный для дальнейшей проверки.я пробовал через WinSCP . ...
Разница между внутренними таблицами улья и внешними таблицами?
может ли кто-нибудь сказать мне разницу между внешней таблицей улья и внутренними таблицами. Я знаю, что разница возникает при падении таблицы. Я не понимаю, что вы подразумеваете под тем, что данные и метаданные удаляются во внутренних и только метаданные удаляются во внешних таблицах. Может кто-нибудь объяснить мне с точки зрения узлов, пожалуйста. ...
Spark-загрузить CSV-файл в качестве фрейма данных?
Я хотел бы прочитать CSV в spark и преобразовать его в виде фрейма данных и сохранить его в HDFS с df.registerTempTable("table_name") Я пробовал: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") ошибка, которую я получил: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.sp ...
Крупномасштабная обработка данных Hbase vs Cassandra [закрыто]
Я почти приземлился в Кассандре после моих исследований в области крупномасштабных решений для хранения данных. Но его вообще сказал, что Hbase является лучшим решением для крупномасштабной обработки данных и анализа. хотя оба являются одним и тем же хранилищем ключей/значений, и оба они/могут работать (недавно Cassandra) Hadoop layer, то что делает Hadoop лучшим кандидатом при обработке/анализе требуется для больших данных. Я также нашел хорошие подробности об обоих на http://ria101.wordpres ...
какая разница между "Hadoop с ФС" команды Shell и "файловая система HDFS ДПП" команды оболочки?
они должны быть равны? но, почему "hadoop fs" команды показывают hdfs files в то время как "hdfs dfs" команды показывают локальные файлы? вот информация о версии hadoop: Hadoop 2.0.0-mr1-cdh4.2.1 Subversion git://ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0-mr1-cdh4.2.1/source - r составлено Дженкинсом в понедельник 22 апреля 10:48: 26 PDT 2013 ...