hadoop- все статьи тега


Искра Отправить Вопрос

Я пытаюсь запустить жирную банку на кластере искр, используя Spark submit. Я сделал кластер, используя исполняемый файл "spark-ec2" в Spark bundle на AWS. Команда, которую я использую для запуска файла jar, является bin/spark-submit --class edu.gatech.cse8803.main.Main --master yarn-cluster ../src1/big-data-hw2-assembly-1.0.jar Вначале это давало мне ошибку, что по крайней мере одна из переменных окружения HADOOP_CONF_DIR или YARN_CONF_DIR должна быть установлена. Я не знал, на что их настро ...

Системы Pentaho и Hadoop

Извините, если этот вопрос кажется наивным, но я новичок в области разработки данных, так как я сам обучаюсь прямо сейчас, однако мои вопросы-каковы различия между продуктами ETL, такими как Pentaho и Hadoop? когда я использую это вместо этого? или я могу использовать их вместе, как? Спасибо, ...

Hadoop-2.2.0 " похоже, что вы делаете HTTP-запрос к порту IPC Hadoop. "

Я новичок в hadoop.После того, как я установил hadoop-2.2.0 на single-node, я посетил url: localhost: 9000, он вернул следующий результат: Похоже, что вы делаете HTTP-запрос к порту IPC Hadoop. Это не правильный порт для веб-интерфейса на этом демоне. Я настроил свой основной сайт.xml, как показано ниже: <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> <description>The name of the defaultfile system. Either the ...

Что такое "Hadoop" - определение Hadoop?

Это отчасти очевидно, и мы все согласимся, что мы можем назвать HDFS + YARN + MapReduce как Hadoop. Но что происходит с различными другими комбинациями и другими продуктами в экосистемеHadoop ? Является ли, например, HDFS + YARN + Spark все еще Hadoop ? Есть HBASE Хадуп? я думаю, мы рассмотрим HDFS + YARN + Pig Hadoop , так какPig использует MapReduce. Являются только инструментыMapReduce , рассматриваемые Hadoop , но все остальное работает на HDFS + YARN (например Spark ) - это non Hadoop ? ...

Что такое ElasticSearch-Hadoop (es-hadoop) и его преимущества перед HBase для живого веб-приложения?

Мне не совсем ясно, что такое es-hadoop из описания . Является ли это просто "соединителем", который будет перемещать данные из вашего кластера ES в HDFS для Hadoop analytics? Если да,то почему бы просто не использовать HBase для текстовых запросов с низкой задержкой? Отличается ли es-Hadoop от обычной ES? Пожалуйста, некоторые разъяснения. Спасибо. ...

Восстановить таблицу HBase (неназначенная область в переходе)

Я немного застрял, восстанавливая неисправную таблицу (на Hbase 0.92.1-cdh4.0.0, Hadoop 2.0.0-cdh4.0.0) Есть область перехода, которая не заканчивается: Region State bf2025f4bc154914b5942af4e72ea063 counter_traces,1329773878.35_766a0b4df75e4381a686fbc07db9e333,1339425291230.bf2025f4bc154914b5942af4e72ea063. state=OFFLINE, ts=Tue Jun 12 11:43:53 CEST 2012 (0s ago), server=null Когда я запускаю sudo -u hbase hbase hbck -repair, я получаю следующее: Number of empty REGIONINFO_QUALIFIER r ...

команда hadoop fs-put

Я построил одноузловую среду Hadoop на CentOS, используя хранилище CDH Cloudera. Когда я хочу скопировать локальный файл в HDFS, я использую команду: sudo -u hdfs hadoop fs -put /root/MyHadoop/file1.txt / Но результат меня угнетал: put: '/root/MyHadoop/file1.txt': No such file or directory Я уверен, что этот файл существует. Пожалуйста, помогите мне,Спасибо! ...

Pig продолжает пытаться подключиться к серверу истории заданий (и терпит неудачу)

Я запускаю задание Pig, которое не может подключиться к серверу истории заданий Hadoop. Задача (обычно любая задача с GROUP BY) выполняется некоторое время, а затем начинается с сообщения типа: 2015-04-21 19:05:22,825 [main] INFO org.apache.hadoop.mapred.ClientServiceDelegate - Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server 2015-04-21 19:05:26,721 [main] INFO org.apache.hadoop.ipc.Client - Retrying connect to server: 0.0.0.0/0.0.0.0:10020 ...

Первичные ключи с Apache Spark

У меня есть соединение JDBC с Apache Spark и PostgreSQL, и я хочу вставить некоторые данные в свою базу данных. Когда я использую режим append, мне нужно указать id для каждого DataFrame.Row. Существует ли какой-либо способ для Spark создавать первичные ключи? ...

Как изменить формат даты в улье?

В моей таблице в hive есть файл даты в формате '2016/06/01'. но я нахожу, что это не в ущерб формату "2016-06-01". Они не могут сравнивать, например. Оба они-струны . Поэтому я хочу знать, как сделать их в хармори и могу сравнить их. Или, с другой стороны, как изменить "2016/06/01" на "2016-06-01", чтобы их можно было сравнить. Большое спасибо. ...

Проблема с памятью при запуске Kafka broker

Я новичок в технологиях Кафки и Хадупа. Я пытался установить и запустить свой первый одиночный узел, кластер Single Broker на экземпляре виртуальной машины AWS EC2, я закончил с: 1) Установка java 2) Обновление ~/.bashrc and ~/.nash_profile файлов с записями, связанными с java 3) Возможность запуска внутреннего экземпляра zookeeper, но 4) Как только я пытаюсь запустить Kafka broker, он выдает мне следующее сообщение об ошибке: $ bin/kafka-server-start.sh config/server.properties Java H ...

В чем разница между Apache Spark и Apache Flink? [закрытый]

в чем разница между Apache Spark и Apache Flink? будет Apache Flink заменить Hadoop? ...

Когда использовать Hadoop, HBase, Hive и Pig?

каковы преимущества использования либо Hadoop или HBase или куст ? в моем понимании, HBase избегает использования map-reduce и имеет ориентированное на столбец хранилище поверх HDFS. куст - это SQL-подобный интерфейс для Hadoop и HBase. Я также хотел бы знать, как куст сравнивает с свинья. ...

Цепочка нескольких заданий MapReduce в Hadoop

во многих реальных ситуациях, когда вы применяете MapReduce, конечные алгоритмы заканчиваются несколькими шагами MapReduce. т. е. Map1 , Reduce1 , Map2 , Reduce2 и так далее. таким образом, у вас есть выход из последнего сокращения, который необходим в качестве входных данных для следующей карты. промежуточные данные-это то, что вы (в целом) не хотите хранить после успешного завершения конвейера. Также потому, что эти промежуточные данные в целом некоторые структура данных (например, "карта" ...

Имя узла находится в безопасном режиме. Не в состоянии уйти

root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. не в состоянии создать что-либо в hdfs Я root# bin/hadoop fs -safemode leave но показывает safemode: Unknown command в чем проблема? решение ...

Как скопировать файл из HDFS в локальную файловую систему

Как скопировать файл из HDFS в локальную файловую систему . Под файлом нет физического местоположения файла, даже каталога . как я могу переместить их в свой локальный для дальнейшей проверки.я пробовал через WinSCP . ...

Разница между внутренними таблицами улья и внешними таблицами?

может ли кто-нибудь сказать мне разницу между внешней таблицей улья и внутренними таблицами. Я знаю, что разница возникает при падении таблицы. Я не понимаю, что вы подразумеваете под тем, что данные и метаданные удаляются во внутренних и только метаданные удаляются во внешних таблицах. Может кто-нибудь объяснить мне с точки зрения узлов, пожалуйста. ...

Spark-загрузить CSV-файл в качестве фрейма данных?

Я хотел бы прочитать CSV в spark и преобразовать его в виде фрейма данных и сохранить его в HDFS с df.registerTempTable("table_name") Я пробовал: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") ошибка, которую я получил: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, 54, 10] at parquet.hadoop.ParquetFileReader.readFooter(ParquetFileReader.java:418) at org.apache.sp ...

Крупномасштабная обработка данных Hbase vs Cassandra [закрыто]

Я почти приземлился в Кассандре после моих исследований в области крупномасштабных решений для хранения данных. Но его вообще сказал, что Hbase является лучшим решением для крупномасштабной обработки данных и анализа. хотя оба являются одним и тем же хранилищем ключей/значений, и оба они/могут работать (недавно Cassandra) Hadoop layer, то что делает Hadoop лучшим кандидатом при обработке/анализе требуется для больших данных. Я также нашел хорошие подробности об обоих на http://ria101.wordpres ...

какая разница между "Hadoop с ФС" команды Shell и "файловая система HDFS ДПП" команды оболочки?

они должны быть равны? но, почему "hadoop fs" команды показывают hdfs files в то время как "hdfs dfs" команды показывают локальные файлы? вот информация о версии hadoop: Hadoop 2.0.0-mr1-cdh4.2.1 Subversion git://ubuntu-slave07.jenkins.cloudera.com/var/lib/jenkins/workspace/CDH4.2.1-Packaging-MR1/build/cdh4/mr1/2.0.0-mr1-cdh4.2.1/source - r составлено Дженкинсом в понедельник 22 апреля 10:48: 26 PDT 2013 ...