Системы Pentaho и Hadoop
Извините, если этот вопрос кажется наивным, но я новичок в области разработки данных, так как я сам обучаюсь прямо сейчас, однако мои вопросы-каковы различия между продуктами ETL, такими как Pentaho и Hadoop?
когда я использую это вместо этого? или я могу использовать их вместе, как?
Спасибо,
2 ответов:
ETL-это инструмент для извлечения данных, преобразования (объединения, обогащения, фильтрации,...) его и загрузить результат в другое хранилище данных. Хорошие ETL являются визуальными, хранят данные агностически и легко автоматизируются.
Hadoop-это хранилище данных, распределенное по сети кластеров плюс программное обеспечение для обработки разрозненных данных. Преобразование данных специализируется на нескольких элементарных операциях, которые могут быть оптимизированы для этого обычно огромного объема данных, таких как (но не только) Map-Reduce.Интегратор Данных Pentaho имеет разъемы к системам Hadoop, которые легко настроить и настроить. Так что лучшая стратегия состоит в том, чтобы установить Hadoop в сети, как хранилище данных и манипулировать им через ДПИ.
Pentaho PDI-это инструмент для создания, управления, запуска и мониторинга рабочих процессов ETL. Он может работать с Hadoop, СУБД, очередями, файлами и т. д. Hadoop-это платформа для распределенных вычислений (Map-Reduce framework, HDFS и т. д.). Многие инструменты могут работать на Hadoop или подключаться к Hadoop и использовать его данные, запускать процессы.
Pentaho PDI может подключаться к Hadoop с помощью собственных разъемов и записывать/считывать данные. Вы можете начать работу Hadopp с PDI, также он может обрабатывать данные самостоятельно внутри преобразование потока и хранить или отправлять результаты в HDFS, СУБД, некоторые очереди, электронную почту и т.д. Конечно, вы можете изобрести собственный инструмент для рабочих процессов ETL или просто использовать bash+Hive и т. д., Но PDI позволяет обрабатывать ETL единым способом, не зависящим от источников данных и целей. Также Пентахо обладает великолепной визуализацией.
Comments