А что есть из NoSQL, куда бы можно было погрузить пару терабайт данных?



А что есть из NoSQL, куда бы можно было погрузить пару терабайт данных (сейчас они хранятся в MySQL, в одной таблице, и этого более чем достаточно, то есть структура не реляционная), где бы была репликация, и где бы хранение такого объема данных (и восстановление связей репликации) не вызывало бы такую боль (как процедура организации слэйва на таких объёмах) и расход ресурсов, как оно вызывает в RDBMS ? И это вопрос не на эрудицию и не про академические проекты - что успешно применяется в отрасли (в том смысле, что википедию я и сам могу почитать) ? Я из такого работал только с MongoDB, но там какие-то очень своеобразные разработчики и хочется менее хитровыструганной репликации - без нечетного количества узлов или арбитра. А в идеале еще и чтобы не было деления на primary/backup узлы.Follow-up: массив данных представляет собой набор координат, с несколькими идентификаторами и таймстампом. Паттерн доступа - постоянная дозапись с опциональной ротацией наиболее старых записей, и спорадические выборки по диапазонам идентификаторов в связке с таймстампом.
1000   47  

Comments

  1. Константин Герасименко
    Константин Герасименко 5 лет назад
    Hbase
    • Денис Габайдулин
      Денис Габайдулин 5 лет назад
      Konstantin Gerasimenko и бесплатно получить hadoop во владение
  2. Константин Герасименко
    Константин Герасименко 5 лет назад
    Cassandra
  3. Александр Крашенинников
    Александр Крашенинников 5 лет назад
    Вы ни слова не сказали про паттерны доступа к этим данным.
    • Иван Кузнецов
      Иван Кузнецов 5 лет назад
      Прошу прощения, добавил.
    • Сергей Зорченко
      Сергей Зорченко 5 лет назад
      В целом да- гадания на mysql. Но если одна таблица и хочет nosql, а основной вопрос про боль репликациии...
    • Иван Кузнецов
      Иван Кузнецов 5 лет назад
      Ну вот сейчас реплика почти неделю накатывается (есть определенное своеобразие в дисковой подсистеме). И это как-то уже за пределами добра и зла.
    • Вячеслав Бахмутов
      Вячеслав Бахмутов 5 лет назад
      Иван Кузнецов А почему так долго накатывается? Может стоит поэкспериментировать с конфигом мускуля? убрать фсинки, включить групп коммиты итд.
  4. Константин Герасименко
    Константин Герасименко 5 лет назад
    Elasticsearch
  5. Сергей Зорченко
    Сергей Зорченко 5 лет назад
    Кассандра?
  6. Кирилл Коринский
    Кирилл Коринский 5 лет назад
    У меня перед глазами есть elasticsearch на порядки большего размера чем у тебя.
  7. Кирилл Коринский
    Кирилл Коринский 5 лет назад
    Ага, вижу, добавил.
    • Денис Габайдулин
      Денис Габайдулин 5 лет назад
      Kirill A. Korinsky неужели его кто то использует кроме, как для метрик.
    • Илья Ширшов
      Илья Ширшов 5 лет назад
      Инфлюкс не советую. Но посмотреть на другие time-series можно
    • Кирилл Коринский
      Кирилл Коринский 5 лет назад
      Denis Gabaydulin у меня под ним несколько терабайт данных — особой боли нет.
    • Денис Габайдулин
      Денис Габайдулин 5 лет назад
      Kirill A. Korinsky статейку бы запил)
    • Илья Ширшов
      Илья Ширшов 5 лет назад
      Кирилл Коринский там с репликацией забавно ) может мы не нашли как готовить, конечно
    • Кирилл Коринский
      Кирилл Коринский 5 лет назад
      Ilya Sheershoff ну... с ней все там не очень, да.
    • Кирилл Коринский
      Кирилл Коринский 5 лет назад
      Denis Gabaydulin писать еще
    • Илья Ширшов
      Илья Ширшов 5 лет назад
      Кирилл Коринский не, в одну каску вполне вывозит, но с репликацией беда.
    • Юрий Шеляг
      Юрий Шеляг 5 лет назад
      Хм. У нас clickHouse для статистики через протокол influx-а. Судя по всему заменили.
  8. Vitaly Levchenko
    Vitaly Levchenko 5 лет назад
    Если нужно только хранить и реплицировать, то хоть в файлах + rsync.
    • Иван Кузнецов
      Иван Кузнецов 5 лет назад
      В этом случае нужно писать свою процедуру восхода солнца вручную. Это интересно, но контрпродуктивно.
    • Vitaly Levchenko
      Vitaly Levchenko 5 лет назад
      Иван, вот тут вы зря. Но если по сути, и вам действительно не нужно читать данные — попробуйте Кафку как сторадж.
  9. Юрий Насретдинов
    Юрий Насретдинов 5 лет назад
    Зависит от характера нагрузки на чтение. Если чтения почти не будет или же оно будет чтением сразу миллионов строк, то однозначно CliсkHouse. Но с апдейтами и делитами туго, хотя и возможно через ReplacingMergeTree и CollapsingMergeTree
  10. Денис Габайдулин
    Денис Габайдулин 5 лет назад
    Для паттерна где записи больше, чем чтения и надо постоянно дописывать конечно стоит выбирать lsm движок. Коих тут накидали уже гору.
  11. Константин Герасименко
    Константин Герасименко 5 лет назад
    Учитывая паттерн требований остаётся elasticsearch. Как мне кажется с ним меньше всего боли.
  12. Денис Габайдулин
    Денис Габайдулин 5 лет назад
    Если вот эти запросы на чтение больше похоже на аналитику (читаем много данных, на выходе немного данных), то лучше взять clickhouse или даже elastic.А если это oltp (читаем всегда немного данных, используем индекс/pk/cluster key) то сойдет и cassandra или aerospike. Гонять же аналитику на cassandra, да еще и на том же кластере куда идет интенсивная запись может быть больно.
  13. Алексей Никандров
    Алексей Никандров 5 лет назад
    https://www.couchbase.com
  14. Александр Петров
    Александр Петров 5 лет назад
    Как раз хотел напомнить про couchbase. С кластеризацией там красота просто.
  15. Yaroslav Rastrigin
    Yaroslav Rastrigin 5 лет назад
    (Shameless plug) https://tarantool.io , данные в виниле, выборки через lua .
  16. Max Vikharev
    Max Vikharev 5 лет назад
    просто в elk засунуть и логротейт. или clickhouse - он ваши терабайты пожмет раз в 10, если в elk то там еще кибана визуализацию даст полезную из коробки.
  17. Igor Podlesny
    Igor Podlesny 5 лет назад
    > сейчас они хранятся в MySQL, в одной таблице[…]> не вызывало бы такую боль (как процедура организации слэйва на таких объёмах
    • Вячеслав Бахмутов
      Вячеслав Бахмутов 5 лет назад
      Может MyRocks? ужмётся ещё в 10 раз от несжатого.
    • Igor Podlesny
      Igor Podlesny 5 лет назад
      Для NoSQL можно и ее, но у человека InnoDB уже есть, а переползать на новый движок несколько сложней, чем включить сжатие на используемом, который ее поддерживает.
    • Иван Кузнецов
      Иван Кузнецов 5 лет назад
      Со сжатием там такая смешная тема - mysql считает, что это несжимаемые данные (почти не жмёт), зато поблочное сжатие на zfs дало аж двойную компрессию. А шардированы они и так, это уже после шардирования боль. Без шардирования там был бы вообще болевой обморок.
    • Igor Podlesny
      Igor Podlesny 5 лет назад
      у мускуля 2 варианта сжатия, в пр-цпе. Какой?
    • Иван Кузнецов
      Иван Кузнецов 5 лет назад
      "MySQL implements compression with the help of the well-known zlib library, which implements the LZ77 compression algorithm." Где здесь два варианта ?
    • Igor Podlesny
      Igor Podlesny 5 лет назад
      Так я могу узнать, какой выбран? как сделано?<br /><img class="post-img" src="/upload/images/42530383_2112426485485512_6489816659384074240_o.jpg">
    • Иван Кузнецов
      Иван Кузнецов 5 лет назад
      Table compression конечно же.
    • Igor Podlesny
      Igor Podlesny 5 лет назад
      Странное "же", учитывая еще недавнее цитирование "где тут две?"
    • Иван Кузнецов
      Иван Кузнецов 5 лет назад
      Трэд превратился в беседу про ваше эго, как я вижу.
    • Igor Podlesny
      Igor Podlesny 5 лет назад
      «же» забыл
    • Иван Кузнецов
      Иван Кузнецов 5 лет назад
      "ЗабылИ", не стоит так быстро терять человеческий облик, хотя я думаю тут случай безнадёжный изначально. Мимикрия.
    • Igor Podlesny
      Igor Podlesny 5 лет назад
      какой батхерт, ааа… )
    • Иван Кузнецов
      Иван Кузнецов 5 лет назад
      При виде насекомого я всегда это чувство испытываю.
  18. Сергей Аксёнов
    Сергей Аксёнов 5 лет назад
    Посмотрев на паттерны использования - голосую за clickhouse.