А что есть из NoSQL, куда бы можно было погрузить пару терабайт данных?

Question

А что есть из NoSQL, куда бы можно было погрузить пару терабайт данных?

А что есть из NoSQL, куда бы можно было погрузить пару терабайт данных (сейчас они хранятся в MySQL, в одной таблице, и этого более чем достаточно, то есть структура не реляционная), где бы была репликация, и где бы хранение такого объема данных (и восстановление связей репликации) не вызывало бы такую боль (как процедура организации слэйва на таких объёмах) и расход ресурсов, как оно вызывает в RDBMS ? И это вопрос не на эрудицию и не про академические проекты - что успешно применяется в отрасли (в том смысле, что википедию я и сам могу почитать) ? Я из такого работал только с MongoDB, но там какие-то очень своеобразные разработчики и хочется менее хитровыструганной репликации - без нечетного количества узлов или арбитра. А в идеале еще и чтобы не было деления на primary/backup узлы.Follow-up: массив данных представляет собой набор координат, с несколькими идентификаторами и таймстампом. Паттерн доступа - постоянная дозапись с опциональной ротацией наиболее старых записей, и спорадические выборки по диапазонам идентификаторов в связке с таймстампом.

1062 47

Инструмены разработчика

nosql хранение данных

Comments

Reply

Константин Герасименко 5 лет назад

Hbase

Reply

Денис Габайдулин 5 лет назад

Konstantin Gerasimenko и бесплатно получить hadoop во владение

Reply

Константин Герасименко 5 лет назад

Cassandra

Reply

Александр Крашенинников 5 лет назад

Вы ни слова не сказали про паттерны доступа к этим данным.

Reply

Иван Кузнецов 5 лет назад

Прошу прощения, добавил.

Reply

Сергей Зорченко 5 лет назад

В целом да- гадания на mysql. Но если одна таблица и хочет nosql, а основной вопрос про боль репликациии...

Reply

Иван Кузнецов 5 лет назад

Ну вот сейчас реплика почти неделю накатывается (есть определенное своеобразие в дисковой подсистеме). И это как-то уже за пределами добра и зла.

Reply

Вячеслав Бахмутов 5 лет назад

Иван Кузнецов А почему так долго накатывается? Может стоит поэкспериментировать с конфигом мускуля? убрать фсинки, включить групп коммиты итд.

Reply

Константин Герасименко 5 лет назад

Elasticsearch

Reply

Сергей Зорченко 5 лет назад

Кассандра?

Reply

Кирилл Коринский 5 лет назад

У меня перед глазами есть elasticsearch на порядки большего размера чем у тебя.

Reply

Кирилл Коринский 5 лет назад

Ага, вижу, добавил.

Reply

Денис Габайдулин 5 лет назад

Kirill A. Korinsky неужели его кто то использует кроме, как для метрик.

Reply

Илья Ширшов 5 лет назад

Инфлюкс не советую. Но посмотреть на другие time-series можно

Reply

Кирилл Коринский 5 лет назад

Denis Gabaydulin у меня под ним несколько терабайт данных — особой боли нет.

Reply

Денис Габайдулин 5 лет назад

Kirill A. Korinsky статейку бы запил)

Reply

Илья Ширшов 5 лет назад

Кирилл Коринский там с репликацией забавно ) может мы не нашли как готовить, конечно

Reply

Кирилл Коринский 5 лет назад

Ilya Sheershoff ну... с ней все там не очень, да.

Reply

Кирилл Коринский 5 лет назад

Denis Gabaydulin писать еще

Reply

Илья Ширшов 5 лет назад

Кирилл Коринский не, в одну каску вполне вывозит, но с репликацией беда.

Reply

Юрий Шеляг 5 лет назад

Хм. У нас clickHouse для статистики через протокол influx-а. Судя по всему заменили.

Reply

Vitaly Levchenko 5 лет назад

Если нужно только хранить и реплицировать, то хоть в файлах + rsync.

Reply

Иван Кузнецов 5 лет назад

В этом случае нужно писать свою процедуру восхода солнца вручную. Это интересно, но контрпродуктивно.

Reply

Vitaly Levchenko 5 лет назад

Иван, вот тут вы зря. Но если по сути, и вам действительно не нужно читать данные — попробуйте Кафку как сторадж.

Reply

Юрий Насретдинов 5 лет назад

Зависит от характера нагрузки на чтение. Если чтения почти не будет или же оно будет чтением сразу миллионов строк, то однозначно CliсkHouse. Но с апдейтами и делитами туго, хотя и возможно через ReplacingMergeTree и CollapsingMergeTree

Reply

Денис Габайдулин 5 лет назад

Для паттерна где записи больше, чем чтения и надо постоянно дописывать конечно стоит выбирать lsm движок. Коих тут накидали уже гору.

Reply

Константин Герасименко 5 лет назад

Учитывая паттерн требований остаётся elasticsearch. Как мне кажется с ним меньше всего боли.

Reply

Денис Габайдулин 5 лет назад

Если вот эти запросы на чтение больше похоже на аналитику (читаем много данных, на выходе немного данных), то лучше взять clickhouse или даже elastic.А если это oltp (читаем всегда немного данных, используем индекс/pk/cluster key) то сойдет и cassandra или aerospike. Гонять же аналитику на cassandra, да еще и на том же кластере куда идет интенсивная запись может быть больно.

Reply

Алексей Никандров 5 лет назад

https://www.couchbase.com

Reply

Александр Петров 5 лет назад

Как раз хотел напомнить про couchbase. С кластеризацией там красота просто.

Reply

Yaroslav Rastrigin 5 лет назад

(Shameless plug) https://tarantool.io , данные в виниле, выборки через lua .

Reply

Max Vikharev 5 лет назад

просто в elk засунуть и логротейт. или clickhouse - он ваши терабайты пожмет раз в 10, если в elk то там еще кибана визуализацию даст полезную из коробки.

Reply

Igor Podlesny 5 лет назад

> сейчас они хранятся в MySQL, в одной таблице[…]> не вызывало бы такую боль (как процедура организации слэйва на таких объёмах

Reply

Вячеслав Бахмутов 5 лет назад

Может MyRocks? ужмётся ещё в 10 раз от несжатого.

Reply

Igor Podlesny 5 лет назад

Для NoSQL можно и ее, но у человека InnoDB уже есть, а переползать на новый движок несколько сложней, чем включить сжатие на используемом, который ее поддерживает.

Reply

Иван Кузнецов 5 лет назад

Со сжатием там такая смешная тема - mysql считает, что это несжимаемые данные (почти не жмёт), зато поблочное сжатие на zfs дало аж двойную компрессию. А шардированы они и так, это уже после шардирования боль. Без шардирования там был бы вообще болевой обморок.

Reply

Igor Podlesny 5 лет назад

у мускуля 2 варианта сжатия, в пр-цпе. Какой?

Reply

Иван Кузнецов 5 лет назад

"MySQL implements compression with the help of the well-known zlib library, which implements the LZ77 compression algorithm." Где здесь два варианта ?

Reply

Igor Podlesny 5 лет назад

Так я могу узнать, какой выбран? как сделано?<br /><img class="post-img" src="/upload/images/42530383_2112426485485512_6489816659384074240_o.jpg">

Reply

Иван Кузнецов 5 лет назад

Table compression конечно же.

Reply

Igor Podlesny 5 лет назад

Странное "же", учитывая еще недавнее цитирование "где тут две?"

Reply

Иван Кузнецов 5 лет назад

Трэд превратился в беседу про ваше эго, как я вижу.

Reply

Igor Podlesny 5 лет назад

«же» забыл

Reply

Иван Кузнецов 5 лет назад

"ЗабылИ", не стоит так быстро терять человеческий облик, хотя я думаю тут случай безнадёжный изначально. Мимикрия.

Reply

Igor Podlesny 5 лет назад

какой батхерт, ааа… )

Reply

Иван Кузнецов 5 лет назад

При виде насекомого я всегда это чувство испытываю.

Reply

Сергей Аксёнов 5 лет назад

Посмотрев на паттерны использования - голосую за clickhouse.