Алексей Никандров неформальный. Но в целом - через 30-40 минут плюс время переливания данных вылетевший сервер может быть поднят. Для потери данных нужен нескомпенсированный выход из строя 4 дисков.
Василий Романеев один рейд боевой, на другой идете ежесуточное копирование. При вылете трех дисков худший вариант - у нас диски от 2 часов ночи сегодняшнего дня.
Все базы бекапятся с xtrabackup отдельно в s3 и во внутренний hdfs раз в сутки. Бекапим так же все бинарные логи так же в s3 и hdfs. Все базы в течении 10 дней проверяются на возможность восстановления из бекапа. Пользуемся бекапами для создания реплик.
Бекапим ежечасно снепшоты базы pg_basebackup + wal на глубину в полгода. Файлохранилище бекапим раз в сутки. И то и другое примерно два раза в месяц проверяется с помощью убивания и разворачивания стенда из бекапа. Настройки серверов не бекапим, если что — накатываем из ansible.
Каждую ночь полный бекап бд/синк и rsync данных на резервный сервер. План восстановления: 1. Диски миррор на случай отказа диска 2. Резервный сервер готов стать боевым, все данные уже на нем. Запуск обкатан в процессе миграций между серверами
У нас всё 12-factor, поэтому бэкапятся только базы данных и пользовательские файлы. Файлов мало, живут они в minio, настроено зеркалирование в другой ДЦ. БД бэкапятся с горячих реплик. План есть, учения проводятся. Не учения тоже пару раз проводились, оба раза - когда новых джунов в базу запускали))
Comments