Skip to content

PostgreSQL High-Availability кластер с защитой от split-brain и без потери данных. Установка на Rocky (CentOS) Linux 8.5, RedHat Linux 8.5, Oracle Linux 8.5

Notifications You must be signed in to change notification settings

AlexanderRezaev/PostgreSQL-HA

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Кластер PostgreSQL высокой доступности без потери транзакций и с защитой от split-brain.


Замечание

Понятие кластеризации несколько шире (см https://gitlab.com/gitlab-com/gl-infra/infrastructure/-/issues/7282)

Можно ли быть недоступным в течение определенных периодов времени или лучше быть (почти) всегда доступным, терпя при этом определенную потерю данных?

PostgreSQL поддерживает три возможных компромисса между согласованностью (C) и доступностью (A):

Асинхронный. Предпочитает A, а не C. Это наиболее часто используемый режим. Наиболее нетребовательный к ресурсам. Предполагает наличие минимум 2-х узлов.

Синхронный. Предпочитает C, а не A. Доступность ниже, чем на одном узле. Любой отказавший синхронный узел вызывает недоступность кластера до тех пор, пока он не вернется в исходное состояние или не будет заменен. Из-за этого это редко применяется. Предполагает наличие минимум 2-х узлов.

Полусинхронный. Некоторые узлы синхронны, остальные асинхронны. Предполагает наличие минимум 3-х узлов.

Выбор кластеризации определяется в первую очередь бизнесом.

Далее рассматривается построение кластера PostgreSQL высокой доступности без потери закоммиченных данных (предпочтение согласованности) и с защитой от split-brain.

https://en.wikipedia.org/wiki/Split-brain_(computing)

Современные коммерческие кластеры высокой доступности общего назначения обычно используют комбинацию пульса (heartbeat) между узлами кластера и хранилища-свидетеля кворума (quorum). Проблема с двухузловыми кластерами заключается в том, что добавление устройства-свидетеля увеличивает стоимость и сложность (даже если оно реализовано в облаке), но без него в случае сбоя heartbeat члены кластера не могут определить, какое из них должно быть активным. В таких кластерах (без кворума) в случае сбоя члена, даже если члены имеют первичный и вторичный статус, существует по крайней мере 50% вероятность того, что кластер высокой доступности с 2 узлами полностью выйдет из строя, пока не будет обеспечено вмешательство человека, чтобы предотвратить активацию нескольких членов независимо друг от друга и, следовательно, несоответствие или повреждение данных.

Введение

Разница между отказоустойчивостью и высокой доступностью заключается в том, что отказоустойчивая среда не имеет прерывания обслуживания, но имеет значительно более высокую стоимость, тогда как среда высокой доступности имеет минимальное прерывание обслуживания.

Термин "минимальное прерывание обслуживания" понятие растяжимое, поэтому рассматривались все варианты реализации высокой доступности, начиная с простого бэкапирования.

\1. Непрерывное архивирование и восстановление на момент времени (Point-in-Time Recovery, PITR) https://postgrespro.ru/docs/postgresql/10/continuous-archiving

\2. В документации PostgreSQL есть описание и краткое сравнение различных решений высокой доступности https://postgrespro.ru/docs/postgresql/10/different-replication-solutions

  • Отказоустойчивость на разделяемых дисках
  • Репликация на уровне файловой системы (блочного устройства)
  • Трансляция журнала предзаписи
  • Асинхронная репликация
  • Синхронная репликация

В результате поисков в Интернет были отброшены практически все описанные варианты (либо из-за потери транзакций, либо из-за отсутствия надёжной и простой защиты от split-brain, либо из-за того и другого одновременно).

Единственный вариант, который обладает и защитой от потери закоммиченных транзакций, и защитой от split-brain, это синхронная репликация в режиме кворума.

https://postgrespro.ru/docs/postgresql/10/runtime-config-replication#GUC-SYNCHRONOUS-STANDBY-NAMES

synchronous_standby_names: 'ANY 1 ("pg-1","pg-2","pg-3")'

- синхронная потоковая репликацию на основе кворума, когда транзакции фиксируются только после того, как их записи в WAL реплицируются как минимум на 1 из ведомых серверов (кворум 2 из 3-х).

В данной конфигурации невозможен split-brain. Даже если два сервера объявят себя master, то работать сможет только один из них, т.к. для фиксации транзакции нужен ещё и slave, а slave будет работать только с одним master (определяется timeline https://habr.com/ru/company/pgdayrussia/blog/327750/).

Данная конфигурация позволяет перезагружать/останавливать/обслуживать любой узел с postgres не прерывая работы кластера.

Замечание

Также является важным параметр synchronous_commit

https://www.enterprisedb.com/blog/why-use-synchronous-replication-in-postgresql-configure-streaming-replication-wal

Когда произошел сбой, транзакции, которые находились на пути от walsender к процессу walreceiver, были потеряны.

Минимальные требования: synchronous_commit = on

https://postgrespro.ru/docs/postgresql/10/runtime-config-wal#GUC-SYNCHRONOUS-COMMIT

https://www.2ndquadrant.com/en/blog/evolution-fault-tolerance-postgresql-synchronous-commit/

synchronous_commit = off - коммиты отправляются в приложение, после того как транзакция обрабатывается внутренним процессом, но до того, как транзакция сброшена в WAL. Это означает, что даже один сервер гипотетически может потерять данные. Сама репликация игнорируется.

synchronous_commit = local - коммиты отправляются в приложение, как только данные сбрасываются в WAL на первичный узле. Сама репликация игнорируется. Думайте об этом, как смеси между выключенным и включенным, где он обеспечивает локальные WAL, игнорируя согласованность реплик.

synchronous_commit = remote_write - write коммиты отправляются в приложение после того, как операционная система резервных серверов, определенных в synchronous_standby_names, отправит подтверждение транзакций, отправленных основным Walsender. Это продвигает нас на шаг вперед.

synchronous_commit = on - коммиты отправляются в приложение, как только данные сбрасываются в WAL. Это применимо как к основному серверу в конфигурации с одним сервером, так и к резервным серверам при потоковой репликации. На самом деле это на один шаг дальше, чем remote_write, поскольку он обеспечивает фиксацию только после того, как он попал в резервный WAL.

synchronous_commit = remote_apply - подтверждение отправляет в приложение только после того, как резервные серверы, включенные в synchronous_standby_names, подтверждают, что транзакции были применены за пределами WAL к самой базе данных.

о производительности репликации

https://www.cybertec-postgresql.com/en/the-synchronous_commit-parameter/

"async on" - 4256 TPS (здесь 1 транзакция означает 3 обновления, 1 вставку, 1 выбор)

"async off" - 6211 TPS (+45% по сравнению с "async on")

"sync on" - 3329 TPS (-22% по сравнению со значением по умолчанию "async on")

"sync remote_write" - 3720 TPS (+12% по сравнению с "sync on")

"sync remote_apply" - 3055 TPS (-8% по сравнению с "sync on")

Для построения кластера также требуется определить единую точку входа. Проще всего это обеспечить через Cluster IP.

Вышеперечисленного достаточно, чтобы вручную построить кластер.


Для автоматической работы кластера требуется выполнение дополнительных действий: определение, в случае падения master, кто станет следующим master, а так же выполнение операций по перенастройке PostgreSQL на узлах, промоут роли в кластере, синхронизация реплики и запуск PostgreSQL. Всё это выливается в достаточно внушительный список операций.

Для выполнения всего перечисленного предпочтительнее использовать Patroni (https://github.com/zalando/patroni) - оркестратор работы высокодоступного кластера PostgreSQL (PostgreSQL High-Available Orchestrator)

Учитывая наличие в Patroni callback скриптов, достаточно просто реализовать Cluster IP https://patroni.readthedocs.io/en/latest/yaml_configuration.html?highlight=callbacks

Для работы Cluster IP в сегментированных корпоративных сетях используется ARP announcements https://en.wikipedia.org/wiki/Address_Resolution_Protocol#ARP_announcements (также используется стандартно в кластерах pgpool).

Службы безопасности часто требуют, чтобы данные кластера не передавались по сети в открытом виде (в базах данных часто хранится конфиденциальная информация). Проще всего использовать IPSEC https://ru.wikipedia.org/wiki/IPsec, https://habr.com/ru/companies/cloud4y/articles/680178/.
IPSEC никак не вмешивается в работу приложений и обеспечивает шифрацию сетевого трафика.
"IPSec ... работает на третьем или сетевом уровне OSI. В результате передаваемые IP-пакеты будут защищены прозрачным для сетевых приложений и инфраструктуры образом. В отличие от SSL (Secure Socket Layer), который работает на четвертом (транспортном) уровне и теснее связан с более высокими уровнями модели OSI, IPSec призван обеспечить низкоуровневую защиту."
В IPSEC используется протокол ESP (Encapsulating Security Payload) https://www.ibm.com/docs/ru/i/7.3?topic=protocols-encapsulating-security-payload
"В протоколе ESP применяется симметричный ключ, с помощью которого данные зашифровываются и расшифровываются конечными системами. Перед обменом данными отправитель и получатель должны согласовать ключ, который они будут применять. Поддерживает способы шифрования DES, тройной DES (3DES), AES, AES-CBC и AES-CTR."


В результате выполнения ansible скриптов
(https://github.com/AlexanderRezaev/PostgreSQL-HA/tree/master/ansible-pg-ha)
получаем PostgreSQL кластер:


root@c8-h1:~# patronictl --help
Usage: patronictl [OPTIONS] COMMAND [ARGS]...

Options:
  -c, --config-file TEXT  Configuration file
  -d, --dcs TEXT          Use this DCS
  -k, --insecure          Allow connections to SSL sites without certs
  --help                  Show this message and exit.

Commands:
  configure    Create configuration file
  dsn          Generate a dsn for the provided member, defaults to a dsn...
  edit-config  Edit cluster configuration
  failover     Failover to a replica
  flush        Discard scheduled events
  history      Show the history of failovers/switchovers
  list         List the Patroni members for a given Patroni
  pause        Disable auto failover
  query        Query a Patroni PostgreSQL member
  reinit       Reinitialize cluster member
  reload       Reload cluster member configuration
  remove       Remove cluster from DCS
  restart      Restart cluster member
  resume       Resume auto failover
  scaffold     Create a structure for the cluster in DCS
  show-config  Show cluster configuration
  switchover   Switchover to a replica
  topology     Prints ASCII topology for given cluster
  version      Output version of patronictl command or a running Patroni...


root@c8-h1:~# patronictl list
+--------+------------+---------+---------+----+-----------+
| Member | Host       | Role    | State   | TL | Lag in MB |
+ Cluster: c8-cls (7087222557044476438) --+----+-----------+
| c8-h1  | c8-h1:5434 | Replica | running |  5 |         0 |
| c8-h2  | c8-h2:5434 | Leader  | running |  5 |           |
| c8-h3  | c8-h3:5434 | Replica | running |  5 |         0 |
+--------+------------+---------+---------+----+-----------+

root@c8-h1:~# PGPASSWORD=secret psql -h c8-cls -p 5434 -U foo -d postgres -X -c "SELECT application_name,client_addr,usename,state,sync_state,sync_priority,write_lag,flush_lag,replay_lag FROM pg_stat_replication;"
 application_name |  client_addr   |  usename   |   state   | sync_state | sync_priority |    write_lag    |    flush_lag    |   replay_lag    
------------------+----------------+------------+-----------+------------+---------------+-----------------+-----------------+-----------------
 c8-h1            | 172.27.172.144 | clsreplica | streaming | quorum     |             1 | 00:00:00.000511 | 00:00:00.000763 | 00:00:00.000918
 c8-h3            | 172.27.172.146 | clsreplica | streaming | quorum     |             1 | 00:00:00.000488 | 00:00:00.000918 | 00:00:00.001007
(2 rows)


root@c8-h1:~# patronictl failover
Candidate ['c8-h1', 'c8-h3'] []: c8-h3
Current cluster topology
+--------+------------+---------+---------+----+-----------+
| Member | Host       | Role    | State   | TL | Lag in MB |
+ Cluster: c8-cls (7087222557044476438) --+----+-----------+
| c8-h1  | c8-h1:5434 | Replica | running |  5 |         0 |
| c8-h2  | c8-h2:5434 | Leader  | running |  5 |           |
| c8-h3  | c8-h3:5434 | Replica | running |  5 |         0 |
+--------+------------+---------+---------+----+-----------+
Are you sure you want to failover cluster c8-cls, demoting current master c8-h2? [y/N]: y
2022-04-26 11:04:47.42876 Successfully failed over to "c8-h3"
+--------+------------+---------+----------+----+-----------+
| Member | Host       | Role    | State    | TL | Lag in MB |
+ Cluster: c8-cls (7087222557044476438) ---+----+-----------+
| c8-h1  | c8-h1:5434 | Replica | running  |  5 |         0 |
| c8-h2  | c8-h2:5434 | Replica | stopping |    |   unknown |
| c8-h3  | c8-h3:5434 | Leader  | running  |  5 |           |
+--------+------------+---------+----------+----+-----------+

root@c8-h1:~# # запускаем через минуту
root@c8-h1:~# patronictl list
+--------+------------+---------+---------+----+-----------+
| Member | Host       | Role    | State   | TL | Lag in MB |
+ Cluster: c8-cls (7087222557044476438) --+----+-----------+
| c8-h1  | c8-h1:5434 | Replica | running |  6 |         0 |
| c8-h2  | c8-h2:5434 | Replica | running |  6 |         0 |
| c8-h3  | c8-h3:5434 | Leader  | running |  6 |           |
+--------+------------+---------+---------+----+-----------+

root@c8-h1:~# PGPASSWORD=secret psql -h c8-cls -p 5434 -U foo -d postgres -X -c "SELECT application_name,client_addr,usename,state,sync_state,sync_priority,write_lag,flush_lag,replay_lag FROM pg_stat_replication;"
 application_name |  client_addr   |  usename   |   state   | sync_state | sync_priority |    write_lag    |    flush_lag    |   replay_lag    
------------------+----------------+------------+-----------+------------+---------------+-----------------+-----------------+-----------------
 c8-h2            | 172.27.172.145 | clsreplica | streaming | quorum     |             1 | 00:00:00.000587 | 00:00:00.00243  | 00:00:00.002434
 c8-h1            | 172.27.172.144 | clsreplica | streaming | quorum     |             1 | 00:00:00.00243  | 00:00:00.002436 | 00:00:00.002436
(2 rows)

# Прямое подключение к кластеру PG
root@c8-h1:~# PGPASSWORD=secret psql -xtA -h c8-cls -p 5434 -U foo -d pgedb -c 'select hostname();' # postgres
hostname|c8-h3.lab.local

# Подключение через pgbouncer
root@c8-h1:~# PGPASSWORD=secret psql -xtA -h c8-cls -p 6432 -U foo -d pgedb -c 'select hostname();' | sed -n '1p' # pgbouncer
hostname|c8-h3.lab.local

# Подключение через pgpool.
# Настроена балансировка нагрузки read-only. Функция hostname() помечена как read-only.
root@c8-h1:~# PGPASSWORD=secret psql -xtA -h c8-cls -p 9999 -U foo -d pgedb -c 'select hostname();' | sed -n '1p' # pgpool
hostname|c8-h3.lab.local

root@c8-h1:~# PGPASSWORD=secret psql -xtA -h c8-cls -p 9999 -U foo -d pgedb -c 'select hostname();' | sed -n '1p' # pgpool
hostname|c8-h2.lab.local

root@c8-h1:~# PGPASSWORD=secret psql -xtA -h c8-cls -p 9999 -U foo -d pgedb -c 'select hostname();' | sed -n '1p' # pgpool
hostname|c8-h2.lab.local

root@c8-h1:~# PGPASSWORD=secret psql -xtA -h c8-cls -p 9999 -U foo -d pgedb -c 'select hostname();' | sed -n '1p' # pgpool
hostname|c8-h1.lab.local


# Проверка что ipsec работает. ESP - Encapsulating Security Payload.
root@c8-h1:~# ipsec whack --trafficstatus
006 #3: "conn_172.27.172.144_172.27.172.145", type=ESP, add_time=1650959754, inBytes=236435391, outBytes=3667199, id='@c8-h2.lab.local'
006 #4: "conn_172.27.172.144_172.27.172.146", type=ESP, add_time=1650959756, inBytes=944431, outBytes=586282, id='@c8-h3.lab.local'

Кластер под высокой нарузкой

Высокая нагрузка в кластере может сказаться на стабильности работы distributed configuration store (DCS) используемой в patroni. Обычно советуют вынести DCS на отдельные сервера. Рассмотрению альтернативы в виде cgroup v2 посвящено: https://github.com/AlexanderRezaev/PostgreSQL-HA/blob/master/cgroupv2.md

About

PostgreSQL High-Availability кластер с защитой от split-brain и без потери данных. Установка на Rocky (CentOS) Linux 8.5, RedHat Linux 8.5, Oracle Linux 8.5

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published