Search

'Failover 동작원리'에 해당되는 글 1건

  1. 2014.12.08 클러스터 서비스 - 노드 및 리소스 관리

노드 관리자 (Node Manager)

=>약 1.2초 간격으로 Heartbeat을 전송하여 클러스터를 구성하는 노드의 정상 동작 여부를 체크하는 기능을 수행합니다.

=>자신이 현재 정상적으로 동작한다는 것을 서로 서로에게 알린다.

=>상대방 노드로부터  일정 시간 이상(약 6초 이상) Heartbeat이 전송되지 않으면 노드 관리자는 해당 노드에 오류가 발생했다고 생각한다. 이를 발견한 노드의 노드 관리자는 멀티캐스트 메시지를 전송하여 각 노드들이 보유하고 있는 현재 동작 중인 클러스터 노드 목록을 갱신하도록 하는데 이를 '재그룹 이벤트'라고 합니다.

=>노드 관리자는 크게 2가지 일을 합니다. 첫 번째 Heartbeat을 통한 노드 오류 감지, 두 번째는 특정 노드의 오류를 감지하였거나 노드가 재 시작 했을 경우 재그룹 이벤트를 통해 현재 동작 중인 노드 정보 목록을 갱신하는 일입니다.


구성원 관리자 (Membership Manager)

=>현 시점에서 동작 중인 클러스터 노드의 목록에 대한 정보를 저장하고, 일관성을 유지하는 일을 합니다.

=>노드 관리자에 의해 재 그룹 이벤트가 발생하면 모든 노드의 구성원 관리자는 오류가 발생한 노드를 클러스터 노드 목록에서 제거한다. 반대로 노드가 다시 시작하면 그 노드를 클러스터 노드 목록에 추가합니다.


장애 조치 관리자 (Failover Manager)

=>장애 조치와 관련된 모든 작업을 담당합니다.

=>노드 오류나 리소스 오류가 발생했을 경우 어떤 노드로 장애 조치를 통해 가상 서버를 재 시작할 것인지 결정합니다.