AWS 기술 블로그

NLB의 TCP idle timeout 설정 기능 소개

이 글은 AWS Networking & Content Delivery Blog에 게시된 Introducing NLB TCP configurable idle timeout by Tom Adamski, Milind Kulkarni 을 한국어로 번역 및 편집하였습니다.

이번 게시물에서는 전송 제어 프로토콜 (TCP) 흐름에 대한 AWS 네트워크 로드 밸런서 (NLB) 유휴 제한 시간 (idle timeout)을 설정하는 방법을 안내합니다.

NLB는 개방형 시스템 상호 연결(OSI) 모델의 레이어 4에서 작동하는 Amazon Web Services (AWS) Elastic Load Balancing 제품군 중 하나입니다. TCP 또는 사용자 데이터그램 프로토콜 (UDP)을 통해 클라이언트 연결을 관리하고 로드 밸런서의 타겟 그룹에 분산시킵니다.

NLB는 연결이 설정된 후 닫히거나 비활성화로 인해 유휴 제한 시간에 도달할 때까지 연결을 추적합니다. 기본적으로 TCP 연결의 유휴 제한 시간은 350초이며, UDP 연결의 시간 제한은 120초입니다.

이제 새로 추가된 TCP 유휴 제한 시간 설정을 통해 기존 및 새 NLB에 대해 이 속성을 수정하고 비활성 연결을 종료하기 전에 NLB가 대기해야 하는 시간을 결정할 수 있습니다.

TCP 연결 설정의 이해

자세히 알아보기 전에 TCP 프로토콜의 작동 원리를 간략히 살펴보겠습니다. 더 자세한 동작방식을 확인하려면 TCP RFC를 참조하세요.

그림 1. TCP 연결 설정 단계

TCP 연결은 연결 설정, 데이터 전송, 연결 종료 등 여러 단계를 거칩니다.

  1. 하프오픈 (Half Open): 클라이언트가 SYN을 보내고 서버가 응답하지만 핸드셰이크가 완료되지 않은 상태입니다.
  2. 연결됨 (Established): 3방향 핸드셰이크 (three-way handshake)가 완료된 상태.
  3. 데이터 전송( Data Transferred): 핸드셰이크가 완료되면 클라이언트와 서버 간에 데이터를 교환할 수 있습니다. 다이어그램의 이 섹션은 더 쉽게 읽을 수 있도록 명확하게 설명되어 있습니다.
  4. 연결종료 (Closed): 클라이언트가 FIN 패킷으로 종료를 요청하여 정상적으로 종료됩니다.

NLB의 TCP 연결 처리

NLB는 플로우 테이블 (flow table)에서 설정된 각 연결을 추적하는 레이어 4 프록시로 동작합니다. 클라이언트나 서버에 의해 한쪽만 열려 있거나 (half open), 정상적으로 닫혔거나, 재설정된 (reset) 연결은 추적되지 않습니다.

단일 연결은 프로토콜 종류 (TCP), 소스 IP 주소, 소스 포트, 대상 IP 주소 및 대상 포트를 포함하는 5 튜플로 정의됩니다.

그림2. NLB 구성 예제 아키텍처

기본적으로 클라이언트와 대상 간에 350초 동안 트래픽이 없는 경우 연결이 NLB 플로우 테이블에서 제거됩니다. 연결이 더 이상 추적되지 않은 후 클라이언트가 트래픽을 보내려고 시도하면 NLB는 새 연결을 설정해야 한다는 신호를 보내는 TCP RST로 응답합니다.

많은 애플리케이션의 경우 연결 시간 초과가 괜찮을 수 있지만 경우에 따라 문제가 발생할 수 있습니다. 예를 들어, 정기적으로 데이터를 전송하는 사물 인터넷 (IoT) 디바이스는 매번 소량만 전송할 수 있습니다. 데이터를 전송할 때마다 연결, 특히 암호화된 연결을 다시 열려면 리소스를 많이 사용하고 비용이 많이 들 수 있습니다.

연결 시간 초과를 방지하기 위해 미리 정의된 간격으로 설정된 연결을 통해 프로브 (probe)를 전송하는 TCP keepalive를 설정할 수 있습니다. 이 프로브에는 데이터가 포함되어 있지 않지만 NLB와 같은 중간 시스템에서 유휴 시간 타이머를 초기화하기에 충분합니다. TCP keepalive 설정에 대해 자세히 알아보려면 이전 포스팅을 참조하세요.

애플리케이션에 오래 지속되는 TCP 연결이 필요하지만 TCP keepalive를 사용할 수 없는 경우 NLB에서 TCP 유휴 제한 시간을 수정할 수 있습니다.

TCP 유휴 제한 시간을 변경할 때 고려사항

각 NLB 리스너에 대한 TCP 유휴 제한 시간은 60초에서 6000초 사이의 값으로 조정할 수 있습니다. 이 변경 사항은 이미 진행 중인 연결이 아닌 새 TCP 연결에만 영향을 미칩니다.

유휴 제한 시간 값을 설정하기 전에 애플리케이션의 요구 사항을 이해하고 TCP keepalive가 대안이 될 수 있는지 고려하세요. NLB TCP 유휴 제한 시간을 애플리케이션의 TCP 유휴 제한 시간보다 길게 설정하는 것이 가장 좋습니다. 이는 NLB 대신 애플리케이션에서 연결 관리 및 시간 초과를 처리한다는 의미입니다.

유휴 제한 시간을 너무 길게 설정하면 플로우 테이블이 가득 찰 위험이 높아집니다. 테이블이 가득 차면 NLB가 새 연결을 자동으로 거부하게 됩니다. 아래 모니터링 섹션에서 다룬 새로운 Amazon CloudWatch 메트릭을 사용하여 거부된 연결을 모니터링해야 합니다. 거부된 연결이 확인되면 TCP 유휴 제한 시간 값을 줄여야 한다는 뜻입니다.

AWS APIs/CLI 를 사용하여 TCP 유휴 제한 시간을 설정하는 단계

AWS는 NLB용 TCP 유휴 제한 시간 설정기능을 출시하면서 새로운 API를 추가했습니다. 다음 예제는 실제로 작동하는 API를 보여줍니다.

TCP 유휴 제한 시간에 대한 현재 값을 확인하기 위해 NLB 리스너 설정을 확인합니다.

입력:

aws elbv2 describe-listener-attributes \
    --listener-arns arn:aws:elasticloadbalancing:us-east-1:000011112222:listener/network/NLBTest/123/123

출력:

        {
            "Attributes": [         
                {
                   "Value": "350",
                   "Key": "tcp.idle_timeout.seconds"
                }
            ]
        }

TCP 유휴 제한 시간 값을 변경합니다.

입력:

aws elbv2 modify-listener-attributes \ 
    --listener-arn arn:aws:elasticloadbalancing:us-east-1:000011112222:listener/network/NLBTest/123/123 \
    --attributes \
        Key=tcp.idle_timeout.seconds,Value=600 

출력:

        {
            "Attributes": [       
                {
                   "Value": "600",
                   "Key": "tcp.idle_timeout.seconds"
                }
            ]
        }

AWS 관리 콘솔을 사용하여 TCP 유휴 제한 시간을 설정하는 단계

다음은 AWS 관리 콘솔을 사용하여 유휴 제한 시간 값을 변경하는 방법을 보여줍니다.

1. NLB TCP 리스너를 찾습니다.

그림3. NLB TCP 리스너

2. 속성 탭에서 현재 TCP 유휴 제한 시간 값을 확인합니다.

그림4. NLB 리스너 속성

3. 리스너 속성 편집 섹션에서 새로운 TCP 유휴 제한 시간 값을 입력합니다.

그림5. 유휴 제한 시간 설정

모니터링

NLB TCP 유휴 제한 시간 설정기능이 출시되면서 두 가지 새로운 메트릭이 도입되었습니다: RejectedFlowCount (플로우 테이블이 꽉 차서 거부된 총 플로우 수) 및 RejectedFlowCount_TCP (같은 이유로 거부된 TCP 플로우 수)입니다. 이러한 메트릭은 유휴 제한 시간 설정의 영향을 모니터링하는 데 도움이 됩니다.

NLB가 플로우를 거부하기 시작하는 시점을 알려주는 CloudWatch 알람을 설정하는 것이 좋습니다. RejectedFlowCount가 증가하면 제한 시간을 줄여야 함을 나타내므로 NLB가 흐름을 더 빨리 지우고 흐름 테이블이 가득 차는 것을 방지할 수 있습니다.

NewFlowCount, NewFlowCount_TCP, ActiveFlowCount 및 ActiveFlowCount_TCP와 같은 기존 NLB 메트릭은 변경되지 않고 그대로 유지됩니다.

결론

NLB에서 TCP 유휴 제한 시간을 설정하면 특히 연결이 오래 지속되는 애플리케이션의 경우 연결 관리를 더욱 효과적으로 제어할 수 있습니다. 유휴 제한 시간을 조정하고 관련 메트릭을 모니터링하여 NLB 성능을 최적화하고 잠재적인 연결 문제를 방지할 수 있습니다.

Hyeonseong Chang

Hyeonseong Chang

장현성 Sr. Technical Account Manager 는 고객들이 AWS 사용중 발생하는 문제 해결을 돕고 미션 크리티컬 시스템을 안정적이고 효율적으로 운영할수 있도록 아키텍처 모범사례와 비용 최적화 방법등의 기술지원을 하고 있습니다.