ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Glue] Glue 옵션 파헤치기
    클라우드/Data Engineering 2025. 8. 12. 21:24

    1. DPU Hours (Data Processing Unit)

    - Glue에서 데이터를 처리하는 성능 단위

    - CPU + Mem + 네트워크 자원 패키지

    - 1 DPU = 4 vCPU + 16GB 

    -> Glue 작업이 돌아갈 때 얼마나 많은 CPU/메모리 자원을 쓸지

    -> DPU가 몇시간동안 일했는지? ex) 1 DPU 3시간 작업 -> 3 DPU Hours

     

    2. Worker

    - 작업을 수행하는 노드 (서버)

    - Glue Job이 실행될 때 AWS에서 임시로 띄우는 컴퓨팅 인스턴스

    - 인스턴스 안에는 CPU, 메모리, 네트워크 자원이 패키지로 제공

    - Worker 수를 늘리면 병렬 처리량이 늘고, Worker 타입을 키우면 한 번에 처리 가능한 데이터 크기가 커짐

    - 기본이 10

     

    3. Worker Type

    G.1X 4 vCPU / 16GB 기본 작업
    G.2X 8 vCPU / 32GB 무거운 ETL
    G.4X 16 vCPU / 64GB 대규모 데이터
    G.025X (Python Shell) 2 vCPU / 4GB 가벼운 스크립트

     

    4. Maximum Number of Workers

    - GLue가 쓸수 있는 작업자 수의 최대치

    - 한번에 동시에 돌릴 수 있는 worker 개수 제한하는 값

    -> 최대 몇명의 일꾼을 동시에 투입??

     

    5. Automatically Scale the Number of Workers

    - Glue가 작업량에 따라 자동으로 일꾼 수를 늘렸다 줄였다 하는 기능.

    - 데이터 양이 많으면 Worker를 늘리고, 적으면 줄여서 비용 절감.

     

    6. Maximum Concurrency

    - 동시에 실행할 수 있는 잡 인스턴스의 제한

    - 같은 잡을 여러번 호출할때 동시에 몇개까지 병렬 실행?

     

    7. 네트워크 방식

    - Glue 자체는 VPC에 속하지 않음.

    - VPC 리소스 접근이 필요할 때만 VPC 연결 모드로 실행 → 이 경우 Glue가 지정한 서브넷에 ENI를 만들어서 내부망에 연결 -> 이떄 네트워크 커넥션을 추가하는것!

    - S3처럼 퍼블릭 엔드포인트가 있는 리소스만 쓴다면 Subnet 지정이 필요 없음.

     

     

    '클라우드 > Data Engineering' 카테고리의 다른 글

    [Glue] Session / Context 개념 정리  (0) 2025.10.11
    [Glue] 데이터 처리 개념 정리  (0) 2025.10.11
Designed by Tistory.