분류 전체보기
-
[따배쿠] Kubernets 개념 정리Kubernetes/쿠버네티스 기본개념 2025. 12. 1. 22:21
1. 쿠버네티스의 구조- 마스터(컨트롤 플레인): 클러스터의 두뇌. 상태 관리, 스케줄링, 제어.- 워커 노드: 실제로 파드(Pod)와 컨테이너가 돌아가는 손발 - 쿠버네티스의 동작 원리1) 애플리케이션을 컨테이너 이미지로 빌드2) 빌드된 컨테이너 이미지를 Docker 명령어를 사용해 Docker Hub 같은 이미지 레지스트리에 업로드3) kubectl 명령어 통해 클러스터에 해당 컨테이너 실행해달라고 컨트롤 플레인에 요청4) 컨트롤 플레인의 API Server는 이 요청을 수신한뒤, 어떤 워커노드에서 실행하는 것이 적절한지 Scheduler에 판단 요청5) Scheduler는 클러스터 상태와 리소스를 고려해 최적의 워커노드 선택하고, 그 결과를 API Server에 전달6) API Server는 선택된..
-
[Glue] Session / Context 개념 정리클라우드/Data Engineering 2025. 10. 11. 16:37
1. SparkSession (스파크 세션)- 실제 일을 하는 엔진- df.filter(), df.join(), df.write() 같은 DataFrame 연산을 하면, 이걸 실제로 실행하고 계산하는 게 SparkSession- 즉, Spark 안에서 데이터를 불러오고, 처리하고, 저장하는 모든 핵심 동작의 중심- Glue에서도 결국 SparkSession이 실제 연산을 수행2. GlueContext (글루 컨텍스트)- AWS Glue용 Spark 관리 도우미- AWS Glue Job에서 Spark를 더 쉽게 쓸 수 있도록 Glue 전용 도구를 제공합예를 들어:create_dynamic_frame.from_catalog() → Glue Data Catalog에서 데이터 불러오기write_dynamic_f..
-
[Glue] 데이터 처리 개념 정리클라우드/Data Engineering 2025. 10. 11. 16:17
1) Apache Spark- Spark란 빅데이터를 빠르게 처리하는 엔진임- 데이터를 여러 노드에 나눠서 병렬 처리 함- AWS Glue 내부에서도 ETL 작업을 실행할 때, Apache Spark가 자동으로 돌아가게됨Excel한 사람이 쓰는 계산기수천 행 정도 처리 가능Python + Pandas조금 빠른 계산기수십만~수백만 행까지 가능Spark수백 명이 동시에 계산하는 공장 시스템수억 행~수십억 행도 가능! 2) RDD (Resilient Distributed Dataset)- Spark에서 데이터를 가장 기초적으로 저장하는 단위- 분산(Distributed) 되어 있고, 복원 가능(Resilient)한 데이터 묶음(Dataset)이라는 뜻- 여러 서버에 나눠서 저장함- RDD는 계산 중 하나의 노..
-
[Glue] Glue 옵션 파헤치기클라우드/Data Engineering 2025. 8. 12. 21:24
1. DPU Hours (Data Processing Unit)- Glue에서 데이터를 처리하는 성능 단위- CPU + Mem + 네트워크 자원 패키지- 1 DPU = 4 vCPU + 16GB -> Glue 작업이 돌아갈 때 얼마나 많은 CPU/메모리 자원을 쓸지-> DPU가 몇시간동안 일했는지? ex) 1 DPU 3시간 작업 -> 3 DPU Hours 2. Worker- 작업을 수행하는 노드 (서버)- Glue Job이 실행될 때 AWS에서 임시로 띄우는 컴퓨팅 인스턴스- 인스턴스 안에는 CPU, 메모리, 네트워크 자원이 패키지로 제공- Worker 수를 늘리면 병렬 처리량이 늘고, Worker 타입을 키우면 한 번에 처리 가능한 데이터 크기가 커짐- 기본이 10 3. Worker TypeG.1X4 v..
-
[GenAI] LangGraph 튜토리얼클라우드/Generative AI 2025. 3. 16. 16:17
LangGraph란?LangGraph는 LangChain을 기반으로 하는 Graph 기반 워크플로우 라이브러리복잡한 LLM 흐름을 다룰 때 유용함.DAG(Directed Acyclic Graph) 기반으로 구성되어 LLM 애플리케이션을 모듈화 가능.상태(State) 관리가 가능하여 대화형 애플리케이션에 적합.LangGraph는 생성형 AI 애플리케이션을 구축하기 위한 프레임워크로, 특히 복잡한 추론 과정을 관리하는 데 도움을 주는 도구LLM(대규모 언어 모델)을 활용한 애플리케이션의 흐름을 상태 기계(state machine)로 모델링하고 관리할 수 있게 해줌LangGraph의 핵심 개념상태 기계(State Machine) 기반:애플리케이션의 흐름을 명확한 상태와 상태 간 전환으로 정의각 상태는 특정 작..
-
[DNS] DNS 문제 해결클라우드/AWS 2025. 1. 19. 20:44
상황- 어떤 서비스는 ec2 9대에 걸쳐 운영중- 네임서버는 가비아에 있고, Route53에 도메인이 호스팅되어 있는 상황- 갑자기 고객사측에서 접속이 안된다고 연락이 옴- 하지만 내가 접속해봤을때는 잘 되었음- 어떤 고객사는 잘 접속되고 어떤 고객사는 또 잘 접속이 안됨 트러블슈팅1. IP 문제는 아님, 왜냐면 ALB로 도메인이 열려있으며, 보안그룹은 ANY다2. nslookup 도메인- server cant find 도메인어쩌구가 나올때도 있고 어쩔땐 걍 잘 나오기도 한다..3. 통신사 문제?- 우리 회사 통신망은 KT망을 쓰고 있음. 접속이 잘됨- 내 핸드폰이 LG 통신망인데 데이터로 접속하면 접속이 안됐음!! 다른 SKT, KT 핸드폰 쓰고 계신 분들꺼로 접속하면 접속이 되고.. 그렇다면 접속안되..
-
[AWS] Site to Site VPN 정리클라우드/AWS 2024. 12. 1. 18:32
- AWS : 서울 리전 / 10.0.0.0/16 - IDC : 오레곤 리전 / 10.60.0.0/16 -> IDC 서버에 OpenSwan을 설치하고 ping 테스트 - 구성도- 전용선을 통해 외부 IDC와 AWS 를 연결할 수 있지만, 비싸고 물리적인 설치 작업이 있음- Site to Site VPN을 통해 IPsec 터널링을 이중화 하여 안전하게 통신할 수 있도록 하자- Ipsec 터널링은 전용선이 아닌 인터넷망을 불가피하게 통하기 때문에 데이터 탈취및 도청으로 부터 보호해주는 방식 * 사전 구성- IDC에 EC2 2대 (pub, priv)-> pub에 있는 ec2에 공인 ip 할당 (온프렘의 공인 ip를 뜻함)-> 보안그룹에 ICMP, SSH, UDP 4500 설정 (openswan 때문에)- AW..
-
[Terraform] 테라폼 기초클라우드/AWS 2024. 11. 23. 16:59
- 하시코프에서 오픈소스로 개발중인 인프라스트럭처 관리 도구- 특정 버전의 테라폼을 사용하고 싶거나, 여러 버전을 사용할 필요가 있을 때는 tfenv를 사용하면 편리함 (맥, 리눅스, 윈도우 지원) 태라폼의 기본 개념들 프로비저닝?- 어떤 프로세스나 서비스를 실행하기 위한 준비 단계- 테라폼에서는 크게 네트워크나 컴퓨팅 자원을 준비하는 작업을 다루는 개념 프로바이더 (Provider)?- 테라폼과 외부 서비스를 연결해주는 기능을 하는 모듈- 예를들어 테라폼으로 aws 서비스의 컴퓨팅 자원 생성하려면 aws 프로바이더를 먼저 셋업해주어야함- 테라폼 지원 목록 : 테라폼 프로바이더 문서 리소스 (Resource) ?- 특정 프로바이더가 제공해주는 조작 가능한 대상의 최소 단위- 예를들어 aws 프로바이더는 ..