이 문서는 do4i, palcar, papersens 같은 운영 서비스가 배포 후 정상 수렴하지 않을 때 공통으로 따르는 1차 대응 절차를 정리한다.
서비스별 상세 차이는 따로 보강할 수 있지만, 초기 대응 흐름은 공통으로 유지하는 편이 빠르고 안전하다.
여기서 범위를 못 좁히면 클러스터 전체 문제와 서비스 단일 문제를 혼동하기 쉽다.
sudo kubectl get applications -A
확인할 것은 아래다.
Application 이 보이는가OutOfSync 인가Degraded 인가sudo kubectl get deploy,sts,svc,ing -n <namespace>
sudo kubectl get pods -n <namespace>
먼저 아래를 확인한다.
CrashLoopBackOff, ImagePullBackOff, Pending 인가sudo kubectl logs deploy/<deploy-name> -n <namespace> --tail=100
로그에서 먼저 찾는 것은 아래다.
아래 기준으로 빠르게 분류한다.
ImagePullBackOff: 이미지 태그 또는 registry 접근 문제CrashLoopBackOff: 앱 시작 설정, secret, 코드 오류 문제OutOfSync 만 있고 앱은 정상: 즉시 장애인지 아닌지 구분 필요아래 중 하나면 롤백을 우선 검토한다.
바로 롤백하면 안 되는 경우도 있다.
이 경우 먼저 기준 커밋과 원인 범위를 확정한다.
Application 상태