Stable Diffusion 로컬 설치, 왜 해야 할까
클라우드 vs 로컬, 근본적인 차이
Midjourney나 DALL-E 같은 클라우드 서비스는 편리하지만, 매달 구독료가 나가고 생성 횟수에 제한이 있다. 반면 Stable Diffusion 로컬 설치는 초기 세팅만 끝나면 무제한 생성이 가능하다. 전기세 빼고는 공짜라는 뜻이다. 나는 월 30달러짜리 구독을 끊고 로컬로 전환한 뒤, 오히려 더 다양한 실험을 하게 됐다.
2025년 현재 로컬 환경의 장점
2025년 기준으로 Stable Diffusion은 SDXL, SD 3.5, 그리고 최신 Flux 모델까지 로컬에서 돌릴 수 있게 되었다. 특히 ComfyUI의 발전 덕분에 복잡한 워크플로우도 노드 기반으로 쉽게 구성할 수 있고, LoRA나 ControlNet 같은 확장 기능도 자유롭게 적용할 수 있다. 무엇보다 내 데이터가 외부 서버로 전송되지 않는다는 점이 프라이버시 측면에서 큰 장점이다.
필요한 최소 PC 사양
- GPU: NVIDIA RTX 3060 (VRAM 12GB) 이상 권장. RTX 4060도 괜찮지만 VRAM이 8GB라 SDXL 돌릴 때 빡빡하다.
- RAM: 16GB 이상 (32GB 권장)
- 저장공간: SSD 최소 50GB 여유 (모델 파일이 2~7GB씩 한다)
- OS: Windows 10/11 또는 Ubuntu 22.04+
- Python: 3.10.x (3.11, 3.12는 호환성 문제가 간혹 있음)
설치 방법: WebUI vs ComfyUI 완전 비교
Automatic1111 WebUI 설치 (입문자 추천)
가장 대중적인 프론트엔드다. 설치 과정이 비교적 단순하고, 커뮤니티 자료가 방대해서 문제가 생겨도 검색하면 거의 답이 나온다.
Python 3.10 설치
설치 시 "Add to PATH" 반드시 체크. 3.12를 설치했다가 torch 호환 에러가 나서 30분을 날린 적이 있다. 꼭 3.10 버전을 쓰자.
Git 설치 후 저장소 클론
Git을 설치하고, 원하는 폴더에서 아래 명령어를 실행한다.
webui-user.bat 실행
첫 실행 시 자동으로 필요한 패키지를 설치한다. 10~20분 소요. 완료되면 브라우저에서 http://127.0.0.1:7860에 접속하면 된다.
ComfyUI 설치 (중급자 이상 추천)
노드 기반 인터페이스로, 워크플로우를 시각적으로 구성할 수 있다. 처음엔 복잡해 보이지만, 익숙해지면 WebUI보다 훨씬 유연하다. 특히 Flux 모델이나 복잡한 파이프라인을 구성할 때 ComfyUI가 압도적이다.
ComfyUI 다운로드
GitHub에서 릴리스를 다운로드한다. Windows용 포터블 버전이 있어서 Python 내장이라 버전 충돌 걱정이 없다.
실행 및 모델 배치
압축 해제 후 run_nvidia_gpu.bat 실행. 모델 파일은 models/checkpoints/ 폴더에 넣으면 된다. 브라우저에서 http://127.0.0.1:8188 접속.
WebUI vs ComfyUI 장단점 비교
| 항목 | Automatic1111 WebUI | ComfyUI |
|---|---|---|
| 난이도 | 쉬움 (클릭 기반) | 보통 (노드 연결 방식) |
| 유연성 | 보통 | 매우 높음 |
| VRAM 효율 | 보통 | 좋음 (최적화 우수) |
| Flux 모델 지원 | 제한적 (Forge 필요) | 네이티브 지원 |
| 확장 프로그램 | 매우 풍부 | 빠르게 성장 중 |
| 커뮤니티 자료 | 매우 방대 | 충분히 많음 |
| 배치 처리 | 기본 지원 | 워크플로우로 자유 구성 |
| 업데이트 속도 | 느린 편 | 매우 빠름 |
처음 시작한다면 WebUI로 기본기를 익히고, 어느 정도 감이 잡히면 ComfyUI로 넘어가는 게 가장 효율적인 루트다.
모델 선택과 세팅 최적화
2025년 추천 모델 TOP 3
모델 선택이 결과물의 80%를 결정한다고 해도 과언이 아니다. 직접 써보고 추천하는 모델은 다음과 같다.
- Flux.1 Dev: 2025년 현재 가장 핫한 모델. 프롬프트 이해력이 뛰어나고 텍스트 렌더링까지 가능하다. VRAM 12GB 이상 권장.
- SDXL + RealVisXL: 포토리얼리즘 이미지에 강하다. VRAM 8GB로도 돌릴 수 있어서 접근성이 좋다.
- Pony Diffusion V6 XL: 일러스트/애니메이션 스타일에 특화. 캐릭터 생성 퀄리티가 상당하다.
모델은 Civitai나 Hugging Face에서 다운로드할 수 있다. 다운받은 파일은 WebUI 기준 models/Stable-diffusion/, ComfyUI 기준 models/checkpoints/에 넣으면 된다.
VRAM 부족할 때 대처법
VRAM이 8GB 이하인 분들을 위한 팁이다.
- WebUI:
webui-user.bat에서COMMANDLINE_ARGS에--medvram또는--lowvram추가 - ComfyUI: 실행 시
--lowvram플래그 사용 - 생성 해상도를 512x512 (SD 1.5) 또는 1024x1024 (SDXL)로 제한한 뒤 upscale
- FP16 대신 FP8 양자화 모델 사용 (Flux 모델에 특히 효과적)
나는 RTX 3060 12GB로 Flux FP8 모델을 돌리는데, 1024x1024 이미지 한 장에 약 25초 정도 걸린다. 충분히 쓸만한 속도다.
LoRA와 ControlNet 활용
기본 모델만으로도 좋지만, LoRA를 추가하면 특정 스타일이나 캐릭터를 정밀하게 제어할 수 있다. ControlNet은 포즈, 윤곽선, 깊이맵 등을 입력해서 구도를 잡아주는 도구인데, 이 두 가지를 조합하면 상업용 수준의 결과물도 가능하다.
실전 사용 팁 5가지
프롬프트 작성의 핵심
품질 태그를 앞에 배치하라. "masterpiece, best quality, highly detailed"을 프롬프트 맨 앞에 넣으면 전반적인 퀄리티가 확 올라간다. 네거티브 프롬프트에는 "worst quality, low quality, blurry"를 기본으로 넣어두자.
가중치 문법을 활용하라. 강조하고 싶은 요소에 (키워드:1.3) 형식으로 가중치를 줄 수 있다. 1.0이 기본이고, 1.5 이상은 과하게 적용될 수 있으니 1.1~1.4 사이를 추천한다.
Seed 값을 고정하고 변수를 하나씩 바꿔보라. 프롬프트, 샘플러, CFG 스케일을 동시에 바꾸면 뭐가 효과가 있었는지 알 수 없다. 과학적으로 접근하는 게 시간을 아끼는 방법이다.
성능과 품질을 모두 잡는 설정
샘플러는 DPM++ 2M Karras로 시작하라. 속도와 품질의 균형이 가장 좋다. Steps는 20~30이면 충분하고, 그 이상은 시간 대비 차이가 미미하다.
Hires Fix 또는 외부 업스케일러를 활용하라. 기본 해상도로 생성한 뒤 2배 업스케일하면, 처음부터 고해상도로 생성하는 것보다 빠르고 결과도 좋다. 업스케일러는 4x-UltraSharp나 ESRGAN 계열을 추천한다.
이런 분에게 추천한다
추천 대상
- 디자이너/일러스트레이터: 레퍼런스 이미지 빠르게 생성하고 싶은 분. 클라이언트 시안 작업 속도가 확 빨라진다.
- 인디 게임 개발자: 컨셉 아트, 텍스처, UI 요소 등을 직접 만들고 싶은 분.
- 콘텐츠 크리에이터: 블로그 썸네일, 유튜브 배경, SNS 이미지를 자체 제작하고 싶은 분.
- AI 기술에 관심 있는 개발자: 이미지 생성 AI의 작동 원리를 직접 실험하며 이해하고 싶은 분.
- 프라이버시 중시하는 분: 민감한 이미지를 외부 서버에 보내지 않고 로컬에서 처리하고 싶은 분.
비추천 대상
- GPU가 없거나 내장 그래픽만 있는 노트북 사용자 (CPU 모드는 한 장에 10분 이상 걸린다)
- 설치나 환경 세팅에 시간을 전혀 쓰고 싶지 않은 분 (이 경우 Midjourney가 낫다)
- 가끔 한두 장만 필요한 분 (무료 웹 서비스로 충분하다)
마무리
Stable Diffusion을 로컬에 설치하는 건, 처음엔 조금 번거롭지만 한번 세팅하면 무한한 자유를 얻게 된다. 구독료 부담 없이 원하는 만큼 AI 이미지를 생성할 수 있고, 모델과 설정을 자유롭게 바꿔가며 실험할 수 있다. 2025년 현재는 ComfyUI + Flux 조합이 트렌드이지만, 입문자라면 WebUI부터 시작하는 것을 추천한다.