Ubuntu 24.04 LTS · AMD ROCm 7.2 · Ollama · vLLM · Gemma 4·Qwen3·Qwen3-Coder · Open WebUI까지 5계층 SW 스택을 일괄 셋업해 2~10일 안에 검증·테스트까지 완료된 운영 가능 상태로 인도해드리는 누리인프라 옵션 패키지입니다.
서버를 사도 거기서 끝이 아닙니다. 그 위에 OS·드라이버·서빙엔진·모델·UI까지 5계층을 쌓아야 비로소 사용할 수 있습니다.
검증된 표준 설치 스택. 각 계층은 독립적으로 교체 가능하며, 데이터 흐름은 우측 다이어그램에 표시됩니다.
사용자 웹 인터페이스 (UI) — ChatGPT 같은 셀프호스팅 채팅 플랫폼
LLM 모델 — Hugging Face 또는 Ollama 라이브러리 (GGUF / Safetensors)
모델 서빙 / 추론 엔진 — OpenAI 호환 API 제공
GPU 런타임 — amdgpu kernel module · HIP · MIOpen · rocBLAS
운영체제 — Linux 6.8 기본 또는 6.17 HWE 커널, 데이터센터 표준
하드웨어 베이스 — HBM2e 512GB · 96C/192T · 1.45 PFLOPS (FP16)
각 계층은 누리인프라가 표준 절차로 검증·셋업합니다. 명령어와 설치 항목까지 모두 공개합니다.
"AMD ROCm 7.2를 공식 지원하는 가장 안정적인 LTS 버전" — Ubuntu 26.04도 출시되었으나 프로덕션은 24.04 권장
PyTorch가 공식 ROCm 빌드를 제공하므로 CUDA 코드를 거의 그대로 마이그레이션 가능
단일 명령으로 모델을 다운로드받고 실행 — 누구나 5분이면 LLM 서빙 시작 가능
UC Berkeley 발 · 프로덕션 LLM 서빙의 사실상 표준 · OpenAI Python SDK와 100% 호환
Ollama와 vLLM 두 백엔드를 동시 연결 · 비개발자도 5초 만에 채팅 시작
Ollama와 vLLM은 경쟁이 아니라 보완 관계. 누리인프라는 두 엔진을 모두 셋업해 같은 모델을 용도별로 분리 운영합니다.
| 비교 항목 | Ollama | vLLM |
|---|---|---|
| 설치 난이도 | ★ 매우 쉬움 (1줄) | ★★★ 중간 (Docker) |
| 포트 | 11434 | 8000 |
| API 호환성 | OpenAI + 자체 REST | OpenAI 100% 호환 |
| 단일 사용자 속도 | 빠름 (Decode 우위) | 보통 |
| 다중 동접 처리량 | 보통 (수십 동접) | 압도적 (수백 동접) |
| TTFT (응답 시작) | 보통 | 6~10× 빠름 |
| 양자화 지원 | GGUF 자동 (Q4·Q8) | FP8·AWQ·GPTQ |
| 메모리 관리 | 자동 로드 / 언로드 | PagedAttention KV Cache |
| 텐서 병렬 (멀티 GPU) | 기본적 | TP=4·8 정밀 제어 |
| 권장 용도 | 개발·테스트·소수 사용자 | 프로덕션·대규모 서비스 |
서로 다른 강점을 가진 3개 모델을 동시 포팅 — 채팅·분석은 Gemma/Qwen3, 코딩은 Qwen3-Coder로 분담.
26B MoE Q4_K_M = 코딩·채팅 통합 권장
한국어 포함 140개 언어, 128K 컨텍스트, 멀티모달(텍스트+이미지) 지원. 31B 모델은 Arena AI 리더보드 #3.
32B Q4_K_M = 한국어·영어 균형 우수
한국어 성능 매우 우수. Thinking 모드 지원 (추론 과정 별도 필드), Function Calling으로 에이전트 워크플로우 강력.
30B-A3B Q4_K_M = 사내 개발 어시스턴트
262K 컨텍스트(YaRN으로 100만까지 확장). VS Code · Cursor IDE 익스텐션 연동으로 사내 코딩 어시스턴트 운영.
전체 SW 스택이 어떻게 통합되는지 + 사용자 요청이 어떤 경로로 처리되는지의 단일 다이어그램.
납품 검수 후 5단계로 진행. 모델 다운로드 + 단계별 검증 + 통합 부하 테스트 + 사용자 인수 교육까지 포함하여 평균 2~10일 안에 운영 가능한 상태로 인도.
OS · GPU · 네트워크 · 서빙 엔진 레벨
실제 추론 응답 · 사용자 인터페이스 동작
규모와 용도에 맞춰 3종 선택. Recommended 1,500만원이 가장 많이 선택되는 표준 옵션입니다.
하드웨어 납품 + SW 셋업까지 — 누리인프라가 함께합니다. 17년 IT 인프라 경험으로 검증된 파트너.
AMD 권장 구성 기반 호환성 이슈 사전 차단
납품 검수 후 바로 사용 가능한 상태로 인도
Gemma 4·Qwen3·Coder로 다양한 워크로드 대응
Recommended 옵션 기준 운영 안정화까지 함께
아래 내용을 작성해주시면 이규홍 부장(마케팅)이 직접 회신드립니다.