N NURIINFRA AI Infrastructure
★ OPTIONAL ADD-ON PACKAGE

AI서버 SW 설치 패키지
전원 켜면 바로 사용

Ubuntu 24.04 LTS · AMD ROCm 7.2 · Ollama · vLLM · Gemma 4·Qwen3·Qwen3-Coder · Open WebUI까지 5계층 SW 스택을 일괄 셋업해 2~10일 안에 검증·테스트까지 완료된 운영 가능 상태로 인도해드리는 누리인프라 옵션 패키지입니다.

📞 이규홍 부장(마케팅) 직통
5-Layer Software Stack
💬
L5 · UI
Open WebUI
🧠
L4 · Models
Gemma 4·Qwen3·Coder
L3 · 서빙
Ollama · vLLM
🔌
L2 · GPU
AMD ROCm 7.2
🐧
L1 · OS
Ubuntu 24.04 LTS
01 — 패키지 가치 제안

왜 누리인프라 SW 셋업이 필요한가

서버를 사도 거기서 끝이 아닙니다. 그 위에 OS·드라이버·서빙엔진·모델·UI까지 5계층을 쌓아야 비로소 사용할 수 있습니다.

DIY 설치 시 직면하는 현실

  • ROCm 드라이버 호환성 지옥커널 버전, GPU 펌웨어, ROCm 빌드 간 의존성 충돌 — 평균 1~2주 시행착오
  • vLLM ROCm 빌드 까다로움Python 3.12 + ROCm 7.0+ + glibc 2.35 등 엄격한 환경 요건. Docker 권장
  • MI250 GPU 권한 설정render·video 그룹 추가, /dev/kfd 권한, KFD 드라이버 부팅 활성화
  • 모델 다운로드 30분~수시간70B 모델 = 40~140GB. 네트워크 대역폭에 따라 다운로드만 수시간
  • 보안 / 프록시 / 방화벽포트 11434/8000/3000 노출 정책, JWT 인증, HTTPS 적용 등 운영 환경 추가 작업
  • 장애 시 디버깅 부담에러 메시지가 "GPU not detected" 한 줄 — 원인은 10가지 중 하나

누리인프라 패키지 = 즉시 사용

  • 검증된 BKC 적용AMD 권장 Best Known Configuration 기반 셋업. 호환성 이슈 사전 차단
  • 1일 이내 즉시 운영 가능납품 검수 후 모델까지 모두 로딩되어 "전원 켜면 바로 사용" 상태 인도
  • 3개 모델 동시 포팅Gemma 4·Qwen3·Qwen3-Coder가 다운로드·테스트 완료 상태
  • Ollama + vLLM 듀얼 엔진내부 테스트는 Ollama, 프로덕션은 vLLM — 각 용도에 맞게 선택
  • Open WebUI 즉시 접속ChatGPT 같은 UI로 비개발자도 즉시 대화 가능. JWT 인증 적용
  • 운영 매뉴얼 + 무상 지원한글 운영 매뉴얼 PDF 제공 + 설치 후 30일 기술지원 무상
02 — SW 스택 5계층

하드웨어부터 사용자 인터페이스까지

검증된 표준 설치 스택. 각 계층은 독립적으로 교체 가능하며, 데이터 흐름은 우측 다이어그램에 표시됩니다.

L5
💬

Open WebUI

사용자 웹 인터페이스 (UI) — ChatGPT 같은 셀프호스팅 채팅 플랫폼

L4
🧠

Gemma 4 · Qwen3 · Qwen3-Coder

LLM 모델 — Hugging Face 또는 Ollama 라이브러리 (GGUF / Safetensors)

L3

Ollama + vLLM (듀얼 엔진)

모델 서빙 / 추론 엔진 — OpenAI 호환 API 제공

L2
🔌

AMD ROCm 7.2.x + PyTorch ROCm

GPU 런타임 — amdgpu kernel module · HIP · MIOpen · rocBLAS

L1
🐧

Ubuntu 24.04 LTS (Noble Numbat)

운영체제 — Linux 6.8 기본 또는 6.17 HWE 커널, 데이터센터 표준

L0
🖥️

AMD MI250 × 4 + EPYC 7413 × 2

하드웨어 베이스 — HBM2e 512GB · 96C/192T · 1.45 PFLOPS (FP16)

데이터 흐름
사용자 브라우저
→ http://server:3000
Open WebUI
→ /v1/chat/completions
Ollama 또는 vLLM
→ 모델 추론 요청
포팅된 LLM 모델
→ ROCm GPU 호출
AMD ROCm 7.2
→ MI250 GPU 4장
결과 스트리밍 응답
← Token 단위 SSE
03 — 계층별 상세

5개 계층, 각각의 역할과 설치 방식

각 계층은 누리인프라가 표준 절차로 검증·셋업합니다. 명령어와 설치 항목까지 모두 공개합니다.

L1 · OS
🐧
Ubuntu 24.04 LTS
Noble Numbat · 2024.04 출시
지원 종료2029.04 (5년) + Pro 추가 5년
커널Linux 6.8 또는 6.17 HWE
표준 패키지Python 3.12 · Docker 24+ · OpenSSH 9.6
ROCm 호환ROCm 7.2.x 공식 지원 ✓

데이터센터 표준 LTS 운영체제

"AMD ROCm 7.2를 공식 지원하는 가장 안정적인 LTS 버전" — Ubuntu 26.04도 출시되었으나 프로덕션은 24.04 권장

기본 설치 항목

OS 클린 설치
Server Edition · 최소 GUI · SSH 즉시 활성화
보안 강화 (Hardening)
UFW 방화벽 · fail2ban · 자동 보안 업데이트 · root SSH 비활성화
관리 계정 (3-tier)
관리자 / 엔지니어 / 운영자 + sudo 권한 분리
네트워크 구성
정적 IP · DNS · NTP 동기화 · IPMI 분리 네트워크
Docker + Compose
컨테이너 런타임 + GPU 지원 (rocm/dev-docker)
모니터링 도구
htop · nvtop · rocm-smi · prometheus node-exporter
L2 · GPU 런타임
🔌
AMD ROCm 7.2.x
Radeon Open Compute Platform
amdgpu-dkms커널 드라이버
ROCr RuntimeGPU 런타임
HIPCUDA 호환 API
rocBLAS선형대수 가속
MIOpen딥러닝 가속
RCCL멀티 GPU 통신

AMD GPU 런타임 — CUDA 대응 오픈소스 플랫폼

PyTorch가 공식 ROCm 빌드를 제공하므로 CUDA 코드를 거의 그대로 마이그레이션 가능

설치 명령
# AMD 공식 저장소에서 amdgpu-install 다운로드
wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_*.deb
sudo apt install ./amdgpu-install_*.deb
sudo amdgpu-install --usecase=rocm,dkms
sudo usermod -a -G render,video $USER
sudo reboot
설치 검증 — GPU 4장 인식
$ rocm-smi --showid
GPU[0]: GPU ID: 0x740c MI250
GPU[1]: GPU ID: 0x740c MI250
GPU[2]: GPU ID: 0x740c MI250
GPU[3]: GPU ID: 0x740c MI250
✓ 4장 모두 인식 · HBM2e 512GB 합계
L3a · 서빙 엔진
📦
Ollama
v0.13.x · "AI 모델용 Docker"
포트11434 (REST API)
양자화GGUF Q4_K_M / Q8 자동
APIOpenAI 호환 + 자체 REST
메모리자동 로딩 / 언로딩
강점쉬움 · 빠른 시작
권장 용도개발 · 단일 사용자

간편한 로컬 LLM 서빙

단일 명령으로 모델을 다운로드받고 실행 — 누구나 5분이면 LLM 서빙 시작 가능

설치 + 모델 다운로드 + 실행
# 설치 (한 줄로 끝)
curl -fsSL https://ollama.com/install.sh | sh

# 모델 다운로드 (Gemma 3 27B)
ollama pull gemma3:27b

# 실행 (인터랙티브 채팅)
ollama run gemma3:27b
API 호출 (curl)
curl http://localhost:11434/api/chat \
  -d '{"model": "gemma3:27b",
      "messages":[{"role":"user",
              "content":"안녕하세요"}]}'
→ 즉시 응답 스트리밍 시작
L3b · 서빙 엔진
vLLM
v0.20+ ROCm Build
포트8000 (OpenAI API)
기술PagedAttention · KV Cache
동시성Continuous Batching
병렬화TP=4 (4 GPU 분산)
강점처리량 · 동접 · 프로덕션
권장 용도프로덕션 · 대규모 서비스

고성능 프로덕션 추론 엔진

UC Berkeley 발 · 프로덕션 LLM 서빙의 사실상 표준 · OpenAI Python SDK와 100% 호환

Docker 기반 ROCm vLLM 실행
# ROCm 빌드 Docker 컨테이너 실행
docker run --device=/dev/kfd \
  --device=/dev/dri --group-add video \
  --ipc=host -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache \
  vllm/vllm-openai-rocm:latest \
  --model Qwen/Qwen3-32B \
  --tensor-parallel-size 4
OpenAI SDK 100% 호환 (Python)
from openai import OpenAI

client = OpenAI(
  base_url="http://localhost:8000/v1"
)
# 기존 ChatGPT 코드를 그대로 마이그레이션
# → 코드 변경 0줄
L5 · UI
💬
Open WebUI
v0.5+ · ChatGPT 같은 셀프호스팅 플랫폼
포트3000 (Web UI)
백엔드Ollama + vLLM 동시
사용자JWT 인증 · 권한 분리
기능RAG · 문서 · 멀티모달
히스토리대화 자동 저장
강점비개발자 즉시 사용

사용자 웹 인터페이스 — "사내 ChatGPT"

Ollama와 vLLM 두 백엔드를 동시 연결 · 비개발자도 5초 만에 채팅 시작

Docker로 1줄 설치
docker run -d --name open-webui \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://localhost:11434 \
  -e OPENAI_API_BASE_URL=http://localhost:8000/v1 \
  -v open-webui:/app/backend/data \
  ghcr.io/open-webui/open-webui:main
📥 RAG 문서 업로드
PDF·DOCX 업로드 후 "이 매뉴얼에서 환불 절차" 같은 질문
🔐 JWT 인증
부서별·팀별 사용자 권한 분리 + 사용량 모니터링
🔄 모델 동시 로드
사이드바에서 Gemma 4 / Qwen3 / Coder 즉시 전환
📜 대화 히스토리
자동 저장 + 검색 + Export 가능
04 — Ollama vs vLLM

두 엔진을 모두 설치, 용도에 맞게 선택

Ollama와 vLLM은 경쟁이 아니라 보완 관계. 누리인프라는 두 엔진을 모두 셋업해 같은 모델을 용도별로 분리 운영합니다.

비교 항목 Ollama vLLM
설치 난이도★ 매우 쉬움 (1줄)★★★ 중간 (Docker)
포트114348000
API 호환성OpenAI + 자체 RESTOpenAI 100% 호환
단일 사용자 속도빠름 (Decode 우위)보통
다중 동접 처리량보통 (수십 동접)압도적 (수백 동접)
TTFT (응답 시작)보통6~10× 빠름
양자화 지원GGUF 자동 (Q4·Q8)FP8·AWQ·GPTQ
메모리 관리자동 로드 / 언로드PagedAttention KV Cache
텐서 병렬 (멀티 GPU)기본적TP=4·8 정밀 제어
권장 용도개발·테스트·소수 사용자프로덕션·대규모 서비스
💡
OLLAMA · 11434
내부 직원용 · 빠른 테스트 · 채팅 데모
설치가 쉽고 단일 사용자 응답이 빠르므로 사내 직원 ChatGPT 대용으로 최적
VLLM · 8000
외부 서비스용 · 대규모 프로덕션 · 앱 통합
동시 사용자 수백 명 처리, OpenAI SDK 코드 변경 없이 마이그레이션 가능
05 — L4 · 포팅 모델 3종

Gemma 4 · Qwen3 · Qwen3-Coder

서로 다른 강점을 가진 3개 모델을 동시 포팅 — 채팅·분석은 Gemma/Qwen3, 코딩은 Qwen3-Coder로 분담.

GOOGLE DEEPMIND
Gemma 4
2026.4 출시 · Apache 2.0

모델 사이즈 옵션

  • E2B2 GB초경량 · 임베디드
  • 31B 밀집30 GB최고 성능 · Arena #3
⭐ NURIINFRA PORTING

26B MoE Q4_K_M = 코딩·채팅 통합 권장

# Ollama로 포팅 (간편)
ollama pull gemma3:27b
ollama run gemma3:27b

# 27B Q4_K_M ≈ 16 GB
# MI250 1장만 사용

한국어 포함 140개 언어, 128K 컨텍스트, 멀티모달(텍스트+이미지) 지원. 31B 모델은 Arena AI 리더보드 #3.

ALIBABA QWEN
Qwen3
종합 능력형 · Apache 2.0

모델 사이즈 옵션

  • 4B 밀집3 GB경량 · 빠른 응답
  • 30B-A3B MoE18 GB효율 · 30B 성능 3B 비용
  • 235B MoE140 GBGPT-4급 · 4-Way 필수
⭐ NURIINFRA PORTING

32B Q4_K_M = 한국어·영어 균형 우수

# Qwen3 32B 포팅
ollama pull qwen3:32b
ollama run qwen3:32b

# 235B MoE도 가능 (4 GPU)
ollama pull qwen3:235b

한국어 성능 매우 우수. Thinking 모드 지원 (추론 과정 별도 필드), Function Calling으로 에이전트 워크플로우 강력.

QWEN3 CODER
Qwen3-Coder
Alibaba 코딩 특화 · Apache 2.0

모델 사이즈 옵션

  • 7B5 GB초경량 · 자동완성
  • 32B 밀집20 GB코드 리뷰·리팩터링
  • 480B MoE280 GB최강 · 4-Way 필수
⭐ NURIINFRA PORTING

30B-A3B Q4_K_M = 사내 개발 어시스턴트

# Qwen3-Coder 30B-A3B
ollama pull qwen3-coder:30b
ollama run qwen3-coder:30b

# VS Code Continue.dev 연동
# → http://server:11434

262K 컨텍스트(YaRN으로 100만까지 확장). VS Code · Cursor IDE 익스텐션 연동으로 사내 코딩 어시스턴트 운영.

06 — 통합 아키텍처

시스템 아키텍처 + 포트 매핑

전체 SW 스택이 어떻게 통합되는지 + 사용자 요청이 어떤 경로로 처리되는지의 단일 다이어그램.

USER
👥
사내 사용자
HTTPS :443
브라우저 또는 API 호출
PROXY
🔐
Nginx Reverse Proxy
HTTPS 종단 · JWT
인증 · Rate Limit · 보안
L5 · UI
💬
Open WebUI
Port 3000
ChatGPT 같은 UI · RAG · 멀티모달
L3a · Ollama
Port 11434
내부 사용자용 · GGUF
L3b · vLLM
Port 8000
프로덕션 · OpenAI 호환
L4 · 포팅된 LLM 모델
Gemma 4
26B MoE · 14 GB
Qwen3
32B 밀집 · 20 GB
Qwen3-Coder
30B-A3B · 18 GB
L2 · AMD ROCm 7.2.x
amdgpu · HIP · MIOpen · rocBLAS
L1 · Ubuntu 24.04 LTS
Linux 6.8 / Docker · Nginx · Python
L0 · MI250 × 4 + EPYC
HBM2e 512GB · 96C/192T · 1.45 PFLOPS
07 — 설치 프로세스

표준 설치 5단계 · 총 2~10일

납품 검수 후 5단계로 진행. 모델 다운로드 + 단계별 검증 + 통합 부하 테스트 + 사용자 인수 교육까지 포함하여 평균 2~10일 안에 운영 가능한 상태로 인도.

STEP 01
OS · GPU 드라이버
0.5~2일
  • Ubuntu 24.04 LTS 클린 설치
  • 보안 강화 (UFW · fail2ban · SSH 키 인증)
  • AMD ROCm 7.2.x 설치 + 커널 의존성 검증
  • GPU 4장 인식 + 24h Burn-in 안정성 테스트
  • 전력/온도 모니터링 임계치 설정
STEP 02
컨테이너 · 인프라
0.5~1.5일
  • Docker + Compose 설치 + GPU 런타임 설정
  • Nginx 리버스 프록시 + HTTPS (Let's Encrypt)
  • 방화벽/포트 정책 + 외부 노출 검증
  • 네트워크 부하 테스트 (k6 / ab 동시 연결)
  • 로깅/모니터링 스택 (Prometheus·Grafana)
STEP 03
서빙 엔진 설치
0.5~1.5일
  • Ollama 설치 + systemd 자동 시작 등록
  • vLLM ROCm Docker 실행 + 헬스체크
  • 포트 11434 / 8000 검증 + OpenAI API 호환 테스트
  • 동시 요청 처리량 측정 (TPS · TTFT · ITL)
  • 장시간 추론 안정성 테스트 (4~8시간)
STEP 04
모델 다운로드 · 포팅
1~3일
  • Gemma 4 26B MoE · Qwen3 32B · Qwen3-Coder 30B-A3B
  • Hugging Face 인증 + 모델 가중치 다운로드(수십~수백 GB)
  • ROCm 환경에서 모델 포팅·정밀도 변환(FP16/INT8)
  • 모델별 추론 응답 정합성 검증 (벤치마크 셋)
  • 한국어 프롬프트 정합성 + Toxicity 필터 테스트
STEP 05
Open WebUI · 검수
0.5~2일
  • Open WebUI Docker 실행 + 관리자 / 사용자 등록
  • 전체 통합 시나리오 테스트 (E2E · 17개 항목)
  • 24시간 무중단 운영 검증 + 알림/장애 대응 점검
  • 사용자 교육 1~2회 + 운영 매뉴얼 인계
  • 최종 인수 사인오프 + 30일 무상 기술지원 시작
08 — 검수 / 인수

17개 동작 검증 항목

L1~L3 · 인프라 검증

OS · GPU · 네트워크 · 서빙 엔진 레벨

  • Ubuntu 24.04 LTS 정상 부팅 + SSH 접속
  • rocm-smi로 MI250 4장 모두 인식 확인
  • 사용자 권한 (render·video 그룹) 확인
  • Docker · GPU 컨테이너 런타임 동작
  • Nginx + HTTPS 인증서 적용
  • UFW 방화벽 + 필수 포트만 개방
  • Ollama 11434 포트 헬스체크 OK
  • vLLM 8000 포트 OpenAI API 응답 OK

L4~L5 · 모델 + UI 검증

실제 추론 응답 · 사용자 인터페이스 동작

  • Gemma 4 26B 추론 응답 (한글)
  • Qwen3 32B 추론 응답 (한글·영어)
  • Qwen3-Coder 30B 코드 생성 응답
  • Open WebUI 3000번 접속 + 로그인
  • Open WebUI에서 3개 모델 모두 선택 가능
  • RAG 기능 — PDF 업로드 후 질문
  • 동시 사용자 5명 부하 테스트 (vLLM)
  • 한글 운영 매뉴얼 PDF 인계
  • 30일 무상 기술지원 안내
09 — 가격 옵션

3가지 패키지 · 부가세 별도

규모와 용도에 맞춰 3종 선택. Recommended 1,500만원이 가장 많이 선택되는 표준 옵션입니다.

STANDARD
기본형
700만원
기본 SW 스택만 셋업
VAT 별도
  • Ubuntu 24.04 LTS 설치
  • AMD ROCm 7.2 설치
  • Ollama + 모델 1개 (Gemma·Qwen 중)
  • Open WebUI 설치
  • vLLM 미포함
  • HTTPS · Nginx 미포함
  • 7일 기본 기술지원만
개인·연구실 · 단일 사용자
PREMIUM
통합형
2,700만원~
RAG + 도메인 특화 추가
VAT 별도
  • Recommended 전부 포함
  • Milvus 벡터 DB 구축
  • 사내 문서 50건 RAG 인덱싱
  • Neo4j 지식그래프 (선택)
  • 누리인프라 AICC 연동 옵션
  • 부서별 권한 분리 셋업
  • 모니터링 (Grafana·Prometheus)
  • 90일 무상 기술지원
AI 본격 도입 · 컨설팅 동반
CONTACT

SW 셋업까지 함께
"전원 켜면 바로 사용"

하드웨어 납품 + SW 셋업까지 — 누리인프라가 함께합니다. 17년 IT 인프라 경험으로 검증된 파트너.

🛡️

검증된 BKC 셋업

AMD 권장 구성 기반 호환성 이슈 사전 차단

1일 이내 즉시 운영

납품 검수 후 바로 사용 가능한 상태로 인도

🧠

3개 모델 동시 포팅

Gemma 4·Qwen3·Coder로 다양한 워크로드 대응

🎧

30일 무상 기술지원

Recommended 옵션 기준 운영 안정화까지 함께

📞
SALES CONTACT
이규홍 부장(마케팅)
영업담당 · 누리인프라 주식회사 · AI 인프라 컨설팅
02-873-6646
평일 09~18시