AI서버 SW 설치 패키지

01 — 패키지 가치 제안

왜 누리인프라 SW 셋업이 필요한가

서버를 사도 거기서 끝이 아닙니다. 그 위에 OS·드라이버·서빙엔진·모델·UI까지 5계층을 쌓아야 비로소 사용할 수 있습니다.

⚠

DIY 설치 시 직면하는 현실

ROCm 드라이버 호환성 지옥커널 버전, GPU 펌웨어, ROCm 빌드 간 의존성 충돌 — 평균 1~2주 시행착오
vLLM ROCm 빌드 까다로움Python 3.12 + ROCm 7.0+ + glibc 2.35 등 엄격한 환경 요건. Docker 권장
MI250 GPU 권한 설정render·video 그룹 추가, /dev/kfd 권한, KFD 드라이버 부팅 활성화
모델 다운로드 30분~수시간70B 모델 = 40~140GB. 네트워크 대역폭에 따라 다운로드만 수시간
보안 / 프록시 / 방화벽포트 11434/8000/3000 노출 정책, JWT 인증, HTTPS 적용 등 운영 환경 추가 작업
장애 시 디버깅 부담에러 메시지가 "GPU not detected" 한 줄 — 원인은 10가지 중 하나

⭐

누리인프라 패키지 = 즉시 사용

검증된 BKC 적용AMD 권장 Best Known Configuration 기반 셋업. 호환성 이슈 사전 차단
1일 이내 즉시 운영 가능납품 검수 후 모델까지 모두 로딩되어 "전원 켜면 바로 사용" 상태 인도
3개 모델 동시 포팅Gemma 4·Qwen3·Qwen3-Coder가 다운로드·테스트 완료 상태
Ollama + vLLM 듀얼 엔진내부 테스트는 Ollama, 프로덕션은 vLLM — 각 용도에 맞게 선택
Open WebUI 즉시 접속ChatGPT 같은 UI로 비개발자도 즉시 대화 가능. JWT 인증 적용
운영 매뉴얼 + 무상 지원한글 운영 매뉴얼 PDF 제공 + 설치 후 30일 기술지원 무상

02 — SW 스택 5계층

하드웨어부터 사용자 인터페이스까지

검증된 표준 설치 스택. 각 계층은 독립적으로 교체 가능하며, 데이터 흐름은 우측 다이어그램에 표시됩니다.

L5
💬Open WebUI사용자 웹 인터페이스 (UI) — ChatGPT 같은 셀프호스팅 채팅 플랫폼
L4
🧠Gemma 4 · Qwen3 · Qwen3-CoderLLM 모델 — Hugging Face 또는 Ollama 라이브러리 (GGUF / Safetensors)
L3
⚡Ollama + vLLM (듀얼 엔진)모델 서빙 / 추론 엔진 — OpenAI 호환 API 제공
L2
🔌AMD ROCm 7.2.x + PyTorch ROCmGPU 런타임 — amdgpu kernel module · HIP · MIOpen · rocBLAS
L1
🐧Ubuntu 24.04 LTS (Noble Numbat)운영체제 — Linux 6.8 기본 또는 6.17 HWE 커널, 데이터센터 표준
L0
🖥️AMD MI250 × 4 + EPYC 7413 × 2하드웨어 베이스 — HBM2e 512GB · 96C/192T · 1.45 PFLOPS (FP16)

데이터 흐름

사용자 브라우저

→ http://server:3000

Open WebUI

→ /v1/chat/completions

Ollama 또는 vLLM

→ 모델 추론 요청

포팅된 LLM 모델

→ ROCm GPU 호출

AMD ROCm 7.2

→ MI250 GPU 4장

결과 스트리밍 응답

← Token 단위 SSE

03 — 계층별 상세

5개 계층, 각각의 역할과 설치 방식

각 계층은 누리인프라가 표준 절차로 검증·셋업합니다. 명령어와 설치 항목까지 모두 공개합니다.

L1 · OS

🐧

Ubuntu 24.04 LTS

Noble Numbat · 2024.04 출시

지원 종료2029.04 (5년) + Pro 추가 5년

커널Linux 6.8 또는 6.17 HWE

표준 패키지Python 3.12 · Docker 24+ · OpenSSH 9.6

ROCm 호환ROCm 7.2.x 공식 지원 ✓

데이터센터 표준 LTS 운영체제

"AMD ROCm 7.2를 공식 지원하는 가장 안정적인 LTS 버전" — Ubuntu 26.04도 출시되었으나 프로덕션은 24.04 권장

기본 설치 항목

OS 클린 설치

Server Edition · 최소 GUI · SSH 즉시 활성화

보안 강화 (Hardening)

UFW 방화벽 · fail2ban · 자동 보안 업데이트 · root SSH 비활성화

관리 계정 (3-tier)

관리자 / 엔지니어 / 운영자 + sudo 권한 분리

네트워크 구성

정적 IP · DNS · NTP 동기화 · IPMI 분리 네트워크

Docker + Compose

컨테이너 런타임 + GPU 지원 (rocm/dev-docker)

모니터링 도구

htop · nvtop · rocm-smi · prometheus node-exporter

L2 · GPU 런타임

🔌

AMD ROCm 7.2.x

Radeon Open Compute Platform

amdgpu-dkms커널 드라이버

ROCr RuntimeGPU 런타임

HIPCUDA 호환 API

rocBLAS선형대수 가속

MIOpen딥러닝 가속

RCCL멀티 GPU 통신

AMD GPU 런타임 — CUDA 대응 오픈소스 플랫폼

PyTorch가 공식 ROCm 빌드를 제공하므로 CUDA 코드를 거의 그대로 마이그레이션 가능

설치 명령

# AMD 공식 저장소에서 amdgpu-install 다운로드

wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_*.deb

sudo apt install ./amdgpu-install_*.deb

sudo amdgpu-install --usecase=rocm,dkms

sudo usermod -a -G render,video $USER

sudo reboot

설치 검증 — GPU 4장 인식

$ rocm-smi --showid

GPU[0]: GPU ID: 0x740c   MI250

GPU[1]: GPU ID: 0x740c   MI250

GPU[2]: GPU ID: 0x740c   MI250

GPU[3]: GPU ID: 0x740c   MI250

✓ 4장 모두 인식 · HBM2e 512GB 합계

L3a · 서빙 엔진

📦

Ollama

v0.13.x · "AI 모델용 Docker"

포트11434 (REST API)

양자화GGUF Q4_K_M / Q8 자동

APIOpenAI 호환 + 자체 REST

메모리자동 로딩 / 언로딩

강점쉬움 · 빠른 시작

권장 용도개발 · 단일 사용자

간편한 로컬 LLM 서빙

단일 명령으로 모델을 다운로드받고 실행 — 누구나 5분이면 LLM 서빙 시작 가능

설치 + 모델 다운로드 + 실행

# 설치 (한 줄로 끝)

curl -fsSL https://ollama.com/install.sh | sh

# 모델 다운로드 (Gemma 3 27B)

ollama pull gemma3:27b

# 실행 (인터랙티브 채팅)

ollama run gemma3:27b

API 호출 (curl)

curl http://localhost:11434/api/chat \

  -d '{"model": "gemma3:27b",

      "messages":[{"role":"user",

              "content":"안녕하세요"}]}'

→ 즉시 응답 스트리밍 시작

L3b · 서빙 엔진

⚡

vLLM

v0.20+ ROCm Build

포트8000 (OpenAI API)

기술PagedAttention · KV Cache

동시성Continuous Batching

병렬화TP=4 (4 GPU 분산)

강점처리량 · 동접 · 프로덕션

권장 용도프로덕션 · 대규모 서비스

고성능 프로덕션 추론 엔진

UC Berkeley 발 · 프로덕션 LLM 서빙의 사실상 표준 · OpenAI Python SDK와 100% 호환

Docker 기반 ROCm vLLM 실행

# ROCm 빌드 Docker 컨테이너 실행

docker run --device=/dev/kfd \

  --device=/dev/dri --group-add video \

  --ipc=host -p 8000:8000 \

  -v ~/.cache/huggingface:/root/.cache \

  vllm/vllm-openai-rocm:latest \

  --model Qwen/Qwen3-32B \

  --tensor-parallel-size 4

OpenAI SDK 100% 호환 (Python)

from openai import OpenAI

client = OpenAI(

  base_url="http://localhost:8000/v1"

)

# 기존 ChatGPT 코드를 그대로 마이그레이션

# → 코드 변경 0줄

L5 · UI

💬

Open WebUI

v0.5+ · ChatGPT 같은 셀프호스팅 플랫폼

포트3000 (Web UI)

백엔드Ollama + vLLM 동시

사용자JWT 인증 · 권한 분리

기능RAG · 문서 · 멀티모달

히스토리대화 자동 저장

강점비개발자 즉시 사용

사용자 웹 인터페이스 — "사내 ChatGPT"

Ollama와 vLLM 두 백엔드를 동시 연결 · 비개발자도 5초 만에 채팅 시작

Docker로 1줄 설치

docker run -d --name open-webui \

  -p 3000:8080 \

  -e OLLAMA_BASE_URL=http://localhost:11434 \

  -e OPENAI_API_BASE_URL=http://localhost:8000/v1 \

  -v open-webui:/app/backend/data \

  ghcr.io/open-webui/open-webui:main

📥 RAG 문서 업로드

PDF·DOCX 업로드 후 "이 매뉴얼에서 환불 절차" 같은 질문

🔐 JWT 인증

부서별·팀별 사용자 권한 분리 + 사용량 모니터링

🔄 모델 동시 로드

사이드바에서 Gemma 4 / Qwen3 / Coder 즉시 전환

📜 대화 히스토리

자동 저장 + 검색 + Export 가능

04 — Ollama vs vLLM

두 엔진을 모두 설치, 용도에 맞게 선택

Ollama와 vLLM은 경쟁이 아니라 보완 관계. 누리인프라는 두 엔진을 모두 셋업해 같은 모델을 용도별로 분리 운영합니다.

비교 항목	Ollama	vLLM
설치 난이도	★ 매우 쉬움 (1줄)	★★★ 중간 (Docker)
포트	11434	8000
API 호환성	OpenAI + 자체 REST	OpenAI 100% 호환
단일 사용자 속도	빠름 (Decode 우위)	보통
다중 동접 처리량	보통 (수십 동접)	압도적 (수백 동접)
TTFT (응답 시작)	보통	6~10× 빠름
양자화 지원	GGUF 자동 (Q4·Q8)	FP8·AWQ·GPTQ
메모리 관리	자동 로드 / 언로드	PagedAttention KV Cache
텐서 병렬 (멀티 GPU)	기본적	TP=4·8 정밀 제어
권장 용도	개발·테스트·소수 사용자	프로덕션·대규모 서비스

💡

OLLAMA · 11434

내부 직원용 · 빠른 테스트 · 채팅 데모

설치가 쉽고 단일 사용자 응답이 빠르므로 사내 직원 ChatGPT 대용으로 최적

VLLM · 8000

외부 서비스용 · 대규모 프로덕션 · 앱 통합

동시 사용자 수백 명 처리, OpenAI SDK 코드 변경 없이 마이그레이션 가능

05 — L4 · 포팅 모델 3종

Gemma 4 · Qwen3 · Qwen3-Coder

서로 다른 강점을 가진 3개 모델을 동시 포팅 — 채팅·분석은 Gemma/Qwen3, 코딩은 Qwen3-Coder로 분담.

GOOGLE DEEPMIND

Gemma 4

2026.4 출시 · Apache 2.0

모델 사이즈 옵션

E2B2 GB초경량 · 임베디드
26B MoE14 GB⭐ 균형형 (3.8B 활성)
31B 밀집30 GB최고 성능 · Arena #3

⭐ NURIINFRA PORTING

26B MoE Q4_K_M = 코딩·채팅 통합 권장

# Ollama로 포팅 (간편)
ollama pull gemma3:27b
ollama run gemma3:27b

# 27B Q4_K_M ≈ 16 GB
# MI250 1장만 사용

한국어 포함 140개 언어, 128K 컨텍스트, 멀티모달(텍스트+이미지) 지원. 31B 모델은 Arena AI 리더보드 #3.

ALIBABA QWEN

Qwen3

종합 능력형 · Apache 2.0

모델 사이즈 옵션

4B 밀집3 GB경량 · 빠른 응답
32B 밀집20 GB⭐ 범용 채팅 · 분석
30B-A3B MoE18 GB효율 · 30B 성능 3B 비용
235B MoE140 GBGPT-4급 · 4-Way 필수

⭐ NURIINFRA PORTING

32B Q4_K_M = 한국어·영어 균형 우수

# Qwen3 32B 포팅
ollama pull qwen3:32b
ollama run qwen3:32b

# 235B MoE도 가능 (4 GPU)
ollama pull qwen3:235b

한국어 성능 매우 우수. Thinking 모드 지원 (추론 과정 별도 필드), Function Calling으로 에이전트 워크플로우 강력.

QWEN3 CODER

Qwen3-Coder

Alibaba 코딩 특화 · Apache 2.0

모델 사이즈 옵션

7B5 GB초경량 · 자동완성
30B-A3B18 GB⭐ 균형형 (3B 활성)
32B 밀집20 GB코드 리뷰·리팩터링
480B MoE280 GB최강 · 4-Way 필수

⭐ NURIINFRA PORTING

30B-A3B Q4_K_M = 사내 개발 어시스턴트

# Qwen3-Coder 30B-A3B
ollama pull qwen3-coder:30b
ollama run qwen3-coder:30b

# VS Code Continue.dev 연동
# → http://server:11434

262K 컨텍스트(YaRN으로 100만까지 확장). VS Code · Cursor IDE 익스텐션 연동으로 사내 코딩 어시스턴트 운영.

07 — 설치 프로세스

표준 설치 5단계 · 총 2~10일

납품 검수 후 5단계로 진행. 모델 다운로드 + 단계별 검증 + 통합 부하 테스트 + 사용자 인수 교육까지 포함하여 평균 2~10일 안에 운영 가능한 상태로 인도.

STEP 01

OS · GPU 드라이버

0.5~2일

Ubuntu 24.04 LTS 클린 설치
보안 강화 (UFW · fail2ban · SSH 키 인증)
AMD ROCm 7.2.x 설치 + 커널 의존성 검증
GPU 4장 인식 + 24h Burn-in 안정성 테스트
전력/온도 모니터링 임계치 설정

STEP 02

컨테이너 · 인프라

0.5~1.5일

Docker + Compose 설치 + GPU 런타임 설정
Nginx 리버스 프록시 + HTTPS (Let's Encrypt)
방화벽/포트 정책 + 외부 노출 검증
네트워크 부하 테스트 (k6 / ab 동시 연결)
로깅/모니터링 스택 (Prometheus·Grafana)

STEP 03

서빙 엔진 설치

0.5~1.5일

Ollama 설치 + systemd 자동 시작 등록
vLLM ROCm Docker 실행 + 헬스체크
포트 11434 / 8000 검증 + OpenAI API 호환 테스트
동시 요청 처리량 측정 (TPS · TTFT · ITL)
장시간 추론 안정성 테스트 (4~8시간)

STEP 04

모델 다운로드 · 포팅

1~3일

Gemma 4 26B MoE · Qwen3 32B · Qwen3-Coder 30B-A3B
Hugging Face 인증 + 모델 가중치 다운로드(수십~수백 GB)
ROCm 환경에서 모델 포팅·정밀도 변환(FP16/INT8)
모델별 추론 응답 정합성 검증 (벤치마크 셋)
한국어 프롬프트 정합성 + Toxicity 필터 테스트

STEP 05

Open WebUI · 검수

0.5~2일

Open WebUI Docker 실행 + 관리자 / 사용자 등록
전체 통합 시나리오 테스트 (E2E · 17개 항목)
24시간 무중단 운영 검증 + 알림/장애 대응 점검
사용자 교육 1~2회 + 운영 매뉴얼 인계
최종 인수 사인오프 + 30일 무상 기술지원 시작

08 — 검수 / 인수

17개 동작 검증 항목

L1~L3 · 인프라 검증

OS · GPU · 네트워크 · 서빙 엔진 레벨

Ubuntu 24.04 LTS 정상 부팅 + SSH 접속
rocm-smi로 MI250 4장 모두 인식 확인
사용자 권한 (render·video 그룹) 확인
Docker · GPU 컨테이너 런타임 동작
Nginx + HTTPS 인증서 적용
UFW 방화벽 + 필수 포트만 개방
Ollama 11434 포트 헬스체크 OK
vLLM 8000 포트 OpenAI API 응답 OK

L4~L5 · 모델 + UI 검증

실제 추론 응답 · 사용자 인터페이스 동작

Gemma 4 26B 추론 응답 (한글)
Qwen3 32B 추론 응답 (한글·영어)
Qwen3-Coder 30B 코드 생성 응답
Open WebUI 3000번 접속 + 로그인
Open WebUI에서 3개 모델 모두 선택 가능
RAG 기능 — PDF 업로드 후 질문
동시 사용자 5명 부하 테스트 (vLLM)
한글 운영 매뉴얼 PDF 인계
30일 무상 기술지원 안내

09 — 가격 옵션

3가지 패키지 · 부가세 별도

규모와 용도에 맞춰 3종 선택. Recommended 1,500만원이 가장 많이 선택되는 표준 옵션입니다.

STANDARD

기본형

700만원

기본 SW 스택만 셋업

VAT 별도

Ubuntu 24.04 LTS 설치
AMD ROCm 7.2 설치
Ollama + 모델 1개 (Gemma·Qwen 중)
Open WebUI 설치
vLLM 미포함
HTTPS · Nginx 미포함
7일 기본 기술지원만

개인·연구실 · 단일 사용자

RECOMMENDED

권장형

1,500만원

사용자 명세 100% 구현

VAT 별도

Ubuntu + ROCm 모두 포함
Ollama + vLLM 듀얼 엔진
3개 모델 전부 포팅
(Gemma 4 · Qwen3 · Coder)
Open WebUI + RAG 활성화
HTTPS + Nginx + JWT 인증
한글 운영 매뉴얼 PDF
30일 무상 기술지원

기업 사내 AI · 개발팀 · 부서

PREMIUM

통합형

2,700만원~

RAG + 도메인 특화 추가

VAT 별도

Recommended 전부 포함
Milvus 벡터 DB 구축
사내 문서 50건 RAG 인덱싱
Neo4j 지식그래프 (선택)
누리인프라 AICC 연동 옵션
부서별 권한 분리 셋업
모니터링 (Grafana·Prometheus)
90일 무상 기술지원

AI 본격 도입 · 컨설팅 동반

CONTACT

SW 셋업까지 함께
"전원 켜면 바로 사용"

하드웨어 납품 + SW 셋업까지 — 누리인프라가 함께합니다. 17년 IT 인프라 경험으로 검증된 파트너.

🛡️

검증된 BKC 셋업

AMD 권장 구성 기반 호환성 이슈 사전 차단

⚡

1일 이내 즉시 운영

납품 검수 후 바로 사용 가능한 상태로 인도

🧠

3개 모델 동시 포팅

Gemma 4·Qwen3·Coder로 다양한 워크로드 대응

🎧

30일 무상 기술지원

Recommended 옵션 기준 운영 안정화까지 함께

📞

SALES CONTACT

이규홍 부장(마케팅)

영업담당 · 누리인프라 주식회사 · AI 인프라 컨설팅

02-873-6646

평일 09~18시

✉️

이메일 문의info@nuriinfra.co.kr

🖥️

MI250 본체 도입 가이드하드웨어 사양·가격·도입사례

AI서버 SW 설치 패키지
전원 켜면 바로 사용

왜 누리인프라 SW 셋업이 필요한가

DIY 설치 시 직면하는 현실

누리인프라 패키지 = 즉시 사용

하드웨어부터 사용자 인터페이스까지

Open WebUI

Gemma 4 · Qwen3 · Qwen3-Coder

Ollama + vLLM (듀얼 엔진)

AMD ROCm 7.2.x + PyTorch ROCm

Ubuntu 24.04 LTS (Noble Numbat)

AMD MI250 × 4 + EPYC 7413 × 2

5개 계층, 각각의 역할과 설치 방식

데이터센터 표준 LTS 운영체제

기본 설치 항목

AMD GPU 런타임 — CUDA 대응 오픈소스 플랫폼

간편한 로컬 LLM 서빙

고성능 프로덕션 추론 엔진

사용자 웹 인터페이스 — "사내 ChatGPT"

두 엔진을 모두 설치, 용도에 맞게 선택

Gemma 4 · Qwen3 · Qwen3-Coder

모델 사이즈 옵션

모델 사이즈 옵션

모델 사이즈 옵션

시스템 아키텍처 + 포트 매핑

표준 설치 5단계 · 총 2~10일

17개 동작 검증 항목

L1~L3 · 인프라 검증

L4~L5 · 모델 + UI 검증

3가지 패키지 · 부가세 별도

SW 셋업까지 함께
"전원 켜면 바로 사용"

검증된 BKC 셋업

1일 이내 즉시 운영

3개 모델 동시 포팅

30일 무상 기술지원

AI서버 SW 설치 패키지 전원 켜면 바로 사용

왜 누리인프라 SW 셋업이 필요한가

DIY 설치 시 직면하는 현실

누리인프라 패키지 = 즉시 사용

하드웨어부터 사용자 인터페이스까지

Open WebUI

Gemma 4 · Qwen3 · Qwen3-Coder

Ollama + vLLM (듀얼 엔진)

AMD ROCm 7.2.x + PyTorch ROCm

Ubuntu 24.04 LTS (Noble Numbat)

AMD MI250 × 4 + EPYC 7413 × 2

5개 계층, 각각의 역할과 설치 방식

데이터센터 표준 LTS 운영체제

기본 설치 항목

AMD GPU 런타임 — CUDA 대응 오픈소스 플랫폼

간편한 로컬 LLM 서빙

고성능 프로덕션 추론 엔진

사용자 웹 인터페이스 — "사내 ChatGPT"

두 엔진을 모두 설치, 용도에 맞게 선택

Gemma 4 · Qwen3 · Qwen3-Coder

모델 사이즈 옵션

모델 사이즈 옵션

모델 사이즈 옵션

시스템 아키텍처 + 포트 매핑

표준 설치 5단계 · 총 2~10일

17개 동작 검증 항목

L1~L3 · 인프라 검증

L4~L5 · 모델 + UI 검증

3가지 패키지 · 부가세 별도

SW 셋업까지 함께 "전원 켜면 바로 사용"

검증된 BKC 셋업

1일 이내 즉시 운영

3개 모델 동시 포팅

30일 무상 기술지원

📝 SW 설치 패키지 상담 신청

AI서버 SW 설치 패키지
전원 켜면 바로 사용

SW 셋업까지 함께
"전원 켜면 바로 사용"