헤르츠·2026년 6월 10일·4분 읽기

내 GPU에 맞는 LLM을 1초에 찾아주는 CLI, whichllm

파라미터 수가 아닌 실제 벤치마크 점수로 최적 모델을 추천하는 오픈소스 도구

로컬 LLM을 처음 써보려는 사람이 겪는 첫 번째 벽은 모델 선택이다. Hugging Face에는 수십만 개의 모델이 있고, 양자화 방식도 Q4_K_M, Q5_K_S, Q8_0으로 나뉜다. "내 RTX 3080으로 32B 모델이 돌아가나요?"라는 질문이 매일 r/LocalLLaMA에 수백 건씩 올라오는 이유다. whichllm은 이 질문을 CLI 한 줄로 끝낸다. 오늘 하루에만 631개의 GitHub 스타를 받으며 트렌딩 1위에 올랐다.

이게 뭔가

whichllm은 현재 내 컴퓨터의 GPU·VRAM 스펙을 자동으로 읽고 실제로 실행 가능한 LLM 중에서 성능이 가장 높은 모델을 순위로 보여주는 파이썬 CLI 도구다.

여기서 두 가지 개념을 짚고 넘어갈 필요가 있다.

VRAM은 그래픽카드 안의 전용 메모리다. LLM은 이 공간에 모델 가중치를 올려놓고 계산한다. 모델이 VRAM보다 크면 실행 자체가 안 된다.

GGUF와 양자화는 모델 크기를 줄이는 압축 기법이다. 원본 모델(F16)을 Q4_K_M으로 양자화하면 용량이 절반 이하로 줄어든다. 성능 손실은 체감하기 어려운 수준이다. 다만 어떤 양자화 수준을 골라야 하는지는 하드웨어마다 다르다. whichllm이 이걸 자동으로 계산해준다.

기존 도구들(LM Studio, Ollama 자체)은 실행 환경은 제공하지만 "어떤 모델을 선택할지"는 사용자 몫으로 남겼다. whichllm은 그 공백을 채운다.

왜 지금 뜨는가

2025년 하반기부터 Qwen 3, Llama 4 계열의 소형 고성능 모델이 쏟아졌다. 30B 이하 모델이 GPT-4급 성능에 근접하면서 소비자 GPU로 돌릴 수 있는 실용적인 선택지가 폭발적으로 늘었다. 선택지가 많아질수록 선택 피로도도 커진다.

동시에 Apple Silicon M4 Pro/Max의 통합 메모리(최대 128GB)가 대중화되면서 Mac 사용자들도 진지하게 로컬 LLM을 고려하기 시작했다. NVIDIA GPU 없이도 70B 모델을 돌릴 수 있는 환경이 갖춰졌다.

whichllm은 파라미터 수 대신 실제 벤치마크 점수로 순위를 매긴다. "27B가 32B보다 점수가 높을 수 있다"는 사실이 많은 사용자에게 낯설다. 이 도구는 그 직관을 뒤집어 보여준다.

핵심 기능

기능	설명
하드웨어 자동 감지	GPU·VRAM을 직접 읽어 실행 가능한 모델만 필터링
벤치마크 기반 순위	파라미터 수 대신 실제 성능 점수(recency-aware)
GPU 시뮬레이션	`--gpu` 플래그로 다른 하드웨어 환경 테스트
Ollama 연동	`run` 명령으로 추천 모델 즉시 실행
코드 스니펫 생성	`snippet` 명령으로 추론 코드 자동 생성
JSON 출력	`--json` 플래그로 자동화 파이프라인 연동
HuggingFace 라이브 데이터	최신 모델 정보 실시간 반영

누구에게 쓸모 있나

바로 써먹을 수 있는 사람: 로컬 LLM에 관심은 있지만 모델 선택에서 멈췄던 개발자, Apple Silicon Mac 사용자, RTX 3080~4090 보유자.

덜 유용한 경우: 클라우드 API(OpenAI, Anthropic)만 쓰는 팀, 서버 인프라 전담 엔지니어(이미 모델 선택 기준이 있음), CPU만 있는 환경(지원 범위가 GPU 중심).

시작하기

설치 없이 바로 실행하는 방법이 가장 빠르다. uv가 설치돼 있으면 된다.

uvx whichllm@latest

전통적인 pip 설치도 된다.

pip install whichllm
whichllm

사용 예시

내 하드웨어에서 최적 모델 목록 즉시 출력:

whichllm
# 출력 예시:
# #1  Qwen/Qwen3.6-27B     27.8B  Q5_K_M   score 92.8    27 t/s
# #2  Qwen/Qwen3-32B       32.0B  Q4_K_M   score 83.0    31 t/s
# #3  Qwen/Qwen3-30B-A3B   30.0B  Q5_K_M   score 82.7   102 t/s

RTX 4090 환경을 시뮬레이션해서 미리 확인:

whichllm --gpu "RTX 4090"

1순위 추천 모델을 Ollama로 바로 실행:

whichllm run

한계·주의

README 기반으로 확인된 실제 제약 사항이다.

벤치마크 데이터의 한계: "recency-aware"라고 명시하지만 모든 모델의 최신 벤치마크를 실시간으로 커버하기는 어렵다. 방금 출시된 모델은 DB에 없을 수 있다.

하드웨어 감지 정확도: 자동 감지가 모든 GPU 조합에서 완벽하지 않을 수 있다. 멀티 GPU 환경이나 비표준 드라이버에서 오류 가능성이 있다.

실행 속도는 추정값: 출력되는 토큰/초 수치는 실측이 아닌 예측값이다. 실제 환경에 따라 차이가 난다.

Ollama 의존성: run 명령을 쓰려면 Ollama가 별도로 설치돼 있어야 한다.

이 도구가 채우는 공간은 좁지만 명확하다. "어떤 모델을 쓸지 모르겠어서 시작을 못 하고 있다"는 사람에게 출발점을 준다. 그 이상을 기대하면 실망하기 쉽다.

출처

whichllm GitHub 레포 — GitHub
whichllm PyPI — PyPI

#로컬LLM #CLI도구 #AI인프라 #GGUF #Ollama #Apple Silicon #오픈소스

첫 댓글을 남겨보세요.