안드로이드 단말에서 LLM 돌리기
안드로이드 폰에서 gguf 파일(로컬 LLM 모델)을 로딩하여 직접 실행하는 것은 가능합니다. 가장 실용적이며 많이 사용되는 방법은 다음과 같습니다:
실행 방법 요약
- 핵심 툴:
llama.cpp
- 환경: 안드로이드에 리눅스 터미널 환경을 제공하는 Termux 앱
실제 동작 방법
- Termux 설치
- 구글 플레이스토어나 공식 GitHub에서 Termux를 설치하세요.
- 필요 패키지 설치 및 llama.cpp 빌드
- Termux에서 다음 명령어로 기본 패키지 설치:
bash
apt update && apt upgrade -yapt install git
cmake clang - llama.cpp 코드 다운로드 및 빌드:
bashgit
clone https://github.com/ggerganov/llama.cpp.gitcd
llama.cpp
cmake -B build
cd buildmake
- Termux에서 다음 명령어로 기본 패키지 설치:
- gguf 모델 파일 다운로드
- Hugging Face 등에서 원하는 gguf 파일을 Termux 내로 다운로드합니다.
bashcurl -L "https://huggingface.co/경로/모델명.gguf"
-o 모델명.gguf
- Hugging Face 등에서 원하는 gguf 파일을 Termux 내로 다운로드합니다.
- 모델 실행
- 예시 명령어:
bash./main -m ./모델명.gguf -p "안녕하세요!"
- 실제 명령어와 옵션, 추론 방법은 llama.cpp 공식 문서나 참고.
- 예시 명령어:
주의할 점 및 실제 체감
- 성능: 최신 하이엔드 폰(예: 스냅드래곤 8 Gen 3~Elite, RAM 12GB 이상)에서만 쓸만한 속도가 나올 수 있습니다.
예) 스냅드래곤 8 Elite 칩셋/NPU 지원 시 약 17 token/sec 속도 측정. - 모델 용량: 너무 큰 gguf 모델(10GB 이상)은 메모리 부족 등으로 아예 실행이 안 될 수 있습니다. 보통 3B~7B, 양자화(Q4, Q5 등)된 버전을 선택하세요.
- GPU/NPU 활용: 최신 Termux 및 폰에서 NPU, GPU 가속 지원되는 경우도 있으나, 한계와 폰별 차이가 큽니다.
- 실습 사례: 실제로 Galaxy S25 등에서 Termux + llama.cpp로 gguf 파일 실행 성공 사례가 다수 보고되어 있습니다.
결론
- gguf 파일을 안드로이드 폰에서 직접 로딩·실행하는 것은 가능합니다.
- 대부분 Termux + llama.cpp 조합을 사용합니다.
- 하드웨어 및 모델 크기에 따라 속도와 실제 사용 편의성이 크게 다릅니다.
특별한 루팅이나 복잡한 설정 없이도 위와 같은 방법으로 시도할 수 있습니다.