문서 이미지 내 그림, 표, 그래프, 글을 잘 이해하는 오픈소스 LLM 추천

King

11 7월 2025 — 4 min read

문서 이미지를 입력했을 때, 이미지 안의 다양한 시각 정보(그림, 표, 그래프, 텍스트 등)를 종합적으로 이해할 수 있는 오픈소스 LLM(멀티모달 비전-언어 모델) 중에서 성능이 우수하다고 평가받는 모델들을 아래에 정리했습니다.

1. Llama 3.2 Vision

특징: Meta에서 개발한 최신 멀티모달 LLM으로, 이미지와 텍스트를 동시에 입력받아 복잡한 문서 구조, 표, 그래프, 그림, OCR(문자 인식)까지 강력하게 처리함.
장점: 128,000 토큰의 긴 컨텍스트, 다양한 언어 지원, 대규모 파라미터(11B/90B)로 복잡한 문서 분석에 강점1 2 3.
적합 분야: 문서 내 표, 그래프, 레이아웃, 텍스트 추출 및 해석 등 종합적 문서 이해.

2. Pixtral

특징: Mistral에서 개발한 12B 파라미터 멀티모달 모델로, 이미지와 텍스트를 동시에 처리하며 여러 장의 이미지를 한 번에 입력받아 분석 가능.
장점: 다양한 크기의 이미지를 네이티브 해상도로 처리, 멀티이미지 입력, 강력한 instruction-following 성능1 2.
적합 분야: 복잡한 문서, 다중 이미지 문서, 표와 그래프가 혼합된 문서 처리.

3. Qwen 2.5 VL

특징: 7B/72B 파라미터, 커스텀 비전 인코더 탑재, 29개 언어 지원, 동적 해상도 처리, 비디오 및 객체 인식까지 확장 가능.
장점: 다양한 언어와 해상도 지원, 표·그래프·이미지·텍스트 혼합 문서에 강함2.
적합 분야: 다국어 문서, 복합 시각 정보가 많은 문서.

4. ChartLlama, ChartAssistant

특징: 차트, 그래프, 표 등 데이터 시각화 자료 해석에 특화된 오픈소스 멀티모달 LLM4 5.
장점: ChartQA, Chart-to-text, Chart-extraction 등 차트 관련 벤치마크에서 우수한 성능. 다양한 차트 타입과 작업을 지원.
적합 분야: 과학 논문, 보고서, 프레젠테이션 등에서 차트·그래프 해석.

5. LayoutLMv3, Donut

특징: 문서 레이아웃, 텍스트, 비주얼 정보를 통합적으로 처리하는 모델. OCR(광학 문자 인식) 성능이 뛰어나며, 표와 레이아웃 구조 분석에 강점6.
장점: 표, 폼, 영수증, 계약서 등 실무 문서 분석에 최적화.
적합 분야: 스캔된 문서, 복잡한 레이아웃 문서, OCR 기반 문서 처리.

비교 표

모델명	주특기/강점	지원 언어	주요 용도	라이선스
Llama 3.2 Vision	이미지+텍스트 통합 이해	다국어	문서 내 모든 시각 정보	오픈/커뮤니티
Pixtral	멀티이미지, 강한 instruction	영어 중심	복합 문서, 표, 그래프	Apache 2.0
Qwen 2.5 VL	동적 해상도, 다국어	29개 언어	표, 그래프, 비디오	Apache 2.0
ChartLlama	차트/그래프 특화	영어	차트 QA, 데이터 추출	오픈
LayoutLMv3/Donut	OCR, 레이아웃, 표 분석	영어	스캔 문서, 폼, 계약서	오픈

추천 및 활용 팁

최고의 종합성능: Llama 3.2 Vision, Pixtral, Qwen 2.5 VL은 문서 내 그림, 표, 그래프, 텍스트를 모두 잘 이해하는 최신 오픈소스 모델로 추천합니다.
차트/그래프 특화: ChartLlama, ChartAssistant는 차트·그래프 해석에 특화되어 있습니다.
OCR/레이아웃: LayoutLMv3, Donut은 표, 폼, 영수증 등 실무 문서에 강력합니다.
실제 적용: Hugging Face, GitHub 등에서 데모 및 체크포인트를 쉽게 찾을 수 있으며, GPU 환경에서 직접 테스트 가능.

참고: 최신 모델일수록 더 많은 문서 유형과 복합 시각 정보를 잘 처리하므로, 사용 목적에 따라 적합한 모델을 선택하는 것이 중요합니다1 2 4 6 5.

AI, 국제수학올림피아드에서 금빛 업적 달성! 구글과 오픈AI의 놀라운 성과

AI의 수학적 혁명: IMO 금메달 도전기 AI, 국제수학올림피아드에서 금메달 획득! 2025년, 구글과 오픈AI의 인공지능이 세계 최고 난이도의 수학 대회에서 놀라운 성과를 거두었습니다. 이는 AI의 수학적 추론 능력이 인간 수준에 근접했음을 보여주는 획기적인 순간입니다. 주요 성과 * 🏅 오픈AI: 6문제 중 5문제 해결, 42점 만점 중 35점 획득 * 🏅 구글 Gemini: IMO 금메달 기준

WebAgent: Alibaba's Next-Gen AI Agent for Autonomous Web Information Exploration

WebAgent란 무엇인가? WebAgent는 알리바바의 통이랩(Tongyi Lab)에서 개발한 혁신적인 오픈소스 프로젝트로, AI 기반 웹 탐색의 한계를 넓히는 기술입니다. 핵심은 대형 언어 모델(LLM)을 기반으로 한 자율 에이전트로, 최소한의 인간 개입으로 웹을 탐색하고 정보를 수집하며 복잡한 추론 작업까지 수행할 수 있습니다. 이제 이 흥미로운 기술을 자세히 살펴보고 어떻게 작동하는지

YOLO 모델 학습 결과 비교 기준과 효율적 평가 방법에 관한 고찰

YOLO 모델 학습을 진행하며 데이터셋 증강, 배치 구성 등의 변수 조작 후 학습 결과 비교를 위한 연구는 매우 중요한 과정입니다. 특히, 논문 작성 시 수정이 가해지지 않은 기본 상태와 고안한 방법을 적용한 상태의 학습 결과를 비교할 때 어떤 모델 파일을 기준으로 할지 고민하는 경우가 많습니다. YOLO 학습을 400 epoch로 설정할

역사의 장막을 벗기다: MLK 기밀문서, 정치 스캔들, 그리고 헌터 바이든의 충격 발언

미국 정치의 숨겨진 진실들, 이제 공개된다! 🔍 마틴 루터 킹 주니어 암살 문서 23만쪽 전격 공개 2025년 7월 21일, 국가정보국(DNI)이 MLK 암살 사건의 숨겨진 진실을 담은 6,000여 건의 문서를 최초로 공개했습니다. 트럼프 대통령의 행정명령에 따라 국민의 알 권리를 위해 추진된 이번 공개는 역사적 투명성의 중요한 이정표로 평가됩니다. 📂 오바마-코미