문서 이미지 내 그림, 표, 그래프, 글을 잘 이해하는 오픈소스 LLM 추천

문서 이미지를 입력했을 때, 이미지 안의 다양한 시각 정보(그림, 표, 그래프, 텍스트 등)를 종합적으로 이해할 수 있는 오픈소스 LLM(멀티모달 비전-언어 모델) 중에서 성능이 우수하다고 평가받는 모델들을 아래에 정리했습니다.
1. Llama 3.2 Vision
- 특징: Meta에서 개발한 최신 멀티모달 LLM으로, 이미지와 텍스트를 동시에 입력받아 복잡한 문서 구조, 표, 그래프, 그림, OCR(문자 인식)까지 강력하게 처리함.
- 장점: 128,000 토큰의 긴 컨텍스트, 다양한 언어 지원, 대규모 파라미터(11B/90B)로 복잡한 문서 분석에 강점123.
- 적합 분야: 문서 내 표, 그래프, 레이아웃, 텍스트 추출 및 해석 등 종합적 문서 이해.
2. Pixtral
- 특징: Mistral에서 개발한 12B 파라미터 멀티모달 모델로, 이미지와 텍스트를 동시에 처리하며 여러 장의 이미지를 한 번에 입력받아 분석 가능.
- 장점: 다양한 크기의 이미지를 네이티브 해상도로 처리, 멀티이미지 입력, 강력한 instruction-following 성능12.
- 적합 분야: 복잡한 문서, 다중 이미지 문서, 표와 그래프가 혼합된 문서 처리.
3. Qwen 2.5 VL
- 특징: 7B/72B 파라미터, 커스텀 비전 인코더 탑재, 29개 언어 지원, 동적 해상도 처리, 비디오 및 객체 인식까지 확장 가능.
- 장점: 다양한 언어와 해상도 지원, 표·그래프·이미지·텍스트 혼합 문서에 강함2.
- 적합 분야: 다국어 문서, 복합 시각 정보가 많은 문서.
4. ChartLlama, ChartAssistant
- 특징: 차트, 그래프, 표 등 데이터 시각화 자료 해석에 특화된 오픈소스 멀티모달 LLM45.
- 장점: ChartQA, Chart-to-text, Chart-extraction 등 차트 관련 벤치마크에서 우수한 성능. 다양한 차트 타입과 작업을 지원.
- 적합 분야: 과학 논문, 보고서, 프레젠테이션 등에서 차트·그래프 해석.
5. LayoutLMv3, Donut
- 특징: 문서 레이아웃, 텍스트, 비주얼 정보를 통합적으로 처리하는 모델. OCR(광학 문자 인식) 성능이 뛰어나며, 표와 레이아웃 구조 분석에 강점6.
- 장점: 표, 폼, 영수증, 계약서 등 실무 문서 분석에 최적화.
- 적합 분야: 스캔된 문서, 복잡한 레이아웃 문서, OCR 기반 문서 처리.
비교 표
모델명 | 주특기/강점 | 지원 언어 | 주요 용도 | 라이선스 |
---|---|---|---|---|
Llama 3.2 Vision | 이미지+텍스트 통합 이해 | 다국어 | 문서 내 모든 시각 정보 | 오픈/커뮤니티 |
Pixtral | 멀티이미지, 강한 instruction | 영어 중심 | 복합 문서, 표, 그래프 | Apache 2.0 |
Qwen 2.5 VL | 동적 해상도, 다국어 | 29개 언어 | 표, 그래프, 비디오 | Apache 2.0 |
ChartLlama | 차트/그래프 특화 | 영어 | 차트 QA, 데이터 추출 | 오픈 |
LayoutLMv3/Donut | OCR, 레이아웃, 표 분석 | 영어 | 스캔 문서, 폼, 계약서 | 오픈 |
추천 및 활용 팁
- 최고의 종합성능: Llama 3.2 Vision, Pixtral, Qwen 2.5 VL은 문서 내 그림, 표, 그래프, 텍스트를 모두 잘 이해하는 최신 오픈소스 모델로 추천합니다.
- 차트/그래프 특화: ChartLlama, ChartAssistant는 차트·그래프 해석에 특화되어 있습니다.
- OCR/레이아웃: LayoutLMv3, Donut은 표, 폼, 영수증 등 실무 문서에 강력합니다.
- 실제 적용: Hugging Face, GitHub 등에서 데모 및 체크포인트를 쉽게 찾을 수 있으며, GPU 환경에서 직접 테스트 가능.
참고: 최신 모델일수록 더 많은 문서 유형과 복합 시각 정보를 잘 처리하므로, 사용 목적에 따라 적합한 모델을 선택하는 것이 중요합니다12465.