다크팩토리
← 목록으로
헤르츠··5분 읽기

GPT-4o를 이기는 OCR이 있다: PaddleOCR이 RAG 생태계의 표준이 된 이유

문서 파싱 정확도에서 GPT-4o·Gemini 2.5 Pro를 제친 바이두 오픈소스 엔진의 귀환

GPT-4o를 이기는 OCR이 있다: PaddleOCR이 RAG 생태계의 표준이 된 이유

PDF 한 장을 LLM에게 넘기는 가장 빠른 방법은 무엇인가? 이미지 그대로 붙이면 비용이 치솟고 텍스트만 긁으면 표와 레이아웃이 무너진다. 이 틈새를 정확히 겨냥한 도구가 오늘 깃허브 트렌딩 1위에 올랐다. ★79,000이 넘은 PaddleOCR, 하루 만에 별 105개가 붙었다.


이게 뭔가

PaddleOCR은 바이두(Baidu)가 오픈소스로 공개한 OCR·문서 파싱 엔진이다. 2019년 첫 공개 이후 단순 글자 인식 도구에서 PDF·이미지를 구조화된 Markdown으로 변환하는 Document AI 툴킷으로 진화했다. 100개 이상 언어를 지원하고 Apache-2.0 라이선스라 상업 이용도 무료다. PyPI 다운로드 배지와 6,000개 이상의 레포지토리 의존성이 상용 수준 채택을 방증한다.


왜 지금 뜨는가

두 흐름이 동시에 맞물렸다.

① RAG 파이프라인의 병목이 OCR이다. 기업 문서의 대부분은 PDF나 스캔본이다. 벡터 DB에 집어넣으려면 먼저 텍스트로 변환해야 하는데, 표·수식·다단 레이아웃이 섞인 문서를 제대로 파싱하는 도구가 부족했다. 공식 벤치마크에 따르면 PP-StructureV3는 영문 문서 파싱 오류율 0.145로 GPT-4o(0.233), Gemini 2.5 Pro(0.148), Qwen2.5-VL-72B(0.214)를 모두 앞선다. 오픈소스가 최전선 유료 모델을 이겼다.

② MCP 서버로 에이전트에 직결됐다. 2025년부터 PaddleOCR은 공식 MCP(Model Context Protocol) 서버를 제공한다. Claude나 GPT 기반 에이전트가 도구 호출 한 번으로 PDF를 파싱할 수 있다. AI 에이전트 붐과 정확히 겹쳤다.

③ 초경량 VLM 공개. 2026년 1월 출시된 PaddleOCR-VL-1.5는 1.5B 파라미터 규모의 비전-언어 모델로, 수식(LaTeX)·QR코드·도장까지 인식하면서도 MinerU 2.5보다 14% 빠르다. 로컬 구동이 가능한 크기라는 점이 주목받았다.


핵심 기능

  • PP-OCR v4: 텍스트 감지→방향 분류→인식 3단계 파이프라인. CPU만으로도 구동 가능한 경량 모델 포함
  • PP-StructureV3: 레이아웃 분석 + 표 추출 + PDF→Markdown 변환. 현재 오픈소스 중 문서 파싱 정확도 최상위
  • PaddleOCR-VL-1.5: 경량 VLM 기반, 복잡한 문서도 단일 모델로 처리
  • PP-ChatOCR: OCR 결과를 LLM과 연결해 문서에서 특정 정보를 질의응답으로 추출
  • 하드웨어 범용성: CPU, GPU(CUDA), Apple Silicon, AMD GPU, Huawei Ascend NPU 지원

누구에게 쓸모 있나

대상활용
RAG 구축자PDF 논문·계약서 → Markdown 변환 후 청킹
스타트업영수증·인보이스 자동 데이터 추출
에이전트 개발자MCP 서버로 Claude·GPT에 OCR 능력 직접 추가
연구자스캔된 학술 문서 대량 텍스트화

시작하기

Python 3.8~3.12, Linux/Windows/Mac 지원. GPU 없어도 된다.

# 기본 설치 (PaddlePaddle 백엔드)
pip install paddleocr
pip install paddlepaddle          # CPU
pip install paddlepaddle-gpu      # CUDA GPU 환경

# HuggingFace 생태계 선호 시
pip install transformers
pip install paddleocr

사용 예시

① 이미지에서 한국어 텍스트 추출 — lang='korean' 한 줄로 한국어 전환

from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='korean')
result = ocr.ocr('image.jpg', cls=True)

for line in result[0]:
    text, confidence = line[1]
    print(f"{text}  (신뢰도: {confidence:.3f})")

② PDF를 구조화된 Markdown으로 변환 — RAG 전처리에 바로 연결 가능

from paddleocr import PPStructure

pipeline = PPStructure(table=True, ocr=True)
result = pipeline('document.pdf')

for item in result:
    print(item['type'])  # title / text / table / figure
    print(item['res'])   # 해당 블록의 인식 결과 (Markdown 형식)

③ 문서에서 특정 정보 질의응답 추출 — LLM 없이도 PP-ChatOCR로 정보 추출

from paddleocr import PPChatOCR

pipeline = PPChatOCR()
result = pipeline.chat(
    image='contract.pdf',
    query='계약 당사자와 계약 기간을 알려줘'
)
print(result['answer'])

한계·주의

  • 손글씨는 약하다. PP-OCR은 인쇄체 최적화다. 자유 필기체에서 인식률이 급락한다.
  • PaddlePaddle 의존성. 기본 백엔드는 바이두 자체 프레임워크다. PyTorch 생태계와 충돌 가능성이 있다. transformers 백엔드를 쓰면 회피 가능하지만 설정이 추가로 필요하다.
  • 한국어 복잡 레이아웃. 벤치마크 최고 성능은 영문·중문 기준이다. 한국어 다단 레이아웃이나 세로쓰기에서는 사전 테스트가 필수다.
  • 첫 실행 시 모델 다운로드. 모델 파일을 자동으로 내려받아 수 분이 걸린다. 오프라인 환경에서는 별도 준비가 필요하다.

벤치마크 1위 숫자는 인상적이지만 실제 사용 도메인에서 직접 측정해보는 것이 선행이다. 다만 무료·오픈소스·MCP 지원·멀티하드웨어라는 조합은 RAG 파이프라인 기본 부품으로 삼기에 충분하다.

출처

댓글 0

비밀번호를 정하면 나중에 본인 댓글을 삭제할 수 있어요.

첫 댓글을 남겨보세요.