Python 데이터 파이프라인에서 Excel 파일을 읽는 작업은 생각보다 병목이 되기 쉽습니다. 특히 수십만~수백만 셀 규모의 .xlsx 파일을 처리할 때는 엔진 선택이 성능을 크게 좌우합니다.

pandas 2.2+부터 calamine 엔진이 추가되면서, 기존의 openpyxl 엔진과 비교해 속도 중심 vs 호환성 중심의 선택지가 생겼습니다.

이 글에서는 다음을 정리합니다.

Excel Reader Engine 구조

Excel을 읽는 과정은 크게 다음 단계로 구성됩니다.

Excel file (.xlsx)
        │
        ▼
[Excel parsing engine]
  - openpyxl
  - calamine
        │
        ▼
DataFrame 생성
  - pandas
  - polars

openpyxl vs calamine 구조적 차이

특징

동작 방식

Excel file
   ↓
zip 해제
   ↓
xml parsing
   ↓
Cell 객체 생성
   ↓
Python loop로 DataFrame 변환

문제점

강점

특징

동작 방식

Excel file
   ↓
Rust parser
   ↓
columnar data extraction
   ↓
DataFrame 생성

강점

약점

pandas 2.2 릴리즈 노트에서는 다음과 같은 내용이 명시되어 있습니다.

하지만 예외도 있습니다.

이는 openpyxl의 lazy iteration 특성 때문입니다.

Excel을 빠르게 읽고 싶다면 calamine, Excel을 정확하게 해석하고 싶다면 openpyxl.