Lego
취소

[pandas] read_excel(): calamine & openpyxl

Python 데이터 파이프라인에서 Excel 파일을 읽는 작업은 생각보다 병목이 되기 쉽습니다. 특히 수십만~수백만 셀 규모의 .xlsx 파일을 처리할 때는 엔진 선택이 성능을 크게 좌우합니다. pandas 2.2+부터 calamine 엔진이 추가되면서, 기존의 openpyxl 엔진과 비교해 속도 중심 vs 호환성 중심의 선택지가 생겼습니다. 이 ...

[AWS] Lambda API

AWS SDK인 boto3의 Lambda와 관련된 주요 메서드를 알아 보겠습니다. 공통 import boto3 import json client = boto3.client("lambda") list_functions() list_functions은 lambda 함수의 목록을 확인하는 메서드입니다. 한 번에 최대 50개의 함수 목록만 출력되며...

[AWS] S3 API

AWS SDK인 boto3의 S3와 관련된 주요 메서드를 알아 보겠습니다. 공통 botocore.config를 통해 AWS 클라이언트를 구성할 때 재시도 정책, 타임아웃, 지역 등의 다양한 설정을 지정할 수 있습니다. from botocore.config import Config as BotoConfig config = BotoConfig( ...

[python] collections.defaultdict

defaultdict는 일반적인 딕셔너리(dict)와 유사하지만, 기본값을 자동으로 설정할 수 있는 기능이 추가된 자료형입니다. 기본 일반 dict에서는 존재하지 않는 키에 접근하려 하면 KeyError가 발생합니다. 하지만 defaultdict는 키가 없을 경우 자동으로 설정한 기본값으로 생성해줍니다. 설정할 수 있는 기본값(arg: defaul...

[polars] Lag & Lead

이번 글에서는 polars에서 SQL의 LAG와 LEAD 방식의 처리를 하는 방법에 대해서 알아 보겠습니다. 기본 polars에서 LAG와 LEAD는 shift를 이용하면 됩니다. pl.col("value").shift(n)은 LAG, 즉 해당 컬럼의 n개 이전 값을 그리고 pl.col("value").shift(-n)은 LEAD, n개 이후 값을...

[AWS] Step function 데이터 limit

AWS Step Functions는 개발자가 AWS 서비스를 사용하여 (분산) 애플리케이션 구축 / 자동화 / 오케스트레이션하고, 데이터 및 ML 파이프라인을 생성할 수 있도록 지원하는 시각적 워크플로 서비스입니다. Step Functions에는 ‘데이터 크기 제한’(Data Size Limit)이 있습니다. 각 상태(State) 간 전달되는 입력(...

[Docker] Dangling image 제거

Docker에서 어떠한 태그도 연결되지 않은 이미지를 dangling 이미지라고 합니다. repository나 tag 이름이 <none> 으로 표시되는 이미지입니다. dangling 이미지는 보통 이미지 빌드 중 중간에 실패했거나, 태그가 변경된 후 남겨진 불필요한 이미지로, 주기적으로 정리해주는 것이 디스크 공간 확보에 도움이 됩니다. ...

[polars] join_asof - 가장 가까운 값 join

이번 글에서는 polars의 join_asof에 대해서 알아 보겠습니다. 기본 개념 polars의 join_asof는 SQL의 LEFT JOIN과 비슷하지만, 정확한 일치가 아니라 가장 가까운 값을 기준으로 join하는 것이 특징입니다. 두 테이블에 대해, 비교 열을 기준으로 정렬된 상태에서 가장 가까운 값과 join하는 기능을 수행합니다. joi...

[polars] group_by_dynamic

이번 글에서는 polars에서 시간 window에 기반한 연산 방법인 group_by_dynamic에 대해서 알아 보겠습니다. 기본 개념 polars에서 group_by_dynamic 연산은 지정된 시간 단위로 데이터를 나누고, 각 시간 window 안에서 해당 컬럼의 group_by를 계산합니다. group_by_dynamic의 디폴트 옵션으로 ...

[polars] Boolean 컬럼에 대한 count와 sum

이번 글에서는 polars에서 Boolean 컬럼에 대한 count와 sum의 차이에 대해서 알아 보겠습니다. 기본 개념 polars에서 Boolean 컬럼을 대상으로 count()와 sum()을 수행했을 때의 기본 동작 원리는 다음과 같습니다. count() count()는 해당 컬럼의 “전체 값 개수”(결측값 제외)를 ...