AWS SDK인 boto3의 Lambda와 관련된 주요 메서드를 알아 보겠습니다. 공통 import boto3 import json client = boto3.client("lambda") list_functions() list_functions은 lambda 함수의 목록을 확인하는 메서드입니다. 한 번에 최대 50개의 함수 목록만 출력되며...
[AWS] S3 API
AWS SDK인 boto3의 S3와 관련된 주요 메서드를 알아 보겠습니다. 공통 botocore.config를 통해 AWS 클라이언트를 구성할 때 재시도 정책, 타임아웃, 지역 등의 다양한 설정을 지정할 수 있습니다. from botocore.config import Config as BotoConfig config = BotoConfig( ...
[python] collections.defaultdict
defaultdict는 일반적인 딕셔너리(dict)와 유사하지만, 기본값을 자동으로 설정할 수 있는 기능이 추가된 자료형입니다. 기본 일반 dict에서는 존재하지 않는 키에 접근하려 하면 KeyError가 발생합니다. 하지만 defaultdict는 키가 없을 경우 자동으로 설정한 기본값으로 생성해줍니다. 설정할 수 있는 기본값(arg: defaul...
[polars] Lag & Lead
이번 글에서는 polars에서 SQL의 LAG와 LEAD 방식의 처리를 하는 방법에 대해서 알아 보겠습니다. 기본 polars에서 LAG와 LEAD는 shift를 이용하면 됩니다. pl.col("value").shift(n)은 LAG, 즉 해당 컬럼의 n개 이전 값을 그리고 pl.col("value").shift(-n)은 LEAD, n개 이후 값을...
[AWS] Step function 데이터 limit
AWS Step Functions는 개발자가 AWS 서비스를 사용하여 (분산) 애플리케이션 구축 / 자동화 / 오케스트레이션하고, 데이터 및 ML 파이프라인을 생성할 수 있도록 지원하는 시각적 워크플로 서비스입니다. Step Functions에는 ‘데이터 크기 제한’(Data Size Limit)이 있습니다. 각 상태(State) 간 전달되는 입력(...
[Docker] Dangling image 제거
Docker에서 어떠한 태그도 연결되지 않은 이미지를 dangling 이미지라고 합니다. repository나 tag 이름이 <none> 으로 표시되는 이미지입니다. dangling 이미지는 보통 이미지 빌드 중 중간에 실패했거나, 태그가 변경된 후 남겨진 불필요한 이미지로, 주기적으로 정리해주는 것이 디스크 공간 확보에 도움이 됩니다. ...
[polars] join_asof - 가장 가까운 값 join
이번 글에서는 polars의 join_asof에 대해서 알아 보겠습니다. 기본 개념 polars의 join_asof는 SQL의 LEFT JOIN과 비슷하지만, 정확한 일치가 아니라 가장 가까운 값을 기준으로 join하는 것이 특징입니다. 두 테이블에 대해, 비교 열을 기준으로 정렬된 상태에서 가장 가까운 값과 join하는 기능을 수행합니다. joi...
[polars] group_by_dynamic
이번 글에서는 polars에서 시간 window에 기반한 연산 방법인 group_by_dynamic에 대해서 알아 보겠습니다. 기본 개념 polars에서 group_by_dynamic 연산은 지정된 시간 단위로 데이터를 나누고, 각 시간 window 안에서 해당 컬럼의 group_by를 계산합니다. group_by_dynamic의 디폴트 옵션으로 ...
[polars] Boolean 컬럼에 대한 count와 sum
이번 글에서는 polars에서 Boolean 컬럼에 대한 count와 sum의 차이에 대해서 알아 보겠습니다. 기본 개념 polars에서 Boolean 컬럼을 대상으로 count()와 sum()을 수행했을 때의 기본 동작 원리는 다음과 같습니다. count() count()는 해당 컬럼의 “전체 값 개수”(결측값 제외)를 ...
[polars] anti_join - 한쪽 테이블에만 있는 행 반환
이번 글에서는 polars의 anti_join에 대해서 알아 보겠습니다. 기본 개념 Anti Join은 두 개의 테이블을 조인할 때, 한쪽 테이블에는 있지만 다른 테이블에는 존재하지 않는 행만 반환하는 join 방식입니다. SQL 기준으로, LEFT JOIN 후 NULL 값이 있는 행만 필터링하는 방식과 동일합니다. 코드 polars에서 anti...