2023년 7월 동안 검색하고 공부한 것들을 정리한 내용입니다. 1. ValueError: could not convert string to float 에러 로그 : ValueError: could not convert string to float: '' 원인 : '' 값이 포함된 string에 대해 float로 dtype을 변경하려고 함. 해결...
[pipenv] python 가상환경 및 패키지 관리
여러 프로젝트를 진행하다 보면 ‘python 버전’이나 ‘패키지 버전’으로 인해 문제가 생기는 경우가 많습니다. 이런 문제를 겪은 분들은 각 프로젝트마다 ‘가상환경’을 생성해 이용합니다. 파이썬에서 가상환경을 생성하는 툴 중 하나인 pipenv에 대해서 알아보겠습니다. Pipenv is a Python virtualenv management t...
[DB] Hive & Impala - connection & sqlalchemy
파이썬 환경에서 Hive와 Impala를 사용할 수 있는 방법에 대해 간단하게 알아 보겠습니다. 1. Hive Hive는 하둡에서 동작하는 data warehouse 시스템으로 HiveQL이라는 SQL 쿼리를 통해 대용량의 데이터를 읽고, 쓰고, 관리하는 기능을 지원합니다. 1.1 hive connection 다른 DB와 동일하게 connectio...
23년 4월의 공부 - index를 이용한 조건 검색, pd.date_range, pd.DataFrame.shift
2023년 4월 동안 검색하고 공부한 것들을 정리한 내용입니다. Summary pd.DataFrame에서 특정 변수에 대한 조건을 이용해 검색할 때, index를 활용하면 속도가 빠름. pd.date_range() : 시작 시간에서 지정한 개수 또는 주기에 대한 DatetimeIndex 출력. pd.DataFrame.shift() : i...
[sklearn] pipeline - Pipeline() & make_pipeline()
sklearn에서 전처리 과정을 파이프라인으로 정의하는 방법인 Pipeline과 make_pipeline 함수에 대해 공통점과 차이점에 대해서 알아보겠습니다. TL;DR Pipeline과 make_pipeline을 이용해 transform의 파이프라인을 정의할 수 있음. Pipeline: 각 transform의 이름을 직접 정의해줘야 함. ...
[python] File format - pickle, parquet
csv 이외에 (파이썬에서) 사용할 수 있는 데이터 저장 방식 중 2가지, pickle과 parquet에 대해서 간략하게 알아보겠습니다. TL;DR pickle: 바이트 기반 python object 저장 방식. 읽기 속도 빠르지만 호환성 낮음. parquet: 컬럼 기반 저장 방식. subset 컬럼 옵션 이용 가능하고 호환성 높음. 추가...
23년 3월의 공부 - np.logical_or, list 조합, pd.offsets.MonthBegin
2023년 3월 동안 검색하고 공부한 것들을 정리한 내용입니다. Summary np.logical_or() : 2개의 array에 대한 논리합 계산. itertools.product() : iterable 객체의 cartesian product 계산, 2개 이상의 iterable 객체 가능. pd.offsets.MonthBegin(n) ...
[sklearn] Classification 예제 - part 2. Classification metrics
palmerpenguins 데이터로 Classfication 예제 코드를 작성합니다. 이번 파트에서는 구성한 파이프라인(logistic regression)에 대해 분류 문제에서 사용되는 평가 지표에 대해 자세히 알아봅니다. TL;DR multi-class 분류 문제의 경우, 평가 지표의 average 옵션을 활용할 수 있음. ...
[sklearn] Classification 예제 - part 1. Scaler, Encoder, Pipeline
palmerpenguins 데이터로 Classfication 예제 코드를 작성합니다. 이번 파트에서는 Scaler, Encoder를 설정하는 다양한 방법을 알아 보고, 파이프라인을 구성하는 부분까지 진행합니다. TL;DR Scaler와 Encoder 적용하는 방법 직접 정의 클래스 정의 - class ...
23년 2월의 공부 - datetime(날짜와 시간 다루기), pandas display options, 모델 이름 추출, directory 생성
2023년 2월 동안 검색하고 공부한 것들을 정리한 내용입니다. 1. datetime 참고자료 datetime 공식문서 datetime 공식문서 - strftime()과 strptime() 동작 datetime은 날짜와 시간을 다루는 파이썬의 기본 패키지입니다. 그 중 주로 사용하는 몇 가지 함수...