Data Science/Python
[python] dataframe apply() multiprocessing
큰 데이터를 데이터프레임에서 가공 / 조작할 때 속도 개선하고자, multiprocessing 이용하는 방법을 소개합니다. 1. Import modules from multiprocessing import Pool, freeze_support, cpu_count import pandas as pd import numpy as np import time 2. Mutiprocessing Apply function np.array_split()함수로 데이터프레임을 지정한 수(프로세스수)만큼 분리한다. Pool.map()함수를 이용해서 각 프로세스마다 분할한 데이터 프레임을 인자로 입력하여 인자로 지정한 func 을 실행한다. 여기서 출력된 데이터프레임들을 pd.concat함수로 하나로 합친다. def data..
2022. 9. 5. 23:21
최근댓글