본문 바로가기
무모한 도전-주식 인공지능 만들기

빅데이터(?)의 처리하는 방법

by 인터넷떠돌이 2019. 5. 6.
반응형

안녕하세요?

 

제목에서 약간 어색하게 적기는 했지만, 어쨎든 간에 제 컴퓨터의 8기가 짜리 RAM으로 도저히 다 처리할 수 없어서 메모리 에러(memoryError)이 일어난 케이스이니까, 제 컴퓨터에 한해서는 정말 크기는 큰 데이터를 어떻게 처리해야 할 필요성은 있습니다. 그래서 이번 포스팅부터 일련의 과정은 이 에러를 처리하기 위한 과정입니다.

 

먼저 이 문제를 해결하기 위해서 한번 데이터를 모아본 결과, dask의 dataframe이 용량을 줄여 주어서 문제를 해결할 수 있다고 합니다. 그래서 먼저 위 스크린샷처럼 conda install dask라고 아나콘다 프롬프트에서 입력해 보도록 합니다.

 

좀 설치에 시간이 걸리기는 걸렸습니다. 그래서 이렇게 시간이 걸린 다음에, 기존의 환경에 어떻게 설치가 되기는 되었으니까, 한번 가 보도록 합니다.

 

그리고 나서 위 스크린샷에서 나오는 것처럼 한번 import하기를 해 보도록 합니다. 지금은 아무도 찾아주지 않아서 그냥 회색으로 빛이 바래있는 상황이기는 합니다.

 

그리고 나서 위 스크린샷처럼 dask.dataframe.from_pandas(기존의 데이터 프레임) 이라는 식으로 입력을 해서, 기존의 pandas의 dataframe을 dask의 dataframe으로 바꾸어 주도록 합니다.

 

그런데 numpy가 분명히 설치되어 있을 법도 한데, 왜 인지 모르게 numpy가 없다는 에러 메세지가 나오는 것을 확인할 수 있었습니다.

 

 

그래서 위 스크린샷처럼 한번 import numpy라고 하면 상황이 나아질 것이라고 생각을 하면서 한번 작업에 다시 들어가 보도록 합니다.

 

그렇게 py파일의 첫머리에 import numpy라고 했음에도 불구하고, 상황이 전혀 나아지지 않는 것을 확인할 수 있기는 있었습니다.

 

그래서 다음으로 아나콘다 프롬프트를 실행시킨 다음에, 위 스크린샷에서 보이는 것처럼 numpy를 도로 pip를 이용해서 uninstall시켜 주도록 합니다.

 

다음으로는 위 스크린샷에서 보이는 것처럼 한번 pandas의 unistall역시 한번 만들어 주도록 합니다. 모든 언인스톨 명령은 pip uninstall 모듈이름 이라는 형식으로 가능했습니다.

 

그 다음으로는 pandas를 다시 설치하도록 해 봅니다.

 

다음으로는 numpy를 다시 인스톨 해서 문제가 해결이 되기를 기대하면서 다시 파이참을 실행시켜 봅니다.

 

이렇게 하자마자 위 스크린샷과 같이 새로이 볼 수 있는 에러가 생성이 되는 것을 볼 수 있었습니다. 즉, 이렇게 해서야 일이 끝나지 않고 늘어난다는 생각이 들기도 합니다.

 

그래서 이번에는 pip install dask[dataframe] --upgrade 라고 입력을 해서, 기존에 설치가 되어 있는 dask의 업그래이드를 하도록 해 봅니다.

 

그러나 여전히 상황이 해결이 되지 않는 것을 확인할 수 있었습니다. 아무래도 numpy 자체부터 이 프로그램에서 인식을 전혀 못하는 것이 아닌가 하는데, 다음 포스팅에서는 이렇게 기존의 pandas에서 했던 작업을 dask의 데이터 프레임으로 바꾸는 것을 올리도록 해 보겠습니다.

반응형