본문 바로가기

전체 글3551

빅데이터(?)의 처리하는 방법-3- 안녕하세요? 이번 포스팅에서는 예상치 못하게 그냥 parquet(파케이)형식으로 데이터를 저장한다고 시도를 하다 보니, pyarrow라는 모듈이 필요하다고 나오는 것을 확인할 수 있었습니다. 일단 이게 무엇인지 인터넷을 검색해 보니까, 위 스크린샷과 같이 볼 수 있는데, 일단 저로서는 정확하게 이게 무엇을 하는 라이브러리인지는 잘 모르겠습니다. 하지만, 이게 dask의 데이터프레임을 파케이형식의 파일에 저장하기 위해서는 필요한 라이브러리라는 것 까진 알 수 있었습니다. 그래서 먼저 아나콘다 프롬프트를 실행시킨 다음에, 위 스크린샷에서 나오는 것처럼 conda install pyarrow -c conda -forge라는 명령어를 써서 기존의 환경에 설치를 하도록 합니다. 그런데 오타를 내서 한번 conda.. 2019. 5. 7.
빅데이터(?)의 처리하는 방법-2- 안녕하세요? 지난번 포스팅부터 무언가 pandas의 데이터 프레임으로 처리를 할 수 없는 작업들-제 컴퓨터의 8기가 RAM으로도 메모리 에러라는 메모리 부족 현상때문에 처리할 수 없는 대량의 데이터-저는 이 정도면 사실상 빅데이터라고 하기 싶은데, 상대적으로 가정용으로 가지고 있는 조금은 구형인 PC에서는 처리할 수 없을 정도로 큰 데이터를 어떻게 처리할 수 있는지에 대해서 한번 들어가 보고자 합니다. 그래서 지난번에는 왜 인지 계속해서 numpy를 인식하지 못하는 가 했더니, 위 스크린샷에서 나와 있는 것처럼 stack overflow를 찾아 보니까, numpy를 업그레이드 시켜 주라는 이야기가 있었습니다. 그래서 pip install --upgrade numpy라고 입력해서 업그레이드를 시켜 보도록 .. 2019. 5. 7.
빅데이터(?)의 처리하는 방법 안녕하세요? 제목에서 약간 어색하게 적기는 했지만, 어쨎든 간에 제 컴퓨터의 8기가 짜리 RAM으로 도저히 다 처리할 수 없어서 메모리 에러(memoryError)이 일어난 케이스이니까, 제 컴퓨터에 한해서는 정말 크기는 큰 데이터를 어떻게 처리해야 할 필요성은 있습니다. 그래서 이번 포스팅부터 일련의 과정은 이 에러를 처리하기 위한 과정입니다. 먼저 이 문제를 해결하기 위해서 한번 데이터를 모아본 결과, dask의 dataframe이 용량을 줄여 주어서 문제를 해결할 수 있다고 합니다. 그래서 먼저 위 스크린샷처럼 conda install dask라고 아나콘다 프롬프트에서 입력해 보도록 합니다. 좀 설치에 시간이 걸리기는 걸렸습니다. 그래서 이렇게 시간이 걸린 다음에, 기존의 환경에 어떻게 설치가 되기.. 2019. 5. 6.
다시금 시작된 랜덤워크 테스트와 예상치 못한 한계 안녕하세요? 일단 어찌어찌 되었건 간에 일단은 새로운 한주가 되었기 때문에, 이번에도 역시나 랜덤워크로 어떤 종목들이 움직이고 안 움직이는 지를 알아봐야 할 필요가 있었습니다. 그래서 이번 포스팅에서는 ADF 테스트, 허스트 지수, 그리고 Half-life 주기를 알아보는 작업을 해서, 그 결과를 정리하고자 합니다. 먼저 시간이 1주일이 지나기는 지났기 대문에, 일단 지난번에는 3월 30일 부터 데이터를 모았는데, 이번에는 3월 27일 부터 가지고 오도록 합니다. 그리고 나서 이전에는 잠시 주석처리가 되어 있었던 ADF 테스트와 Half-life 테스트를 다시 사용하기 위해서 주석을 해제 하도록 합니다. 그리고 나서 다음으로는 위 스크린샷에서 나와 있는 것처럼 이번에는 아예 800으로 값을 올려서 밤새 .. 2019. 5. 5.