본문 바로가기
무모한 도전-주식 인공지능 만들기

웹 크롤링의 실습 -12-

by 인터넷떠돌이 2022. 8. 1.
반응형

안녕하세요?

 

드디어 마지막 포스팅을 할 시간이 왔습니다. 이번 포스팅에서 팍스넷의 한개 게시판에 있는 내용을 어떻게 하면 다 가지고 올 수 있으며, 그리고 나서 다음으로 진행을 하고자 하는 것으로는........ 아직 까지는 이후의 작업이지만, 재무재표를 가지고 올 수 있어야 하긴 합니다. 하지만, 그건 나중의 일이고, 지금은 지금의 일만 신경써야 하는 상황입니다.

 

마지막 페이지는 600페이지가 넘어가는 것을 확인할 수 있었습니다만, 여기서는 그냥 500페이지만 가지고 오도록 생각을 했습니다.

 

그렇게 해서 기존에 있었던 uri와 이런 것은 다 놔두도록 하고, for loop위에 또 다른 for loop를 씌우는 식으로 해서 이제 페이지를 넘어서 웹 크롤링을 할 수 있도록 만들어 줍니다.

 

그리고 나서 얼마나 진행이 되었는지 알기 위해서, 일단 한번 긁고나서 나오는 데이터 - 페이지 하나의 데이터에 대해서는 표시가 될 수 있도록 만들어 줍니다.

 

 

이렇게 해서 하나하나 가지고 오는데 성공한 듯 보이지만, 무언가 불길하다는 생각도 들면서 어느새 완료가 되기는 되는 것을 확인할 수 있었습니다.

 

실수로 이걸 데이터 베이스에 저장하는 것을 깜빡해서 데이터가 그냥 날라가 버렸습니다. 이에 대해서 일단 위 스크린샷에서 볼 수 있는 것처럼 하나 만들어 주도록 합니다.

 

이렇게 해서 페이지의 마지막은 반드시 sql에 집어넣는 메서드로 연결이 되도록 만들었으며, 여기다가는 새로운 데이터가 들어오면 append를 하도록 설정해 줍니다.

 

이렇게 한타이밍을 또 긁어서 위 스크린샷에서 볼 수 있는 것처럼 하나 만들어 내는데 성공하기는 성공했습니다. 이제 내용물을 살펴볼 차례입니다.

 

이제 이렇게 해서 어떻게 필요한 데이터를 완전히 가지고 오는데 성공적으로 끝이 나기는 났습니다. 이를 바탕으로 해서 다음 실험에 들어가는 일만이 남아 있는데, 이에 대해서는 다음 포스팅 부터 다시 시작해야 할 일이라는 생각이 듭니다. 이제  웹 크롤링에 대해서 어느정도 마치기는 했는데, 아직도 책에는 더 해야할 일이 남아 있기는 합니다.

반응형

'무모한 도전-주식 인공지능 만들기' 카테고리의 다른 글

웹 크롤링의 실습 -11-  (0) 2022.08.01
웹 크롤링의 실습 -10-  (0) 2022.08.01
웹 크롤링의 실습 -9-  (0) 2022.08.01
웹 크롤링의 실습 -8-  (0) 2022.08.01
웹 크롤링의 실습 -7-  (0) 2022.07.31