본문 바로가기

웹 크롤링12

웹 크롤링의 실습 -12- 안녕하세요? 드디어 마지막 포스팅을 할 시간이 왔습니다. 이번 포스팅에서 팍스넷의 한개 게시판에 있는 내용을 어떻게 하면 다 가지고 올 수 있으며, 그리고 나서 다음으로 진행을 하고자 하는 것으로는........ 아직 까지는 이후의 작업이지만, 재무재표를 가지고 올 수 있어야 하긴 합니다. 하지만, 그건 나중의 일이고, 지금은 지금의 일만 신경써야 하는 상황입니다. 마지막 페이지는 600페이지가 넘어가는 것을 확인할 수 있었습니다만, 여기서는 그냥 500페이지만 가지고 오도록 생각을 했습니다. 그렇게 해서 기존에 있었던 uri와 이런 것은 다 놔두도록 하고, for loop위에 또 다른 for loop를 씌우는 식으로 해서 이제 페이지를 넘어서 웹 크롤링을 할 수 있도록 만들어 줍니다. 그리고 나서 얼마.. 2022. 8. 1.
웹 크롤링의 실습 -11- 안녕하세요? 밀린 포스팅도 이것으로 4번 연속으로 올리는 것 같은데, 아무튼 밀렸어도 올려야 할 것은 올려야 하고, 그렇지 않은 것은 없습니다.아무튼 지난번 포스팅에서 어째서 한 페이지의 내용을 다 가져오지 못하는 지에 대해서 어떻게 해결을 하는 것으로 시작을 해 보겠습니다. 아무튼 이렇게 해서 어떻게 for loop를 2번 사용하는 것으로 해서, 작업을 진행할 수 있게 되었습니다. 이제 다음으로 진행을 하자고 하면.......... 그리고 나서 해당하는 데이터는 위 스크린샷에서 볼 수 있는 것처럼 데이터 프레임의 형태로 나오게 되는데, 여기서 문제가 생겼다면 생겼습니다. 여기서 append를 사용하지 않아서 계속해서 축적이 되지 않아서 생기는 문제가 있었기 때문에 상황이 좋지 않았던 것 이었습니다. 이.. 2022. 8. 1.
웹 크롤링의 실습 -8- 안녕하세요? 이제부터 본격적으로 이 웹 크롤링을 어떻게 성공했으며, 그 과정에 대해서 포스팅을 이어서 올리고자 합니다. 일단 지난번 포스팅에서는 그 중간 과정을 보여드렸습니다만, 이번 포스팅에서는 최종 목표지점까지 가기 위해서 이래저래 밟아가는 과정을 한번 표시해 보고자 합니다. 먼저 위 슼릔샷과 같이 일단 escape character를 제거한 다음에, 이 결과에서 어떻게 결과를 추출할 수 있는지에 대해서 알아 보고자 합니다. 일단 적정가격 항목은 무언가 손이 많이 필요해 보이며, 나머지 항목에 대해서는 그렇게 많은 손볼 곳이 없다는 생각이 듭니다. 이제 다음의 과정을 한번 밟으러 가 봅니다. 먼저 첫번째 요소에 대해서 띄어쓰기로 잘라주기를 시도한 다음에, 원이나 쉼표를 없애 주도록 합니다. 그렇게 하.. 2022. 8. 1.
웹 크롤링의 실습 -7- 안녕하세요? 아직까지 무언가가 좋지 않은 가운데, 그래도 어떻게 1일 1포스팅을 지켜보고자 한번 오늘의 포스팅을 시작해 보고자 합니다. 일단 웹 크롤링을 기본적으로 할 수 있는 것을 한번 시도해 봤는데, 일단 여기까지는 그럭저럭 성공적으로 끝이 났습니다. 다만, 이후에는 어떨지 모르겠습니다. 실제로 print(repr())함수를 사용했더니, 위 스크린샷에서 볼 수 있는 것처럼 escape character가 나오는 것을 확인할 수 있었습니다. 그리고 나서 다음으로 진행을 해보고자 하는 것으로는 일단, div중에서 class:line3가 있는 태그를 한번 가지고 올 수 있는 코드를 짜 보았습니다. 그렇게 해서 일단 제대로 가지고 올 수 있는데, 우선 escape character가 상당히 거슬린다면 상당히.. 2022. 7. 31.