본문 바로가기

전체 글3264

웹 크롤링의 실습 -11- 안녕하세요? 밀린 포스팅도 이것으로 4번 연속으로 올리는 것 같은데, 아무튼 밀렸어도 올려야 할 것은 올려야 하고, 그렇지 않은 것은 없습니다.아무튼 지난번 포스팅에서 어째서 한 페이지의 내용을 다 가져오지 못하는 지에 대해서 어떻게 해결을 하는 것으로 시작을 해 보겠습니다. 아무튼 이렇게 해서 어떻게 for loop를 2번 사용하는 것으로 해서, 작업을 진행할 수 있게 되었습니다. 이제 다음으로 진행을 하자고 하면.......... 그리고 나서 해당하는 데이터는 위 스크린샷에서 볼 수 있는 것처럼 데이터 프레임의 형태로 나오게 되는데, 여기서 문제가 생겼다면 생겼습니다. 여기서 append를 사용하지 않아서 계속해서 축적이 되지 않아서 생기는 문제가 있었기 때문에 상황이 좋지 않았던 것 이었습니다. 이.. 2022. 8. 1.
웹 크롤링의 실습 -10- 안녕하세요? 이번 포스팅에서도 다를 것이 없이 일단, 웹 크롤링에 대해서 포스팅을 하면서 진행을 해 보고자 합니다. 일단 지난번 포스팅에서 어떻게 해서 에러가 나왔고, 이 에러에 대해서 이제 처리를 하기 위한 과정을 한번 진행해 보고자 합니다. 일단 이 에러부터 어떻게 처리해야 합니다. 이 방법의 해답은 일단 리스트를 데이터 프레임에 넣을 때 []를 넣어주는 것 이었습니다. 이렇게 해서 일단 에러를 해결하긴 했었고, 이제 다음으로 넘어가 봐야 합니다. 이제서야 어떻게 리스트 안에 들어간 데이터가 제대로 나오는 것을 확인할 수 있었습니다. 이렇게 데이터 프레임에 넣는 것이 성공했으니........... 다음 형식으로는 페이지 한개에 걸쳐서 어떻게 데이터를 다 받아 올 수 있도록 하는 것입니다. 일단 여기서.. 2022. 8. 1.
웹 크롤링의 실습 -9- 안녕하세요? 계속해서 이어지는 웹 크롤링에 대한 포스팅입니다. 일단 여기서 확인할 수 있는 것은 역시나 웹 크롤링이 원래 목적이 아니라, 여기서 확인할 수 있는 정보를 바탕으로 인공지능 - 주로 기계학습을 활용해야 하는데, 아직까지는 이 단계에는 들어가지는 못 했습니다. 일단 그토록 원하고 원했던 적정가격 항목을 어떻게 숫자 형식으로 가지고 오는데 성공했습니다. 이제 다음으로 가서, 이 데이터가 제대로 표시가 되는 것을 알았습니다. 그리고 나서 다음으로 한 것은 지금까지 작업을 하였는 코드를 한개의 메서드 안에 두도록 하는 작업을 시작했습니다. 여기까진 그렇게 어렵진 않았습니다. 그리고 나서 return으로 가지고 오는 것을 내놓기 위해서는 일단, 위 스크린샷에서 볼 수 있는 것처럼, 우선 무언가 리스트.. 2022. 8. 1.
웹 크롤링의 실습 -8- 안녕하세요? 이제부터 본격적으로 이 웹 크롤링을 어떻게 성공했으며, 그 과정에 대해서 포스팅을 이어서 올리고자 합니다. 일단 지난번 포스팅에서는 그 중간 과정을 보여드렸습니다만, 이번 포스팅에서는 최종 목표지점까지 가기 위해서 이래저래 밟아가는 과정을 한번 표시해 보고자 합니다. 먼저 위 슼릔샷과 같이 일단 escape character를 제거한 다음에, 이 결과에서 어떻게 결과를 추출할 수 있는지에 대해서 알아 보고자 합니다. 일단 적정가격 항목은 무언가 손이 많이 필요해 보이며, 나머지 항목에 대해서는 그렇게 많은 손볼 곳이 없다는 생각이 듭니다. 이제 다음의 과정을 한번 밟으러 가 봅니다. 먼저 첫번째 요소에 대해서 띄어쓰기로 잘라주기를 시도한 다음에, 원이나 쉼표를 없애 주도록 합니다. 그렇게 하.. 2022. 8. 1.