본문 바로가기

파이썬1295

웹 크롤링의 실습 -2- 안녕하세요? 일단 개인적인 일이 있어서 어떻게 진행이 정체되어 있는 가운데, 그래도 이미 했는 내용에 대해서 일단 포스팅이라도 올려 보고자 해서, 이번 포스팅을 준비하게 되었습니다. 일단 여기서 팍스넷에서 정보를 가지고 오는 것은 그렇게 까지 어렵지 않게 되겠지만, 다른데서 정보를 가지고 오는 것은 좀 어려울 지도 모르겠습니다. 먼저 request와 beutifulsoup를 통해서 가지고 온 결과입니다. 이렇게해서 어떤 웹사이트에 있는 결과든지 가져올 수 있기는 있습니다만, 다만 이 결과물을 바로 읽어서 해석하긴 매우 힘듧니다. 먼저 필요한 부분의 태그만 가지고 올 수 있도록 일단 위 스크린샷에서 보이는 부분을 가지고 오도록 합니다. 이렇게해서 보드 타입만 가지고 오면......... 일단 상당히 많은 .. 2022. 7. 26.
웹 크롤링의 실습 -1- 안녕하세요? 어떻게 해서 이번 포스팅부터 시작을 해서, 웹 크롤링에 관해서 실습을 하기는 해 보고서 어떻게 제 것으로 만드는 과정을 밟아 가고자 합니다. 일단 이 과정을 밟기 위해서는 다른것이 아니라, 책을 보면서 한번 따라하는 과정도 거쳐봐야 하는데, 다소 답답할 수 있으리라 봅니다. 일단 모든 웹사이트는 크롬에서 위 스크린샷에서 볼 수 있는 것처럼, 일단 검사라는 기능을 통해서 어떤 식으로 만들어져 있는지 확인할 수 있습니다. 그리고 나서 위 스크린샷에서 볼 수 있는 것처럼, 특정한 파트에 어떤 코드가 사용이 되었는지 알아보기 위해서는 일단 위 스크린샷에서 볼 수 있는 것처럼 보도록 합니다. 그리고 나서 각각의 항목에 대해서 이렇게 대조를 해 보는 것으로 일단, 어떤 태그를 사용하고 있는지에 대해서 .. 2022. 7. 25.
밍기적 거리는 크롤링 시작 안녕하세요? 이제서야 Yukkuri Run의 업데이트가 승인이 되어서 어떻게 나오기는 했습니다만, 문제는 그 와중에 다른 진도를 나가기 위해서 일단 주식 인공지능의 기초가 될 이 크롤링을 하려고 했습니다만, 이래저래 집중이 되지 않아서 영 진도가 나가지 못하고 있는 중 입니다. 전자 연구노트인 구노인데, 문제는 이걸 사용한다고 해도, 너무 새로운게 되어서 인가요? 아직도 이걸 어떻게 사용해야 할지 영 감을 잡지 못하고 있습니다. 결국 이거가지고 신경쓰다가 이래저래 아무것도 못 했습니다. 결국 크롤링을 해도 되는지 안되는지를 알아보기 위해서 robot.txt를 가지고 한번 알아봐야 하는데, 그 방법을 실습해 보았습니다. 일단 방법은 간단하게도, 주소끝에 robots.txt를 입력해 보는 것 입니다. 결국 .. 2022. 7. 24.
모델의 변형 & 적용 -8- 안녕하세요? 지난번 포스팅에서 막 이상치에 대해서 한번 다루는 시간을 가졌는데, 이번 포스팅에서 본격적으로 다루어서 어떤 다른 결과가 나오는 지에 대해서 이야기를 해 보고자 합니다. 이렇게 이상치를 제거하는 것을 미리 알았으면 좋았겠지만, 제 통계학 지식이 여기에는 미치지 못한 것이 있기는 있었습니다. 다음 model로 model02에 대해서 한번 들어가 보도록 했습니다. 여기서 확인할 수 있는 것이라고는 일단 위 스크린샷에서 보이는 것처럼 이상치가 나올 경우 표시할 틈을 먼저 만들어 주도록 했습니다. 이렇게 해서 여기서도 Z-score의 값이 절대값으로 2 이상이 나오게 되면, 이상치로 규정을 하였더니, 역시나 이상치가 나오기는 나왔습니다. 그리고 나서 이어서 이상치로 규정이 된 값을 제거하고 진짜로 .. 2022. 2. 12.