본문 바로가기

무모한 도전-주식 인공지능 만들기1652

웹 크롤링의 실습 -1- 안녕하세요? 어떻게 해서 이번 포스팅부터 시작을 해서, 웹 크롤링에 관해서 실습을 하기는 해 보고서 어떻게 제 것으로 만드는 과정을 밟아 가고자 합니다. 일단 이 과정을 밟기 위해서는 다른것이 아니라, 책을 보면서 한번 따라하는 과정도 거쳐봐야 하는데, 다소 답답할 수 있으리라 봅니다. 일단 모든 웹사이트는 크롬에서 위 스크린샷에서 볼 수 있는 것처럼, 일단 검사라는 기능을 통해서 어떤 식으로 만들어져 있는지 확인할 수 있습니다. 그리고 나서 위 스크린샷에서 볼 수 있는 것처럼, 특정한 파트에 어떤 코드가 사용이 되었는지 알아보기 위해서는 일단 위 스크린샷에서 볼 수 있는 것처럼 보도록 합니다. 그리고 나서 각각의 항목에 대해서 이렇게 대조를 해 보는 것으로 일단, 어떤 태그를 사용하고 있는지에 대해서 .. 2022. 7. 25.
밍기적 거리는 크롤링 시작 안녕하세요? 이제서야 Yukkuri Run의 업데이트가 승인이 되어서 어떻게 나오기는 했습니다만, 문제는 그 와중에 다른 진도를 나가기 위해서 일단 주식 인공지능의 기초가 될 이 크롤링을 하려고 했습니다만, 이래저래 집중이 되지 않아서 영 진도가 나가지 못하고 있는 중 입니다. 전자 연구노트인 구노인데, 문제는 이걸 사용한다고 해도, 너무 새로운게 되어서 인가요? 아직도 이걸 어떻게 사용해야 할지 영 감을 잡지 못하고 있습니다. 결국 이거가지고 신경쓰다가 이래저래 아무것도 못 했습니다. 결국 크롤링을 해도 되는지 안되는지를 알아보기 위해서 robot.txt를 가지고 한번 알아봐야 하는데, 그 방법을 실습해 보았습니다. 일단 방법은 간단하게도, 주소끝에 robots.txt를 입력해 보는 것 입니다. 결국 .. 2022. 7. 24.
드디어 시작한 웹 크롤링 첫걸음 -4- 안녕하세요? 이번 포스팅에서는 다른것이 아니라, 일단 이번 웹 크롤링의 첫 걸음을 어떻게 해서 다 떼기는 했지만, 그런다고 해서 크롤링의 고수가 된 것은 절대 아니고, 겨우 시작을 했을 뿐 입니다. 일단 관련된 내용을 블로그에 포스팅 하고, 이제 이래저래 다루어 보면서 하나하나 익혀야 하기는 합니다. 일단 if문을 붙여 주는 것으로, 저 변수에 내용이 None인 경우에 한해서 그냥 패스하도록 설계를 하기는 했습니다. 이제 이렇게 하였으니, 다음으로 넘어가 봅니다. 다음으로 간 것은, 바로 위 슼르니샷에서 볼 수 있는 것처럼 에러가 없이 제대로 실행되고 종료가 되는 상황이 나왔습니다. 이제 다음으로 가 보도록 합니다. 그래도 에러가 나서 무엇이 문제인지 봤더니, 위 스크린샷에서 보이는 것처럼 아예 공백으로.. 2022. 4. 13.
드디어 시작한 웹 크롤링 첫걸음 -3- 안녕하세요? 이번 포스팅에서는 지난번 포스팅에서 발생하면 안되는 예제의 에러를 보고서 한번 작업을 이어서, 이 오류를 수정하고 나서 움직여 보고자 합니다. 일단 이 작업을 하기 위해서는 이래저래 모르는 것도 많았습니다만, 그래도 달달 책을 외우기만 해서는 이게 안될 일이기는 합니다. ㅇ리단 어떻게 하였나 하면, 바로 list_news2 라는 태그가 과거의 웹페이지 - 다음 뉴스 페이지에서는 있었습니다만, 지금의 웹 페이지에서는 없어서 생기는 문제입니다. 그래서 list_newsissue라고 태그를 바꾸어 주었더니, 이렇게 그럭저럭 쓸만한 내용으로 나오는 것을 확인할 수 있기는 있었습니다. 그리고 나서 위 스크린샷에서 보이는 것처럼 3줄의 코드를 추가하는 방법을 통해서 이번에도 어떻게 먹히는지 아닌지에 대.. 2022. 4. 13.