본문 바로가기
무모한 도전-주식 인공지능 만들기

웹 크롤링의 실습 -2-

by 인터넷떠돌이 2022. 7. 26.
반응형

안녕하세요?

 

일단 개인적인 일이 있어서 어떻게 진행이 정체되어 있는 가운데, 그래도 이미 했는 내용에 대해서 일단 포스팅이라도 올려 보고자 해서, 이번 포스팅을 준비하게 되었습니다. 일단 여기서 팍스넷에서 정보를 가지고 오는 것은 그렇게 까지 어렵지 않게 되겠지만, 다른데서 정보를 가지고 오는 것은 좀 어려울 지도 모르겠습니다.

 

먼저 request와 beutifulsoup를 통해서 가지고 온 결과입니다. 이렇게해서 어떤 웹사이트에 있는 결과든지 가져올 수 있기는 있습니다만, 다만 이 결과물을 바로 읽어서 해석하긴 매우 힘듧니다.

 

 

먼저 필요한 부분의 태그만 가지고 올 수 있도록 일단 위 스크린샷에서 보이는 부분을 가지고 오도록 합니다. 이렇게해서 보드 타입만 가지고 오면.........

 

일단 상당히 많은 부분의 자료가 줄어든 것을 확인할 수 있기는 있습니다. 이렇게 해서 하나하나 작업을 해 주어야 합니다만, 그래도 아직 사람이 읽어서 정리할 모양이 아니기는 합니다.

 

그리고 나서 다음으로 진행을 할 수 있는 것은, 이제 li라는 태그가 붙은 모든 것을 가지고 오도록 하는 것 입니다. 일단 이렇게 해서 다음 결과를 리스트 형식으로 저장할 수 있게 됩니다.

 

이렇게해서 결과를 가지고 오는데 성공했습니다만, 이게 끝이 아니기는 아닙니다. 이걸 바탕으로 해서 이제 다음의 작업을 해야 하는데, 아직도 무언가 사람이 해석할 수 있는 모양이 아니기는 아닙니다. 이를 해석해기 위해서는 일단 각 html태그도 제거해야 하는 작업이 남아 있습니다.

반응형