본문 바로가기
과학 토막상식 이야기

많이 듣기는 했지만, 정확히는 몰랐는 '빅데이터'

by 인터넷떠돌이 2017. 11. 1.
반응형

안녕하세요?


4차 산업혁명이니 뭐다 해서 3D 프린터와 인공지능만 생각하기 쉽지만, 그 중에 하나로 포함되어 있는 것이 바로 '빅 데이터'라는 것도 포함되어 있습니다. 지금까지 말로는 많이 빅데이터, 빅데이터 라고 들어는 봤지만, 정확히는 무엇인지 알지는 못했습니다. 그런데 Newton의 2017년 11월호 기사를 보니 이에 대한 설명이 있기에, 이번 포스팅에서 다루고자 합니다.



일단 기사에서 나와있는 가장 간단한 정의를 보자면 [디지털 환경에서 생성되는 데이터로 그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터 뿐아니라 문자와 영상 데이터를 포함하는 대규모 데이터]라고 정의가 되어 있습니다. 한마디로 데이터의 그 양이 상당히 크다고 해서 이름에서 부터 ''이 붙었는 건지도 모르겠습니다.




그런데 위의 간단한 정의만으로는 안되는지 또 다른 것으로는 '사람들'이 인터넷을 이용하면서 '흔적'이라고 하는 것을 남기는데, 한마디로 무슨 사이트에서 어떤 상품들을 관심있게 보았나 하는 그 모든 과거 기록이 '흔적'인데, 이러한 '흔적들'이 모여서 만들어 진것이 바로 '빅데이터'라고 하며, 그 크기는 '수십 테라바이트' 또는 '수십 페타바이트' 라고 한다고 합니다.



물론 크기만 커서는 무슨 의미가 있겠냐 만은, 이 거대한 데이터를 빠르게 처리할 수 있도록 속도(velocity)가 필요하며, 다양성(variety)라고 해서 다양한 종류의 데이터가 필요하다고 합니다. 그런데 여기까지만 들어도 이게 왜 4차 산업혁명과 관계가 되는지는 알 수 없으며, 그전에 어떻게 사용 하는지 여부가 궁금해 집니다.



이 빅데이터의 사용에는 6개의 단계가 필요하다고 기사에서는 언급이 되어 있습니다. 

1) 각계각층의 다양한 사람들로 부터 데이터를 쌓아가는 단계인 데이터 생성

2) 필요로 하는 데이터를 모으는 데이터 수집

3) 수집된 데이터를 안전하게 저장하는 데이터 저장

4) 저장된 데이터를 가공하고 처리하는 데이터 처리

5) 데이터 분석

6) 누구나 알기 쉽도록 해석하고 의미를 부여하는 '데이터 스토리 텔링'

이런 단계를 거친다고 합니다.




이 블로그에서도 몇번 포스팅을 한적이 있었는 인공지능 의사 '왓슨'을 비롯해서, 구글의 자동번역 시스템, 아마존의 도서추천 시스템 등이 있으며, 미국 국세청의 '통합형 탈세 및 사기범죄 방지 시스템'이라는 것을 구축해서 사용하고 있다고 합니다. 이처럼 빅 데이터는 주로 기업에서 많이 사용하고 있지만, 공공부분에서도 사용할 수 있다고 합니다.



일단 이 기사만 보자면 단순히 덩치만 큰 데이터의 가공 처리과정 인것 같기는 하지만, 이게 과거에는 컴퓨터의 성능 한계로 인해서 도저히 다루지 못했던 대용량의 데이터를 처리 할 수 있게 되면서 떠오르는 분야가 되었다고 합니다. 다만 이 빅데이터 자체의 수집과정에서 나오는 특징 때문에 '악용'에 대한 우려는 언제나 있다고 들었습니다.

반응형