빅 데이터 프로세싱

Big data processing

1 개요

'빅 데이터'란 본래 경제적으로 가치를 창출해 낼 수 있는 설문조사 결과 모음집으로 정의되며 '빅 데이터 프로세싱'이란 빅 데이터에서 돈이 될 만한 것을 뽑아내는 기술로 정의되었다. 그러나 빅 데이터 기술이 대중에게 유명해진 지금은 경제 분야에 국한되어 쓰이지 않는 용어가 되었다.

현재 빅데이터는 비정형데이터[1]까지 분석하여 활용가능한 정보를 추출하고자 하는 노력을 하고 있다.

2012년 초엽부터 IT업계에서 급속도로 확산되고 있는 신기술. 신문 같은 미디어 매체에서는 약칭인 빅 데이터를 주로 사용하고 있다. 사물인터넷(IoT)의 대두와 더불어 빅데이터의 중요성이 계속 강조되고 있는 것도, 사물인터넷(IoT)에서 수집된 다양한 상황정보(context)를 다루는데 빅데이터(대규모이면서 비정형인 데이터의 분석 및 처리)가 필수적이라는 맥락에서 이해하면 된다.

비정형데이터라는 것의 특성상 분석이 어렵기 때문에 빅데이터 솔루션시장에는 수 많은 업체들이 난립하고 있으며, 대형벤더에서는 솔루션업체들을 인수하여 솔루션을 강화하고자 하는 실정이다. 사람들의 마음 속을 어느 정도 계량화해서 데이터로 만들어 응용하는 것이 가능하다 보니 주요 대기업들 사이에서 독자적인 빅 데이터 응용 모델 만들기가 대유행중이다. 특히 그러나 아직까지 뚜렷한 성과를 낸 기업은 2012년 기준으로 대한민국에는 없는 모양. 유엔에서도 이와 관련하여 빅 데이터를 국제개발 및 사회발전에 활용하기 위해 BD4D(Big Data for Development)라는 개념도 만들었다. 대표적인 것이 반기문 사무총장이 주도하고 있는 유엔 글로벌 펄스(UN Global Pulse).

2 5V

빅 데이터의 특징을 언급할 때 가트너그룹의 "3V"에서 분석의 정확성 부분을 추가하여 흔히 4V가 거론된다.가트너그룹에서 빅데이터의 특성을 3V(Volume, Variety, Velocity)로 정의하였으며, 학계와 산업계의 지속적인 연구와 개념정의를 하다보니 빅데이터에 대한 정의가 추가되고 있는 것. 빅데이터는 활용되는 목적에 따라 정의가 달라질 수 있으므로 우선은 빅데이터에 대하여 포괄적이고 개념적으로 이해하는 것이 필요하다.

  • Volume(규모) : 빅데이터는 당연히 대용량이다. 일례로 페이스북이 하둡(Hadoop) 데이터베이스에 저장하는 사진문서 용량이 30페타바이트(대략 30,000TB)에 이른다. 뉴욕 증권거래소는 매일같이 1TB에 해당하는 데이터를 쏟아낸다. 좀 더 극단적인 예를 들자면, 우리나라 전국 각지의 골목길마다 설치된 CCTV 영상 수년치 분을 데이터로 취합한다고 상상해 보자. 바이트 수로 어느 정도 규모일지 짐작이 되는가?
  • Variety(다양성) : 흔히 비정형적 데이터(Unstructured Data)로 불리는 것들, 즉 계량화 및 수치화가 힘든 데이터까지도 포함하는 것이 빅 데이터이다. 대표적인 예로는 SNS 상에서 오가는 무수한 잡담들, 유튜브 영상이나 음원 파일 등도 빅 데이터 분석에 사용될 수 있다.
  • Velocity(속도) : 이런 어마어마한 양의 다양한 데이터를 분석하려다 보니 과거의 느린 데이터 마이닝 속도나 분석 속도로는 어림도 없는 일이다. 빅 데이터가 적시에 유용한 정보를 뽑아내기 위해서는 당연히 속도가 빨라야 한다.

위에 서술한 문장은 빅데이터 처리 관점이며. 빅데이터 자체의 특성과 관련한 관점에서는 어마어마한 데이터가 아주 짧은 시간에 아주 빠르게 생성되고 사라지고(아주 짧은 시간 동안만 유의미할 수도 있음)를 반복한다는 의미가 더 크다.

  • Veracity(정확성): 빅데이터의 특성상 방대한 데이터들을 기반으로 분석을 하게되는데, 이러한 분석에서 질이 높은 데이터를 활용하는 것이 분석의 정확도에 영향을 준다.

이후의 빅 데이터 2.0에서는 위의 4가지 요소에 한가지를 더 추가하여 "5V" 로 표현하고 있다.

  • Value(가치) : 빅 데이터가 추구하는 것은 가치의 창출이다. 빅 데이터 분석을 통해 도출된 결론은 기업이나 조직의 당면한 문제를 해결할 수 있어야 하며 통찰력 있는 유용한 정보를 제공해야 한다.

3 활용

  • '추천 엔진' 운용(Recommend system or engine,1992 Goldberg) - '페이스북의 당신이 알 수도 있는 사람', '아마존 추천 상품' 등
  • 검색엔진의 검색어 분포도를 통한 데이터 추출 : 특정 사용자가 검색하는 검색어 패턴이나 클릭해서 본 적이 있는 각종 인터넷 광고들의 통계를 내서 정확도 순서로 맞춰 리스트를 출력해 주는데, 이것이 빅 데이터 응용의 기본 개념이다. 특정 지역에서 감기 또는 감기약 등의 검색어를 사용하는 빈도가 늘어난다고 하면 해당 지역에 감기약의 공급을 늘릴 필요가 있다.[2]
  • 시내버스 노선 통계를 낼 때도 유용하다. 이전에는 요금함을 일일이 뒤져서 액수 다 세고 그리고 어디서 내리는지도 알 수 없었으나 수도권 통합 요금 도입으로 인해 내릴 때 카드를 찍는 것이 일반화되어 승하차량을 좀 더 간편히 알 수 있게 되어 시내버스 노선을 새로 짤 경우 유용하게 사용될 수 있다.
  • 심리/동향 분석 - SNS 포스팅이나 인터넷 광고 클릭 성향 등을 통한 맞춤형 정보 제공.
    • 정당 후보의 선거유세 활동 - SNS속 빅 데이터의 분석으로 유권자 개개인의 특성과 성향을 분류하고 이에 따라 마이크로 타겟팅이 가능. 실제로 2012 미국 대선에서 민주당 오바마 당시 후보가 사용했던 선거 전략으로, 약 1억 건의 빅 데이터 분석을 통해 유권자의 정당 지지 성향, 관심 공약, 투표율 등을 고려하여 약 600종류의 이메일로 선거활동을 한 바 있다.
  • 빅 데이터 리스크 모델링 - 금융업계에서의 투자 시나리오 작성 보조
  • 인터넷 사기행위 탐지 - 거래데이터 및 평가도 기준으로 필터링 가능. 남아프리카의 보험사 Santam 사에서는 예측 분석과 위험 세분화 등을 통해 발견한 패턴으로 보험 사기를 좀 더 빠르게 적발하고, 보험사기 확률이 낮은 건에 대한 처리 속도를 개선해 고객만족도 역시 높였다.
  • 각종 네트워크 모니터링 - 빅 데이터 통합 카테고리로 통합된 온라인 업무 정리

4 기타

종종 조지 오웰의 빅 브라더와도 관련되어 언급되곤 한다. 혹시 혼동할까봐 구별하자면 빅 데이터는 데이터베이스 관련 기술명이며 빅 브라더는 국가권력의 비합법적인 사회 감시체계를 말하는 것이다. 물론 "데이터 권력", "정보 권력" 이라 하여 빅 데이터가 절대적 권력자의 손에 들어가는 순간... 사실상 사회의 완벽한 통제가 가능해진다. "빅 데이터는 가장 유능한 게슈타포보다도 정보력이 좋다" 는 말이 데이터 전문가들 사이에 돌 정도인데 이렇게 되면 뭐...

데이터의 양이 지나치게 늘어난 사회에 살다 보니, 당연하게도 빅 데이터의 치명적 약점으로 사생활 침해개인정보 유출의 문제가 발생할 수 있다. 솔직히 말이 좋아 개인 SNS 빅 데이터 분석이지, 까놓고 말하면 그냥 숫제 도청과 크게 다를 바 없다.(…) 게다가 사회가 감당하기 어려울 만큼 데이터가 폭증하고 있는데 이걸 관리할 전문인력이 없다는 것도 문제이다. 데이터를 분석하던 회사가 망해 버리면 그 데이터는 어디로 가느냐도 문제. 이러다 보니 또 일각에서는 소위 "데이터 다이어트" 라는 것까지도 제안하고 있는 상태.

한병철 교수의 저서 《심리정치》 에서는 빅 데이터에 대해 대륙권 지성의 입장에서 매우 부정적인 입장을 피력하고 있다. 그런데 그의 책에서 놓친 점이 있는데, 위에서 언급한 비정형적 데이터라는 개념을 논의에 포함하지 않음으로써, "빅 데이터는 양적 분석이 질적 분석을 정복해 버리려는 움직임이며, 마치 통계학에 대한 과신과도 같다" 는 잘못된 결론을 내렸다는 것이다. 위의 V자 단어들을 다시 보자. 빅 데이터는 그 자체로 다양성(variety)을 갖고 있기 때문에 양적 데이터든 질적 데이터든 더 이상 가리지 않으며, 이를 통해 결과를 정량적 숫자로 보여주는 것 또한 아니며 도리어 가치(value)를 창출한다.

비슷한 시각으로 임태훈 교수의 저서《검색되지 않을 자유》에서는 빅 데이터로 인한 정형화된 인간의 만연에 대해 경계할 것을 요구한다. 단순히 정보 유출 등의 문제를 떠나 인간으로서의 존엄성과 같은 철학적인 부분까지도 재검토해볼 필요가 있을 것이다.
  1. 사진, 음악, 동영상 등과 같은 정형화하기 곤란한 데이터를 말한다. 정형데이터는 DB에서 흔히 보는 누구나 아는 그런 데이터이다.
  2. 이 활용법이 서울대 의대 면접 제시문으로 등장했다. #