빅데이터가 '하둡'을 찾는 까닭
‘빅데이터’ 시대를 연 공신은 여럿이다. 스마트폰 보급과 SNS 데이터의 폭발적인 증가, 새롭게 주목받고 있는 사물네트워크(M2M) 센서 데이터와 사물인터넷(IoT) 데이터의 확산 등이 그렇다.
빅데이터는 대개 전통적인 데이터베이스(DB)나 시스템 환경에서 처리하기 힘든 대용량 데이터를 저장, 분석, 처리해 가치있는 정보로 만들어내는 일련의 과정을 일컫는다. 뉴욕 증권거래소는 하루에만 1TB에 이르는 거래 데이터가 발생한다. 페이스북엔 30PB가 넘는 사진 DB가 쌓여 있다. 이들이 대용량 데이터를 처리하는 데는 공통점이 있다. 바로 ‘하둡(Hadoop)’을 이용해 처리한다는 점이다.
하둡은 국내외를 막론하고 빅데이터를 다루는 개발자들의 관심을 한몸에 받고 있다. 이들은 하둡 생태계를 통해 빅데이터를 보다 원활하고 효율적으로 분석할 수 있다고 입을 모은다. 이유가 뭘까.
빅데이터 처리 위해 태어난 분산시스템
빅데이터라는 개념이 등장하기 이전에도 대용량 데이터를 다루는 방법은 존재했다. 성능 좋고 값비싼 시스템도 있었고, 슈퍼컴퓨터를 이용해 큰 데이터를 처리하기도 했다. 하지만 기존 시스템 환경에는 한계가 분명했다. 기업은 중요하다고 판단되는 데이터만 분석하는 데 집중했다. 스토리지나 컴퓨팅 자원도 부족했고 비용도 적잖이 드는데다 관련 기술이나 엔지니어가 부족하다는 이유에서였다.
[네이버 지식백과] 하둡 [Hadoop] - 빅데이터가 '하둡'을 찾는 까닭 (용어로 보는 IT)... 더보기
하둡 프레임워크는 대용량 데이터를 값싸고 빠르게 분석할 수 있게 돕는다. 기존에는 슈퍼컴퓨터를 며칠씩 돌려야 했던 데이터도 하둡을 이용하면 x86 서버로 실시간 분석이 가능해졌다. 이런 장점들이 알려지며 하둡은 빅데이터 처리와 분석을 위한 플랫폼 시장에서 사실상 표준으로 자리잡기 시작했다.
[네이버 지식백과] 하둡 [Hadoop] - 빅데이터가 '하둡'을 찾는 까닭 (용어로 보는 IT) |