보유기술

빅데이터

빅데이터란?

빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미합니다. 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 규모 또는 테라바이트 이상의 데이터, 대용량 데이터를 처리하는 아키텍처라고 정의합니다.


빅데이터의 특징

빅데이터의 특징으로는 크기(Volume), 속도(Velocity), 다양성(Variety)을 들 수 있습니다. 크기는 일반적으로 수십 테라 바이트 혹은 수십 페타바이트 이상 규모의 데이터 속성을 의미합니다. 속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성이며 융복합 환경에서 디지털 데이터는 매우 빠른 속도로 생산되므로 이를 실시간으로 저장, 유통, 수집, 분석처리가 가능한 성능을 의미합니다. 다양성(Variety)은 다양한 종류의 데이터를 의미하며 정형화의 종류에 따라 정형, 반정형, 비정형 데이터로 분류할 수 있습니다.


빅데이터 플랫폼

빅데이터 플랫폼은 빅데이터 기술의 집합체이자 기술을 잘 사용할 수 있도록 준비된 환경입니다. 기업들은 빅데이터 플랫폼을 사용하여 빅데이터를 수집, 저장, 처리 및 관리 할 수 있습니다. 빅데이터 플랫폼은 빅데이터를 분석하거나 활용하는 데 필요한 필수 인프라인 셈입니다. 빅데이터 플랫폼은 빅데이터라는 원석을 발굴하고, 보관, 가공하는 일련의 과정을 이음새 없이 통합적으로 제공해야 합니다. 이러한 안정적 기반 위에서 전처리된 데이터를 분석하고 이를 다시 각종 업무에 맞게 가공하여 활용한다면 사용자가 원하는 가치를 정확하게 얻을 수 있을 것입니다.


빅데이터의 핵심 기술

빅데이터를 다루는 처리 프로세스로서 병렬 처리의 핵심은 분할 점령입니다. 즉 데이터를 독립된 형태로 나누고 이를 병렬적으로 처리하는 것을 말합니다. 빅데이터의 데이터 처리란 이렇게 문제를 여러 개의 작은 연산으로 나누고 이를 취합하여 하나의 결과로 만드는 것을 뜻합니다. 대용량의 데이터를 처리하는 기술 중 가장 널리 알려진 것은 아파치 하둡(Apache Hadoop)과 같은 Map-Reduce 방식의 분산 데이터 처리 프레임워크입니다.