빅데이터 정제의 개념, 처리 방식, 주요 솔루션
본문 바로가기
BIG DATA

빅데이터 정제의 개념, 처리 방식, 주요 솔루션

by 보고톡톡 2022. 6. 18.
반응형

수집한 빅데이터를 시각화하고 정보화하기 위해서 정제 즉, 클렌징(Cleansing) 작업이 요구된다. 이는 원시적 데이터 형태를 정제 과정을 통해 빅데이터로 분석할 수 있는 구조를 갖추기 위함이다.

 

빅데이터를 처리하는 과정은 데이터에서 유용한 정보를 찾아내고, 그 안에 숨어 있는 지식을 찾아내 의사결정을 지원하기 위한 목적으로 데이터를 ①점검, ②정제, ③변환, ④모델링 및 분석하는 프로세스를 모두 포함한다. 빅데이터를 처리하는 시스템은 단독적인 형태라기보다는 다른 스토리지 시스템과 연계된 소프트웨어나 플랫폼 형식으로 존재한다. 아울러 빅데이터 처리 시스템을 구축하기 위한 하드웨어 역시 개별적인 시스템 구축보다는 클라우드 컴퓨팅 방식이 더 많이 고려되고 있다.

 

 

1. 데이터 정제란?

한 문장으로 표현하면, 데이터 오류를 일으키는 주요 요소들을 제거하는 것이 데이터 정제 과정이다. 여기서 자주 언급되는 세 가지 오류 요소들이 있는데, 바로 (1) 결측치(missing value), (2) 잡음(noise), (3) 이상치(outlier)다. 이 세 가지는 단어만 봐도 의미가 대강 통할 것 같다. 그래도 짤막하게 설명하면, 다음과 같다.

 

(1) 결측치란 측정된 샘플에서 누락된 변수값이다. 결측치와 관련된 오류를 제거하려면, 해당 샘플 제거, 해당 변수만 제거, 평균이나 중앙값 등 통계량 또는 회귀 분석을 사용해 결측치를 추정하는 등의 방법을 사용한다.

 

(2) 데이터에서의 잡음(noise)이란 데이터 측정 시 개입된 임의적인 요인이 해당 변숫값을 참값에서 벗어나게 만드는 오류를 의미한다. 예를 들어, 어떤 데이터 변화를 측정하는 과정에서 통신상의 오류로 인해 잘못된 값이 측정된 경우 데이터 잡음이 발생했다고 할 수 있다. 이 노이즈를 제거하기 위해 구간화(binning), 군집화(clusting), 회귀모형(regression model)을 통한 변환 방식 등이 사용된다.

 

(3) 마지막으로 이상치(outlier)라는 것은 데이터의 집합에서 대부분의 다른 측정값과 현저한 차이를 보이는 샘플이나 변숫값을 의미한다. 이는 단순 오류일 수도 있고, 정상적인 값인데 특이값인 경우일 수도 있다.

 

이러한 결측치, 잡음, 이상치를 제거하거나 교정하는 것을 데이터 교정 작업이라고 통칭할 수 있는데, 이는 빅데이터를 정제 처리하는 작업 중 하나로 아주 중요한 부분이다. 빅데이터 정체 작업은 크게 데이터 변환, 교정, 통합의 세 가지로 구분한다. 데이터 변환은 주로 ETL이라는 과정을 통해 이뤄지는데, 여기서는 ETL(Extract, Transform, Load)의 주요 기능 정도에 대해서만 기억해두면 좋을 것 같다.·

 

ETL
주요 기능
·논리적 데이터 변환
·도메인 검증
·기본값 생성
·데이터 요약
·불필요 혹은 중복 데이터 삭제
·DBMS 간 데이터 변환

·레코드 통합

 

빅데이터 정제 개념 정제처리 방법 주요 솔루션 소개
빅데이터 정제 개념 정제처리 방법 주요 솔루션 소개

 

다음은 빅데이터 정제 처리를 수행하는 주요 솔루션에 대해 알아보는 순서다. 빅데이터의 정제와 관련된 데이터 처리 방식은 크게 (1) 대화형 처리, (2) 배치 처리, (3) 실시간 처리로 구분한다.

대화형 처리 ·대용량 데이터 이용시 원하는 질의에 대한 답을 수 초 내에 얻음
·서비스 BI 대시보드 형태로 제공
배치 처리 ·일일, 주간, 월간 등 주기적인 작업 수행 형태
·답을 얻는데 일정한 시간이 소요됨
실시간 처리 ·이벤트성 응답 또는 데이터 스트림의 준 실시간 처리를 위해 사용
·결제, 비정상 카드 사용 등에 대한 데이터 분석

 

 

2. 빅데이터 정제처리 주요 솔루션

빅데이터 정제 처리와 관련된 대표적인 솔루션으로 다음 네 가지를 이야기할 수 있다. 각 솔루션의 주요 기능에 대해서도 간략히 알아두면 좋겠다.

 

클라우데라
(Cloudera)
·빅데이터 분석 오픈 소스 SW Hadoop 전문기업
·CDH(Cloudera Distribution Including Apache Hadoop) 하둡 배포판 무료 제공
호튼웍스
(Hortonworks)
·하둡 플랫폼 핵심 설계, 구축 및 테스트 수행
·HDP(Hortonworks Data Platform) 하둡 배포판 무료 제공
애저
(Azure)
·마이크로소프트(MS)에서 운영하는 데이터 분석, 컴퓨팅, DB, 모바일, 저장소와 웹이 통합된 클라우드 서비스 플랫폼
·하둡의 클러스터 서비스 HDInsight를 통한 빅데이터 처리 서비스
·호튼웍스 및 클라우데라와 호환되는 가상머신 서비스를 통한 빅데이터 처리 서비스
아마존웹서비스
(AWS)
·아마존닷컴이 제공하는 원격 컴퓨팅 서비스
·빅데이터 처리를 위한 (*)맵리듀스 프레임웍을 클라우드 서비스 형태로 제공

 

*맵리듀스(MapReduce)

AWS(아마존웹서비스)를 언급하면서 맵리듀스 프레임워크에 대해 언급했는데, 맵리듀스를 통한 데이터 정제처리는 빅데이터에 대해 학습할 때 자주 접하게 될 내용이다.

 

맵리듀스는 데이터를 배치 처리하는 방식으로, 맵리듀스 프레임워크는 'Map'과 'Reduce' 함수를 합친 용어이다. apReduce 프레임웍은 분산된 데이터를 키와 값의 리스트로 모으는 Map 단계와 리스트 중에서 원하는 데이터를 찾아 처리하는 Reduce 단계를 수행한다.

 

맵리듀스 개요 ·데이터 분산 병렬 처리 방식
·개발자는 실제 맵과 리듀스 기능 코드만 작성, 분산 병렬 처리 시스템에서 자동 처리
·하나의 Mapper 프로그램은 HDFS로부터 하나의 입력 split 처리
·하나의 레코드(키, 값)를 맵퍼 프로그램에 전달
·맵퍼의 중간값은 로컬 디스크에 저장, 최종 리듀스 결과는 HDFS에 블록 형태로 저장
프로그래밍 언어 ·주로 자바로 프로그램을 작성하나 파이썬, 펄, 하이브 등 다른 언어도 지원

 

맵리듀스와 함께 데이터 배치 처리를 위해 자주 사용되는 데이터 처리 방법으로 피그(Pig)가 있다. Pig는 ETL 작업을 수행하고, 데이터를 탐색하는 데이터 실행환경으로, 프로그래밍 기능을 제공하며, Pig Latin이라는 데이터 세트 플로우 제어 언어를 사용한다.

 

여기까지 빅데이터를 정제하는 데 사용되는 잘 알려진 주요 솔루션에 대해 알아봤다.-끝-

반응형

댓글1