'BIG DATA' 카테고리의 글 목록
본문 바로가기
반응형

BIG DATA6

변수(Variable) 독립변수 종속변수 매개변수 외생변수 조절변수 억압변수 통제변수 내생변수 변수(variable)란 관심의 대상이 되는 사물이나 사건의 속성(attribute)으로, 변하지 않는 단 하나의 값을 갖는 상수와 달리 서로 다른 두 개 이상의 값을 가진다. 흔히 변수의 뜻을 정리할 때 이런 예를 사용한다. (예시) 개념(Concept) - 성 변수(Variable) - 성별 상수(Constant) - 남성, 여성 컴퓨터 프로그래밍에서의 변수는 아직 알려지지 않거나 어느 정도까지만 알려져 있는 양이나 정보에 대한 상징적 이름이다. 독립변수와 종속변수 등은 중고교 교과과정에서 우리가 이미 접했던 내용이다. 기억이 흐릿하다면 이하 내용을 상식적인 용도로 참고해봐도 좋을 듯하다. 변수는 각각의 기능에 따라 독립, 종속, 매개, 외생, 억압 변수 등으로 구분하는데, 통계나 컴퓨터 관련 자격시.. 2022. 6. 19.
빅데이터 정제의 개념, 처리 방식, 주요 솔루션 수집한 빅데이터를 시각화하고 정보화하기 위해서 정제 즉, 클렌징(Cleansing) 작업이 요구된다. 이는 원시적 데이터 형태를 정제 과정을 통해 빅데이터로 분석할 수 있는 구조를 갖추기 위함이다. 빅데이터를 처리하는 과정은 데이터에서 유용한 정보를 찾아내고, 그 안에 숨어 있는 지식을 찾아내 의사결정을 지원하기 위한 목적으로 데이터를 ①점검, ②정제, ③변환, ④모델링 및 분석하는 프로세스를 모두 포함한다. 빅데이터를 처리하는 시스템은 단독적인 형태라기보다는 다른 스토리지 시스템과 연계된 소프트웨어나 플랫폼 형식으로 존재한다. 아울러 빅데이터 처리 시스템을 구축하기 위한 하드웨어 역시 개별적인 시스템 구축보다는 클라우드 컴퓨팅 방식이 더 많이 고려되고 있다. 1. 데이터 정제란? 한 문장으로 표현하면,.. 2022. 6. 18.
데이터 측정 척도 종류 (명목·서열·등간·비율 척도) 앞서 데이터의 유형별 수집 기술 종류에 대해 알아봤다. 통계 툴을 사용할 때 수집한 여러 종류의 데이터-정형, 반정형, 비정형 데이터-를 각각의 변수로 기록하고 지정하기 위해 주로 다음 네 가지 척도가 사용되는데, 각각의 정의와 개념을 머릿속에 한 번쯤 정립하고 넘어갈 필요가 있다. 바로, 명목 척도, 서열 척도, 등간 척도, 비율 척도이다. 이는 우리가 이미 개념적으로 혹은 상식적으로 이미 알고 있는 내용들이어서, 용어 정리만 한번 잘해두면 기억하는데 큰 무리가 없을 듯하다. 데이터를 변수로 기록하기 위해 크게 계량적 변수(Quantitative variable)와 비계량적 변수(Qualitative variable)로 구분한다. 계량 변수는 수치로 측정할 수 있는 데이터이며, 반대로 수치로 측정할 수.. 2022. 6. 10.
데이터 유형별 데이터 수집 기술의 종류 데이터의 유형별로 데이터 수집 기술과 방법, 기술을 달리 적용한다. 데이터 유형을 정형 데이터, 반정형 데이터, 비정형 데이터로 구분하는데, 각 유형별로 주로 적용되는 데이터 수집 기술과 방법은 다음과 같다. 정형 데이터를 수집하는 기술은 대표적으로 Sqoop과 Hiho를 예로 들 수 있다. · Sqoop(스쿱)은 대용량 데이터 전송 솔루션으로 HDFS, RDBMS, DW, NoSQL 등과 같은 다양한 저장소에 대용량 데이터를 전송할 수 있다. 일반적으로 관계형 데이터와 분산 환경 시스템 간에 전송되는 정형 데이터를 수집할 경우 이를 사용한다. · Hiho(히호) 역시 대용량 데이터 전송 솔루션으로 Hadoop(하둡)에서 데이터를 가져오기 위한 SQL을 지정할 수 있는데, 오라클과 MySQL 데이터 전송.. 2022. 6. 6.
데이터 사이언티스트에게 필요한 기술과 능력 (+데이터 마이닝, 머신러닝, 딥러닝 개념) 데이터 사이언티스트(data scientist)는 우리나라에서 다소 생소한 직업 혹은 job이라고 할 수 있다. 하지만 미국의 경우, 구글, 아마존, 메타(구 페이스북), 마이크로소프트(MS) 등과 같은 글로벌 IT 기업들을 중심으로 이 데이터 사이언티스트를 말 그대로 전문가로 처우하는 양상이다. IT 강국이라고 할 수 있는 대한민국도 바쁘게 흘러가는 4차 산업혁명의 조류 속에 이 데이터 사이언티스트가 갖는 위상이나 입지, 처우 등은 날로 높아질 예상이다. 데이터 사이언티스트라면 데이터 사이언스(Data Science) 영역의 전반을 아우를 수 있는 스펙을 갖춰야 한다. AI, 컴퓨터 사이언스, 통계학, 패턴인식, 머신러닝(기계학습), 빅데이터, 데이터 마이닝 등 데이터 사이언스의 영역으로 구분하는 이 .. 2022. 6. 4.
빅데이터의 개념 정의와 특징(5V's of Big data) 십수 년간 데이터 다루는 일을 해왔는데, 정작 머릿속에 남은 게 아무것도 없이 느껴졌다. 그래서 시작했던 것이 빅데이터에 대한 학습이다. 이 글의 목적은 (1) 빅데이터 분석가나 데이터 사이언티스트에 대해 관심 있는 이들에게 정보를 제공하는 것과 (2) 개인적인 학습 내용을 정리해보고 기억해두기 위한 목적으로 작성됐다. (대상) 이 글은 데이터 사이언스를 전문적으로 공부한 이들에게 햇병아리 수준의 콘텐츠가 될 수도 있겠다. 하지만 아직 빅데이터에 문외한인 사람이라면 앞으로 이어갈 이 카테고리의 포스팅을 차례차례 학습 해갈 경우 빅데이터의 개념적 이해를 넘어서 전문적인 통계 기법이나 빅데이터 모델링까지 손쉽게 진도를 개척해나갈 수 있는 도구가 될 것이다. (TODAY) 학습할 내용은 빅데이터의 개념과 정의.. 2022. 6. 1.
반응형