데이터 측정 척도 종류 (명목·서열·등간·비율 척도)
본문 바로가기
BIG DATA

데이터 측정 척도 종류 (명목·서열·등간·비율 척도)

by 보고톡톡 2022. 6. 10.
반응형

앞서 데이터의 유형별 수집 기술 종류에 대해 알아봤다. 통계 툴을 사용할 때 수집한 여러 종류의 데이터-정형, 반정형, 비정형 데이터-를 각각의 변수로 기록하고 지정하기 위해 주로 다음 네 가지 척도가 사용되는데, 각각의 정의와 개념을 머릿속에 한 번쯤 정립하고 넘어갈 필요가 있다. 바로, 명목 척도, 서열 척도, 등간 척도, 비율 척도이다.

 

이는 우리가 이미 개념적으로 혹은 상식적으로 이미 알고 있는 내용들이어서, 용어 정리만 한번 잘해두면 기억하는데 큰 무리가 없을 듯하다. 

 

데이터를 변수로 기록하기 위해 크게 계량적 변수(Quantitative variable)와 비계량적 변수(Qualitative variable)로 구분한다. 계량 변수는 수치로 측정할 수 있는 데이터이며, 반대로 수치로 측정할 수 없는 데이터는 비계량적 변수라고 정의한다.

가령 기업의 매출액, 이익, 직원 수 등은 수치로 측정할 수 있으므로 계량적 변수에 해당한다. 반면에 직원의 성별이나 회사에 대한 만족도 등은 수치로 측정할 수 없는 데이터 변수, 즉 비계량적 변수라고 한다.

 

계량적 변수와 비계량적 변수에 대해 먼저 언급한 이유가 있다. 이에 따라 사용되는 데이터 측정 척도(Scale)가 달라질 수 있기 때문이다.

분류 수치화 가능여부 데이터 측정 척도
계량적 변수 가능 · 비율 척도
· 등간 척도
비계량적 변수 불가능 · 명목 척도
· 서열 척도
· 등간 척도

 

즉 요약하면 데이터 측정 척도는 크게 네 가지, 명목, 서열, 등간, 비율 척도로 구분한다.

 

데이터 측정 척도 종류 4가지(명목·서열·등간·비율 척도) 개념 정의

 

1. 명목 척도(Nominal Scale)

관측 대상을 범주로 나눠 분류한 뒤 기호나 숫자를 부여하는 방법

 

예를 들어, 자동차의 색상을 조사한 뒤 레드는 R로, 블랙은 B로, 화이트는 W로 분류하는 것과 같은 방법이다. 또, 남녀를 분류할 때 여자는 0, 남자는 1로 지정하는 식으로 숫자를 사용할 수도 있다.

 

단, 명목 척도에서 사용되는 숫자에 양적인 의미는 없으며, 단지 데이터가 가진 속성을 상징적으로 구분하기 위한 용도로 사용된다.

 

 

2. 서열 척도(Ordinal Scale)

관측 대상을 상대적으로 비교하여 순위를 매겨 관측하는 방법

 

예를 들어, 시중에 판매되고 있는 소주 브랜드별 선호도를 조사할 때 소비자들에게 각 소주 브랜드에 대해 1, 2, 3, 4, 5위의 순서를 매기도록 하는 것과 같은 방법이다.

 

이때 사용되는 숫자는 수치화 가능한 것일까? 아니다. 앞서 서열 척도는 비계량적 변수에 사용되는 것으로 분류했다.

 

즉, 소비자들이 평가한 1, 2, 3, 4, 5위는 순서의 의미를 가질 뿐, 이 숫자의 크기나 차이는 의미가 없다. 가령, 선호도 1위인 소주가 3위인 소주보다 3배 더 인기 있다고 해석할 수 없다. 

 

 

3. 등간(구간) 척도(Interval Scale)

비계량적 변수를 정량적으로 측정하기 위해 사용하는 척도

 

서열 척도와 마찬가지로 비계량적 변수에 사용하는 척도인데, 서열 척도는 여러 관측 대상을 상대적으로 평가하는 방법인 반면, 등간 척도는 각각의 대상을 개별적으로 평가한다는 차이가 있다.

 

가령, 비계량적 변수를 수치적으로 '상/중/하', '상/중상/중/중하/하'로 구분하여 측정하는 것과 같은 방법이다. 이때 세 가지 분류면 3점 척도, 다섯 가지 분류는 5점 척도라고 부르기도 한다.

 

등간 척도는 계량적 변수에도 사용된다. 대표적인 예로 온도 데이터를 들 수 있다. 가령 섭씨 30도와 20도의 차이는 섭씨 20도와 10도의 차이와 같다고 할 수 있다. 이 경우 수치의 차이가 의미를 가질 수 있다는 의미이다.

 

 

4. 비율 척도(Ratio Scale)

금액, 길이, 거리, 무게, 시간 등 우리가 통계에서 자주 다루는 많은 계량적 변수 데이터들이 비율 척도에 속하는 것들이다. 비율 척도에는 절대적인 영점이 존재하며, 두 측정값의 비율이 의미를 가진다.

 

살펴본 내용 중 등간 척도와 비율 척도의 개념이 서로 혼동된다면, 이것만 기억하면 된다. 속성값들을 연산할 때 그 결과가 의미 있다면 비율 척도이고, 의미가 없으면 등간 척도이다.

가령, 등간 척도인 온도에서 10도에 10도를 더하면 20도가 된다. 하지만 이 때 20도가 10도를 두 번 더한 만큼 따뜻한 것일까? 아니다. 이 연산에는 의미가 없다고 본다.

반면에 비율 척도에서 10g에 10g을 더하면 20g이 되고, 여기서 20g은 10g에 비해 2배만큼 큰 질량을 나타낸다. 이 연산에는 의미가 있다고 본다.

 

척도(scale) 사용 예시
명목(nominal) 성별 구분(남/여)
고객 구분(신규, 휴면, VIP,..)
차량 구분(국산/수입,..)
서열(ordinal) 고객 등급(A, B, C,..)
순위(1, 2, 3,..)
직급(G1, G2, G3,..)
등간(interval) 온도(10도, 20도, 30도,..)
지능(100, 150, 200,..)
비율(ratio) 몸무게, 매출액, 질량, 나이 등

 

이 정도면 등간 척도와 비율 척도의 차이를 정확히 구분해낼 수 있으리라고 본다. 여기까지 데이터 측정 시 사용하는 척도 네 가지에 대해 간략히 살펴봤다. <끝>

반응형

댓글