티스토리 뷰

3. 문제를 데이터로 표현하기

1 ~ 2장에서 목적과 문제를 정의하고, 지표까지 정의해 현재 상황을 파악하는 방법을 배웠습니다.

3장에서는 지표를 비교하며 가치평가하고, 인사이트를 도출해 결론에 도달하는 기술에 대해 정리합니다.

 

3. 1.  결과와 평가는 다르다

2장에서 지표로 현재 상태를 보여주었습니다.

예컨대 ▲▲시에서 고용된 50대 여성의 평균 임금이 3000만원이라고 합시다.

이 사실 또는 데이터 처리의 결과는 아무 것도 말하지 않습니다.

 

하지만 '최저 임금보다는 높다'거나 '같은 나이대 남성의 평균 임금보다 낮다'는 비교를 통해 가치에 대해 평가할 수 있습니다.

즉, 사실을 기술descript하는데 그치지 않고 평가해 행동으로 이어지도록 유도해야합니다.

 

3. 2. 관점에 따른 비교

평가에는 비교가 필요합니다.

앞서 말한 3000만원은 절대적으로 큰 숫자인가요? 아니면 작은가요?

만약 둘 중 하나를 선택했다면 숫자에 대해 막연한 인상을 가지고 있으신지도 모르겠습니다.

하지만 최저임금이나 동나이대 남성의 임금과 비교할 때 3000만원에 대한 평가는 객관적으로 변합니다.

 

비교할 때 주의할 사항은 다음과 같습니다.

1. 결과가 결론으로 이어지는가?

2. 비교를 통해 차이가 발견되는가?

 

1의 경우 비교가 가치평가로 이어지느냐에 대한 질문입니다.

"A와 B가 차이가 있다"는 분석 결과입니다.

우리는 이 차이에서 의미를 뽑아내야합니다.

예컨대

"▲▲시 50대 여성의 평균 임금 3000만원은 동나이대 남성의 평균 임금(예컨대 5000만 원)보다 작습니다."

는 결과입니다.

이때 우리는 "여성의 임금 노동이 남성보다 저평가되거나, 여성이 저부가가치 산업에 집중되어 있다"는 잠정적 결론에 다다를 수 있습니다.

필요하다면 이 부분을 다시 분석해야겠죠.

 

2의 경우 비교해서 차이가 있어야 평가할 부분도 있다는 의미입니다.

만약 ▲▲시 50대의 평균 임금이 성별 관계 없이 같았다면 딱히 평가할 거리가 없습니다.

하지만 다른 나이대, 다른 지역, 다른 나라 같은 후보군을 정하고 비교해 결과와 결론의 일관성을 확인할 수는 있습니다.

필요하다면 다시 후보를 늘리고, 가설과 검증을 반복해야합니다.

 

비교에도 방법이 있습니다.

첫째는 외부 비교입니다. A회사의 제품과 B회사 제품을 비교하는 것이죠.

다른 하나는 내부 비교입니다. A회사 내부 제품들을 비교하는 방식입니다.

 

3. 3. 비교의 기술: 평균, 추이, 편차

1) 평균mean

앞서 ▲▲시의 평균 임금을 비교한 것처럼 평균은 매우 강력한 통계 기법입니다.

여러 집단을 한번에 요약해 비교할 수 있게 하죠.

하지만 집단 내부의 차이를 반영하지 못하게 만들기도 합니다.

예컨대 A반과 B반의 영어 평균 점수가 80점으로 같다면 이 두 집단은 같다고 할 수 있을까요?

알고 보니 A반은 100점을 맞은 학생과 50점을 맞은 학생이 비등하고, B반은 80점 근처의 학생이 많을 수도 있습니다.

 

2) 편차deviation

그래서 나온 개념이 편차입니다.

A반은 편차가 큽니다.

평균으로부터 차이나는 학생들이 많으니까요.

반대로 B반은 편차가 작습니다.

 

여기서 끝나면 안되겠죠?

가치판단과 결론으로 이어져야합니다.

'A반은 학생 사이의 성취도 격차가 크므로 방과후 학습을 지원해 편차를 줄여야한다'거나,

'B반은 전반적인 성취도가 유사하므로 교육 난이도를 늘려야 한다' 같은 결론으로 이어질 수 있겠군요.

즉, 편차가 크거나 작다고해서 무조건 좋고 나쁜 것은 아닙니다.

 

3) 추이transition

추이는 보다 시계열적 변화를 확인해야할 때 사용합니다.

평균도 같고, 편차도 같다면 같은 집단이라고 봐야할까요?

아닙니다.

 

a학생과 b 학생의 1학년 평균 성적이 같아도 우상향하는 학생과 우하향하는 학생을 다르게 평가할 수 있습니다.

 

4) 비율

예컨대 만족도 조사 A, B 모두 평균 4.6점을 맞았고, 편차도 그렇게 크지 않다고 합시다.

이 두 조사가 같다고 평가할 수 있을까요?

그래프의 모양과 특정 기준에 따른 비율을 살펴볼 필요가 있습니다.

왼쪽 꼬리 그래프를 그려 평균은 4.6이지만 이것보다 낮게 평가한 사람이 더 많은 조사와, 오른쪽 그래프로 긍정적 평가가 더 많은 조사는 다르게 해석해야합니다.

전자보다 후자가 더 긍정적인 반응을 얻었다고 할 수 있겠네요.

 

이렇게 만족도 조사처럼 수치 자체가 상대적인 경우 비율을 따져가며 우열을 따질 수 있습니다.

 

4. 원인 파악: 행동Action으로 이어지는 힘

예컨대 분석으로 다음과 같은 사실을 확인했다고 합시다.

 

1)  A 상품의 매출은 B보다 적다

2) ▲▲시의 인구는 5년간 10% 감소했다

3) 올해 8월에 전년 동기 대비 광고 선전비를 5% 절감했다

4) 이번 이벤트 방문객은 이전 대비 10% 증가했다

 

이렇게 발견한 사실은 꽤 유의미해 보이지만 이어지는 질문에 대답하기는 어렵습니다.

 

1) A가 B보다 적은 매출을 기록하는 이유는? A를 B만큼 팔리게 하려면 어떻게 해야할까?

2) ▲▲시의 인구 감소 원인은? 이를 완화하기 위한 조치는?

3) 5% 절감의 요인은? 추후 절감 전략은?

4) 10% 증가 이유는? 추후 이벤트 설계시 고려사항은?

 

 

매출이 감소했다면 원인을 분석하고, 해결방안과 행동을 제시해야합니다.

만약 타사의 유사품이 더 저렴해서 경쟁에서 밀렸다면 이벤트를 새로 한다거나, 디자인을 변경하거나, 온라인 홍보를 더 하는 조치는 무의미합니다.

경쟁사 제품과 비교했을 때 매출이 감소하는 문제가 가격 때문이라는 결과에 다다랐다면, 가격 경쟁을 시도할 수 있습니다.

이렇게 현황과 문제, 결과와 결론에 따라서 효율적으로 행동Action해야합니다.

 

즉,

근거 ->목적(결론)

였던 것처럼

 

원인->문제/결과

의 도식이 됩니다.

 

4. 2. 데이터에서 원인을 찾는 방법

 

원인 후보 -> 지표 결정 -> 관련성 확인

 

예컨대 

- 문제: A상품 매출 감소

- 원인 후보:  경쟁사 가격 인하 정책

라고 설정할 수 있습니다.

원인 후보를 특정할 때는 브레인 스토밍 원칙을 따라야합니다.

즉, 비난하거나 편견에 사로잡히지 말아야합니다.

이러면 지표는 다음과 같이 설정할 수 있겠죠.

 

- 지표 데이터: 최근 3개월 경쟁사 가격 인하율 변화

 

가격인하에 따른 경쟁사와 가격 비교가 주요 하다고 생각한다면 최근 3개월 경쟁사 가격을 주요 지표로 사용할 수도 있습니다.

변화율을 보고 싶다면 위처럼 인하율의 추이를 볼 수 있습니다.

 

 

문제와 원인 사이의 관련성을 확인하는 방법

1) 시각화를 통해 경향, 그룹, 이상치, 변화점 찾기

선 그래프나 산포도, 바이올린 플롯 등을 그리면 위 네가지를 찾기 쉬워집니다.

경향은 증감, 그룹은 군집 구분, 이상치는 이상치가 만들어진 구체적인 환경이나 원인 파악, 변화점은 변화에 대한 근본적인 문제와 그 원인을 의심하는데 도움이 됩니다.

 

2) 통계 지표 확인: 상관계수 등

앞에서 확인한 특징을 통계 지표로 확인하는 작업입니다.

대표적으로 상관계수가 있죠.

1에 가까울 수록 양의 상관관계, -1에 가까울 수록 음의 상관관계입니다.

0에 가깝다면 별로 관계가 없다고 볼 수 있습니다.

 

더 자세히 말하자면 산포도에서 서로 최소한으로 떨어지는 거리를 직선으로 그었을 때의 기울기라고 생각하셔도 됩니다.

 

여기서 주의할 점은 상관관계가 인과관계를 담보하지 않는다는 점입니다.

예컨대 키가 클 수록 몸무게도 많이 나가는 경향이 있습니다.

산포도로 그린다면 우상향하는 그래프일 가능성이 높죠.

하지만 키가 크다고 꼭 체중이 많이 나가지는 않습니다.

반대로 키가 작다고 체중이 적게 나가지만도 않죠.

따라서 키와 몸무게는 상관관계는 있지만 인과관계가 있다고 말하기는 어렵습니다.

 

그래서 우리는 무언가 주장하기 전에 회귀나 분류 분석을 통해 통계적인 비호를 받을 필요가 있습니다.

 

4. 3. 주의사항

1) 직접적인지 간접적인지

아이스크림 매출과 물놀이 사고는 모두 여름에 증가합니다.

이 둘 사이의 상관관계는 매우 높을겁니다.

하지만 직접적인 인과관계라고 하기는 어렵고, 여름이라는 간접적인 관련성이 있다고 할 수는 있겠네요.

 

2)  원인은 여럿이거나 복잡할 수 있다

아이스크림 매출 증가는 계절적인 요인도 있겠지만, 홍보를 더 많이 했다거나 경쟁사 대비 가격 경쟁력이 있기 때문에 높아졌을 수 있습니다.

가능성을 최대한 열어 두는 편이 좋겠죠?

 

3) 선형이 아닌 관계성: 계절, log, 반등

상관관계는 선형일 때 높습니다.

하지만 아이스크림이 여름에 잘 팔리고 겨울에 덜 팔리는 것처럼 계절성을 띄는 데이터도 존재합니다.

log처럼 급격히 증가했다가 증가폭이 감소하는 경우도 있구요.

감소하다가 갑자기 반등하는 경우도 있을 수 있습니다.

이럴 때에는 구간을 나눠서 상관 분석을 진행할 수도 있습니다.

 

즉, 상관계수, 선형 회귀가 모든 관계를 설명해 주지는 않습니다.

 

 

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/08   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함