티스토리 뷰

1. 참여 동기

데이터리안에서 진행하는 데이터 넥스트 레벨 챌린지에 참여합니다.

구성원의 취업으로 책 스터디가 8월에 끝났어요.

가을 들어 독서에 탄력이 크게 줄었는데 참 다행입니다.

 

2. 도서 소개

첫 도서는 『데이터 문해력』입니다.

문해文解는 글을 읽고 이해한다는 의미입니다.

엄밀히 따지면 '데이터해력'이 보다 알맞지만 외래어에 한자어를 붙이기 껄끄럽기도 하고, 지금의 운율이 더 좋네요.

 

3. 목표

✅ 완독 

✅ 도서의 사례, 내용을 기존 분석에 적용해 회고

✅ 사이드 프로젝트 구상

 

 


 

1. 분석보다 활용

1. 1. 기계가 할 일과 사람이 할 일

경쟁하지 말고 활용하자

ChatGPT에게 물어보면 웬만한 지식이나 방법을 알 수 있습니다.

단순 노동으로는 상대가 안돼요.

 

딥러닝으로 영화나 드라마도 기존의 줄거리, 배우의 외형과 목소리, 표정을 학습해 완전히 새로운 작품을 만들 수 있습니다.

창의적인 작업 또한 AI에게 따라잡히고 있어요.

 

우리는 경쟁하지 않고, 활용해야 합니다.

문제 해결을 위해, AI나 분석 프로그램에게 적절한 데이터를 주고, 실제로 해결할 수 있는 방법을 도출해야합니다.

마치 산업혁명 시기 방직기 방적기와 경쟁하기보다 활용했던 것처럼 말이죠.

 

1. 2. 통계를 배워도 왜 활용하지 못하나

실제 프로젝트를 시작하면 한없이 막막해진 경험이 있으실 겁니다.

그 이유를 통계 뿐 아니라 데이터 분석 관련 프로그래밍 기술이 부족하기 때문이라고 생각합니다.

하지만 기술은 생각보다 빠르게 배울 수 있어요.

 

사실 문제 설정이 덜 되었거나, 분석 결과가 문제와 동떨어진 경우가 많습니다.

따라서

  • 문제 및 목적 정의 -> 가설 구축
  • 분석
  • 분석 결과 해석

의 순서로 이어져야합니다.

무턱대고 python, sql을 키고 분석부터 시작하면 시간은 시간대로 걸리고, 왜 했는지 모르겠는 답답한 상황에 놓이게 됩니다.

 

1. 3. 데이터 안에 답은 없다

첫 데이터 분석 프로젝트를 보면 어떤 데이터를 가지고 할 수 있는 모든 분석을 다 하는 경우가 많습니다.

각종 통계와 그 추이, 변수 사이의 상관이나 인과관계 등을 자신 있게 보여줘요.

그들은 할 수 있는 분석을 다 했습니다.

문제는 초점이 없다 보니 힘은 힘대로 들고, 결론이 없는 경우가 많습니다.

책에서는

 

  1. 현상 확인
  2. 목적 및 문제 정의
  3. 적절한 지표 설정
  4. 데이터 분석: 현황 파악
  5. 데이터 분석: 평가
  6. 데이터 분석: 요인 분석
  7. 인사이트: 해결 방안 모색

의 순서를 제안합니다.

데이터가 좋고 많아도 목표가 없으면 눈 먼 화살이 될 수 있어요.

 

 

2. 목적사고력: 목적에 맞게 문제와 데이터를 연결하기

2. 1. 데이터 활용 실패 이유 두 가지

  1. 불명확한 문제
  2. 문제와 데이터의 불일치

2. 2. 불명확한 문제

  • 문제를 표현하는 언어를 구체적이고 명확하게

과거 '인천광역시 수도권 인구 유출 현황 분석'이라는 프로젝트를 진행한 적 있습니다.

저는 인천시 인구가 서울이나 경기로 빠져나가는 상황이 문제라고 정의했어요.

다른 광역시도로는 거의 이주하지 않았고, 수도권에서 유독 유입보다 유출이 많은 상황이었습니다.

특히 경제력을 가진 30~40대 인구의 유출로 세수가 줄어드는 문제가 있었어요.

'인천시 수도권 인구 유출'로 문제를 정의한 셈입니다.

 

  • 문제, 원인, 해결방안 구별하기

문제를 정의했으면 그 원인을 분석하고 해결방안을 제시해야합니다.

하지만 원인을 단정짓거나, 문제와 해결 방안을 같이 말하면서 해결책이 신통치 않은 것이 문제인지 헷갈리는 경우가 있습니다.

 

예컨대

a. 시설 이용자 수 급감

b. 인터넷 프로모션 효과 없음

c. 인근 지역보다 낮은 이용자 수

d. 이용자 감소로 수입 감소

 

모두 분석 대상이 될 수 있습니다.

a처럼 이용자 감소를 문제로 설정한다면 그 원인이 될만한 요인을 추릴 수 있어요.

하지만 이용자 감소 자체가 문제인지 d처럼 수입이 감소한 부분이 문제인지 명확하게 할 필요가 있습니다.

 

b는 AARRR에서 Acquisition, 유입 채널의 효과가 낮은 점을 문제로 삼을 수 있어요.

하지만 a와 마찬가지로 프로모션의 목적이 이용자 유입이라면 a를 문제로 설정할 수도 있습니다.

 

c는 a, b, c의 원인을 분석하는 과정에서 간접적으로 사용될 수는 있을 것 같습니다.

하지만 타지역보다 높은 수치를 내야만 하는 상황이 아니라면 핵심 문제는 아닌 것 같아요.

 

만약 제가 운영자라면 시설의 존폐가 달려있는 d를 문제로 설정하고, a를 원인 중 하나로 삼을 것 같습니다.

물론 a의 원인 또한 찾고, b를 개선하는 해결방안을 제시할 수도 있겠습니다.

 

이렇게 문제, 원인, 해결방안은 얽혀 있습니다.

현재 상태를 이해하고 적절한 문제를 설정할 때 분석 리소스를 줄이고, 설득력을 얻을 수 있습니다.

 

 

2. 3. 문제에 맞는 데이터 사용하기

  1. 목적에 맞는 데이터
  2. 목적, 문제, 결론을 설명할 수 있는 데이터
  3. 적절한 표현: 감소 vs 부족

 

결론

  1. 문제 의식에 따라 분석의 궤적이 바뀐다
  2. 문제를 해결할 수 있는 데이터와 지표를 선정해야한다

 


대학에서 데이터 분석 커뮤니티를 운영한 적 있습니다.

학습한 내용을 정리해 커리큘럼으로 만들고, 웹사이트로도 만들었어요.

python, sql을 빠르게 배우고 실전 프로젝트를 할 수 있도록 data science 커리큘럼을 만든 기억이 납니다.

저도 기본 환경을 구성한 후에 가장 먼저 문제 정의를 강조했어요.

데이터와 분석, 통계는 수단일 뿐이라고 말이죠.

 

하지만 저를 포함한 많은 분들이 큰 데이터를 요약하는 수준에 머물렀습니다.

지금도 그런 유혹은 여전합니다.

그럴 때마다 문제 정의를 하고 있는지, 뭉툭하지 않은지, 적절한 대안을 제시하고 있는지 등을 체크할 때 이 책을 꺼내봐야겠어요.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함