티스토리 뷰
1. 참여 동기
데이터리안에서 진행하는 데이터 넥스트 레벨 챌린지에 참여합니다.
구성원의 취업으로 책 스터디가 8월에 끝났어요.
가을 들어 독서에 탄력이 크게 줄었는데 참 다행입니다.
2. 도서 소개
첫 도서는 『데이터 문해력』입니다.
문해文解는 글을 읽고 이해한다는 의미입니다.
엄밀히 따지면 '데이터해력'이 보다 알맞지만 외래어에 한자어를 붙이기 껄끄럽기도 하고, 지금의 운율이 더 좋네요.
3. 목표
✅ 완독
✅ 도서의 사례, 내용을 기존 분석에 적용해 회고
✅ 사이드 프로젝트 구상
1. 분석보다 활용
1. 1. 기계가 할 일과 사람이 할 일
경쟁하지 말고 활용하자
ChatGPT에게 물어보면 웬만한 지식이나 방법을 알 수 있습니다.
단순 노동으로는 상대가 안돼요.
딥러닝으로 영화나 드라마도 기존의 줄거리, 배우의 외형과 목소리, 표정을 학습해 완전히 새로운 작품을 만들 수 있습니다.
창의적인 작업 또한 AI에게 따라잡히고 있어요.
우리는 경쟁하지 않고, 활용해야 합니다.
문제 해결을 위해, AI나 분석 프로그램에게 적절한 데이터를 주고, 실제로 해결할 수 있는 방법을 도출해야합니다.
마치 산업혁명 시기 방직기 방적기와 경쟁하기보다 활용했던 것처럼 말이죠.
1. 2. 통계를 배워도 왜 활용하지 못하나
실제 프로젝트를 시작하면 한없이 막막해진 경험이 있으실 겁니다.
그 이유를 통계 뿐 아니라 데이터 분석 관련 프로그래밍 기술이 부족하기 때문이라고 생각합니다.
하지만 기술은 생각보다 빠르게 배울 수 있어요.
사실 문제 설정이 덜 되었거나, 분석 결과가 문제와 동떨어진 경우가 많습니다.
따라서
- 문제 및 목적 정의 -> 가설 구축
- 분석
- 분석 결과 해석
의 순서로 이어져야합니다.
무턱대고 python, sql을 키고 분석부터 시작하면 시간은 시간대로 걸리고, 왜 했는지 모르겠는 답답한 상황에 놓이게 됩니다.
1. 3. 데이터 안에 답은 없다
첫 데이터 분석 프로젝트를 보면 어떤 데이터를 가지고 할 수 있는 모든 분석을 다 하는 경우가 많습니다.
각종 통계와 그 추이, 변수 사이의 상관이나 인과관계 등을 자신 있게 보여줘요.
그들은 할 수 있는 분석을 다 했습니다.
문제는 초점이 없다 보니 힘은 힘대로 들고, 결론이 없는 경우가 많습니다.
책에서는
- 현상 확인
- 목적 및 문제 정의
- 적절한 지표 설정
- 데이터 분석: 현황 파악
- 데이터 분석: 평가
- 데이터 분석: 요인 분석
- 인사이트: 해결 방안 모색
의 순서를 제안합니다.
데이터가 좋고 많아도 목표가 없으면 눈 먼 화살이 될 수 있어요.
2. 목적사고력: 목적에 맞게 문제와 데이터를 연결하기
2. 1. 데이터 활용 실패 이유 두 가지
- 불명확한 문제
- 문제와 데이터의 불일치
2. 2. 불명확한 문제
- 문제를 표현하는 언어를 구체적이고 명확하게
과거 '인천광역시 수도권 인구 유출 현황 분석'이라는 프로젝트를 진행한 적 있습니다.
저는 인천시 인구가 서울이나 경기로 빠져나가는 상황이 문제라고 정의했어요.
다른 광역시도로는 거의 이주하지 않았고, 수도권에서 유독 유입보다 유출이 많은 상황이었습니다.
특히 경제력을 가진 30~40대 인구의 유출로 세수가 줄어드는 문제가 있었어요.
'인천시 수도권 인구 유출'로 문제를 정의한 셈입니다.
- 문제, 원인, 해결방안 구별하기
문제를 정의했으면 그 원인을 분석하고 해결방안을 제시해야합니다.
하지만 원인을 단정짓거나, 문제와 해결 방안을 같이 말하면서 해결책이 신통치 않은 것이 문제인지 헷갈리는 경우가 있습니다.
예컨대
a. 시설 이용자 수 급감
b. 인터넷 프로모션 효과 없음
c. 인근 지역보다 낮은 이용자 수
d. 이용자 감소로 수입 감소
모두 분석 대상이 될 수 있습니다.
a처럼 이용자 감소를 문제로 설정한다면 그 원인이 될만한 요인을 추릴 수 있어요.
하지만 이용자 감소 자체가 문제인지 d처럼 수입이 감소한 부분이 문제인지 명확하게 할 필요가 있습니다.
b는 AARRR에서 Acquisition, 유입 채널의 효과가 낮은 점을 문제로 삼을 수 있어요.
하지만 a와 마찬가지로 프로모션의 목적이 이용자 유입이라면 a를 문제로 설정할 수도 있습니다.
c는 a, b, c의 원인을 분석하는 과정에서 간접적으로 사용될 수는 있을 것 같습니다.
하지만 타지역보다 높은 수치를 내야만 하는 상황이 아니라면 핵심 문제는 아닌 것 같아요.
만약 제가 운영자라면 시설의 존폐가 달려있는 d를 문제로 설정하고, a를 원인 중 하나로 삼을 것 같습니다.
물론 a의 원인 또한 찾고, b를 개선하는 해결방안을 제시할 수도 있겠습니다.
이렇게 문제, 원인, 해결방안은 얽혀 있습니다.
현재 상태를 이해하고 적절한 문제를 설정할 때 분석 리소스를 줄이고, 설득력을 얻을 수 있습니다.
2. 3. 문제에 맞는 데이터 사용하기
- 목적에 맞는 데이터
- 목적, 문제, 결론을 설명할 수 있는 데이터
- 적절한 표현: 감소 vs 부족
결론
- 문제 의식에 따라 분석의 궤적이 바뀐다
- 문제를 해결할 수 있는 데이터와 지표를 선정해야한다
대학에서 데이터 분석 커뮤니티를 운영한 적 있습니다.
학습한 내용을 정리해 커리큘럼으로 만들고, 웹사이트로도 만들었어요.
python, sql을 빠르게 배우고 실전 프로젝트를 할 수 있도록 data science 커리큘럼을 만든 기억이 납니다.
저도 기본 환경을 구성한 후에 가장 먼저 문제 정의를 강조했어요.
데이터와 분석, 통계는 수단일 뿐이라고 말이죠.
하지만 저를 포함한 많은 분들이 큰 데이터를 요약하는 수준에 머물렀습니다.
지금도 그런 유혹은 여전합니다.
그럴 때마다 문제 정의를 하고 있는지, 뭉툭하지 않은지, 적절한 대안을 제시하고 있는지 등을 체크할 때 이 책을 꺼내봐야겠어요.
'소프트 스킬 > 데넥첼1기: 데이터 문해력' 카테고리의 다른 글
[데넥챌 - 데이터 문해력] CH 5: 해결 방안은 마지막에 (1) | 2023.10.21 |
---|---|
[데넥챌 - 데이터 문해력] CH 3 - 4 (0) | 2023.10.14 |
- Total
- Today
- Yesterday
- 5기
- DX
- 데이터
- 데이터문해력
- 데이터리안
- 시각화
- 사이드 프로젝트
- AI
- KT
- 데이터넥스트레벨챌린지
- 그로스해킹
- 태블로
- 에이블스쿨
- 롤링 리텐션
- growth hacking
- 클래식 리텐션
- 에이블러
- Aivle school
- 린분석
- 롱블랙
- 기업분석
- 데넥챌
- 기업 분석
- AARRR
- Tableau
- GA4
- 리텐션
- 빅데이터
- retention
- longblack
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |