티스토리 뷰

 

  • 정의: 워드클라우드는 가장 단순하고 직관적으로 텍스트 데이터를 시각화하는 방법
  • 방법: 빈도가 잦은 단어의 크기를 키우고, 색을 짙게 하면서 전체 텍스트에서 그 단어가 차지하는 비중을 시각화
  • Tip
    • 불용어Stopword: 많이 등장한다고 꼭 중요하지는 않을 수 있습니다. 예컨대 '있습니다' 또는 영어의 a나 the가 단어로 취급된다면 어떤 단어보다 중요하게 여겨질 겁니다. 그래서 우리는 조사, 접사, 접속 부사 등 불용어stopword 사전을 만들어 분석 대상에서 제외합니다
    • 낮은 빈도의 단어 제거: 빈출 단어를 강조하기 위해 별로 출현하지 않는 단어를 제외합니다

 

한국언론진흥재단_뉴스빅데이터_고빈도사용명사_경제면

 

Q1. 23년 8월 경제면에서 주목하는 이슈는 무엇이었을까?

  • A1: 23년 8월에는 글로벌, 서비스, 반도체, 에너지, 부동산 같은 키워드가 부각되었습니다.

 

현재 공공데이터 포털에서 제공하는 데이터는 월별로 구별되어 제공됩니다.

또, 언제 기사인지도 알 수 없습니다.

초기 데이터에는 날짜, 카테고리, 기사 제목, 기사 내용 등이 포함되고, 이를 count하면서 워드클라우드를 만들 생각이었는데 여의치 않았습니다.

다음번 미니 프로젝트에서 Bigkinds의 데이터를 직접 추출해 연, 월, 카테고리별로 어떤 키워드가 이슈가 되었는지 분석해 보겠습니다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함