0. 질문
질문 : 뉴스에서 가장 많이 언급되는 단어는 무엇일까?
2012년에 많이 언급된 토픽은 무엇인가?
시간의 흐름에 따라 토빅의 빈도수에 차이가 있는가?
1. 데이터
데이터 : 2012년 한국언론진흥재단 뉴스 빅 데이터
2. 차트
1) 2012년에 많이 언급된 토픽은 무엇인가?
2012년에 많이 언급퇸 토픽은 후보, 민주, 대선, 대통령 등이 있다.
대선, 정치 관련 토픽이 많은 것으로 보아 대선이 있던 해라는 것을 유추할 수 있다.
2) 시간의 흐름에 따라 토픽의 빈도 수에 차이가 있을까?
2012년 월별 토픽 워드클라우드이다.
시간의 흐름에 따라 자주 사용되는 토픽도 변하였다.
3. 워드 클라우드
워드 클라우드는 서술형 데이터를 분석할 때 효과적이다. 사용 빈도수가 높은 핵심 키워드를 강조할 때 유용하다.
자연어 처리 시 전처리
1. 분석할 필요가 없는 단어(불용어) 제거하기 (~를, ~가, ~는, ~에서, ~들, 그러나 ..)
2. 단어의 최소 빈도수 정하기
3. Null 값 제거하기
4. 추출할 자연어의 길이 정하기
참고
황해진, 윤영진, 사례분석으로 배우는 데이터 시각화, 한빛미디어
'Data > Data Engineering & Analystics' 카테고리의 다른 글
데이터 스트리밍에서 "재생 가능성(Replayability)" (0) | 2025.02.04 |
---|---|
[태블로] 가뭄 피해가 많이 발생하는 지역은 어디일까? (하이라이트 맵) (1) | 2024.12.27 |
[태블로] 녹색 기업은 녹색 제품을 많이 구입할까? (하이라이트 테이블) (0) | 2024.12.27 |
[태블로] 인천광역시 시군구별 인구 구성 비율은 어떤가? (파이차트) (1) | 2024.12.15 |
[태블로] 제주도 자연 휴양림 이용객 현황? (라인차트) (0) | 2024.12.15 |