본문 바로가기
Data/Data Engineering & Analystics

빅데이터 프레임워크 3주차 - 빅데이터 수집 기술

by DenverAlmighty 2024. 3. 21.

1. 데이터 수집의 개요

1) 데이터 수집 자동화 배경

  • 다양한 소스로부터 발생하는 데이터를 한 곳으로 모으는 작업 필요
  • 시사각각 발생하는 데이터를 주기적으로 수집해야 할 필요
  • 수집된 데이터를 용도에 맞게 전달해 데이터 저장해야 할 필요

 

 

2) 데이터 수집의 조건

 데이터 수집

  • 데이터의 형태나 종류에 관계 없이 수집 가능해야 함
  • 데이터의 형태나 종류에 따라 수집 방법이 결정됨

데이터의 재생산

데이터를 목적에 맞게 가공하여 저장 가능하게 재생산함

가시적 형태로 서비스 제공

여러 데이터를 통합 저장할 수 있느 ㄴ가시적 형태(API)를 제공해야함

 


2. Flume : 데이터 수집 프레임워크

1) Apache Flume 이란?

대규모 서버에서의 로그 수집

많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 프레임워크

다양한 곳에 위치한 서버에서 데이터를 취해 데이터의 플로우를 구성하여 데이터를 통합하여 목적지로 전달 가능

 

Flume 설계 철학

  • Reliability : 데이터 수집 시 유실 x
  • Scalability : 데이터 양에 탄력적으로 대응 가능
  • Extensibility : 데이터 저장 방식이 변경되어도 플러그인 형태로 지원
  • Manageability : 여러개 노드를 한꺼번에 제어가능

 

2) Flum 동작 방식

Flume 목적

데이터 소스부터 목적까지 흐름(flow) 정의

정의된 데이터의 흐름에 따라 여러 소스로부터 여러 목적지까지 수집된 데이터 저장하는 것이 목적

 

Flume의 데이터 흐름 구성 요소

  • Flume에서 데이터 흐름 정의하기 위해 Source, Sink, Channel 사용
  • 정의된 데이터의 흐름에 따라 여러 소스로부터 여러 목적지까지 수지뵌 데이터를 저장하는 것이 목적
  • Source : 외부 데이터가 발생하여 수집되는 영역
  • Sink : 수집된 데이터를 목적지에 저날
  • Channel : Source와 Sink 의 버퍼 영역