본문 바로가기

Data58

[2023 빅콘테스트] 클래식 공연 활성화를 위한 효과적 가격 모델 수립 처음 데이터 분석을 배울 때 2018년도에는 문제가 인덱스 개발, 값 예측 정도였는데 문제가 많이 다양해졌다.선택한 주제는 정형데이터 분석 분야  - 어드밴스드 리그 "클래식 공연 활성화를 위한 효과적 가격 모델 수립" 이다.배경 + 분석 목적2022 국민문화예술활동조사 보고서에 따르면, 가구 소득이 높을수록 문화예술행사 관람이 증가하고, 가장 많이 지출하는 분야는 영화였다. 아무래도 접근성이 좋고, 장르도 다양하고, 가격이 저렴안 영화가 1위였고 클래식은 중간정도 위치였다.목적이 "클래식 공연 활성화"이니 접근성이나 관심은 내가 해결할 수 있는 분야가 아니었고,나처럼 크게 관심 없는 사람이 어떻게 하면 클래식 공연을 보러갈까 라고생각해보니 가격으로 진입장벽을 낮추는 것이었다.러시아에있을 때 학생증만 있.. 2024. 5. 1.
데이터 중심 애플리케이션 설계 : 4장 부호화 발전 LDM 3기 책 스터디 발표 자료이다. 4장. 부호화 발전 한 줄 요약시스템상 모든 데이터는 하위 호환성과 상위 호환성을 제공하는 방식으로 부호화 해야한다.요약1. 다양한 데이터 부호화 형식과 호환성 속성프로그래밍 언어에 특화된 부호화는 단일 프로그래밍 언어로 제한되며 상위 호환성과 하위 호환성을 제공하지 못하는 경우가 있음JSON, XML, CSV 같은 텍스트 형식은 널리 사용됨이들간 호환성은 데이터타입을 사용하는 방법에 달려 있어 스키마가 있으면 유용할 수 있으나 반대로 불편할 수 있음이진 스키마스리프트, 프로토콜, 아브로 같은 이진 스키마 기반은 짧은 길이로 부호화 되어 효율적단, 이진 부호화는 사람이 읽을 수 있도록 하기위해 복호화 과정이 필요함2. 데이터 저장과 전달에 사용되는 데이터플로 모드3.. 2024. 3. 31.
[Streaming Data 실시간 데이터 파이프라인 아키텍처] 요약 3, 4 장 앤드류 살티스 저  '실시간 데이터 파이프라인 아키텍처' 를 요약 정리한 글 입니다. 3장 수집 단계에서 데이터 전송 : 데이터 파이프라인 분리요약1. 컨슈머 처리 속도나 네트워크 장애 발생에도 데이터 유실 방지를 위해커메세지 큐를 사용해 수집과 분석 단계를 분리햐고, 메세지를 지속적으로 저장하는 시스템으로 구축야한다. 2. 프로듀서, 메세지 큐, 컨슈머, 요소들 간 네트워크 장애에 대비해 영구 저장소, 응답 확인 등으로 최대한 데이터 유실/중복 방지할 수 있고 복잡도, 처리 속도, 유실/중복 가능성 의 트레이드 오프를 정해 시맨틱 종류 및 설계를 해야한다.  정리 (펼치기)더보기1.  메세지 큐 단계가 필요한 이유단일 서버로 구성하면 메세지 큐 불필요. 프로세스간 통신 방법 중 메세지 큐 모델을 선택하.. 2024. 3. 22.
[Streaming Data 실시간 데이터 파이프라인 아키텍처] 1, 2장 요약 앤드류 살티스 저  '실시간 데이터 파이프라인 아키텍처' 를 요약 정리한 글 입니다. 1장 스트리밍 데이터 소개요약스트리밍 데이터 시스템 : 서버의 실시간 데이터를 클라이언트가 데이터를 필요로 하는 시점에 데이터 가져가서 처리하는 시스템.스트리밍 데이터 시스템 아키텍처 : 수집 - 메세지 큐 - 분석- 인메모리 데이터 저장소 - 데이터 접근정리 (펼치기)더보기1) 실시간 데이터 시스템과 스트리밍 데이터 시스템 차이점실시간 시스템은 지연 정도와 허용 가능한 지연에 따라 하드 리얼타임, 소프트 리얼타임(항공사 예약 시스템, 주식 시세 등), 니어 리얼타임(스마트 홈 등) 로 분류할 수 있음스트리밍 데이터 시스템 : 서버의 실시간 데이터를 클라이언트가 데이터를 필요로 하는 시점에 데이터 가져가서 처리하는 시스.. 2024. 3. 21.
빅데이터 프레임워크 3주차 - 빅데이터 수집 기술 1. 데이터 수집의 개요1) 데이터 수집 자동화 배경다양한 소스로부터 발생하는 데이터를 한 곳으로 모으는 작업 필요시사각각 발생하는 데이터를 주기적으로 수집해야 할 필요수집된 데이터를 용도에 맞게 전달해 데이터 저장해야 할 필요  2) 데이터 수집의 조건 데이터 수집데이터의 형태나 종류에 관계 없이 수집 가능해야 함데이터의 형태나 종류에 따라 수집 방법이 결정됨데이터의 재생산데이터를 목적에 맞게 가공하여 저장 가능하게 재생산함가시적 형태로 서비스 제공여러 데이터를 통합 저장할 수 있느 ㄴ가시적 형태(API)를 제공해야함 2. Flume : 데이터 수집 프레임워크1) Apache Flume 이란?대규모 서버에서의 로그 수집많은 양의 로그 데이터를 효율적으로 수집, 취합, 이동하기 위한 분산형 프레임워크다양.. 2024. 3. 21.