본문 바로가기

프로젝트4

[프로젝트] Lightening Data Masters 2기 - Iron Heritage Travel 프로젝트 개요 프로젝트명 : Iron Heritage Travel 주제 : 인기 여행 테마 순위 목표 : ETL 데이터 파이프라인 구축 기간 : 2023.10.08 ~ 2023.12.07 장소 : 엘더스터디 영등포점 기술 스택 / 툴 : Kafka, AWS S3, Grafana, Snowflake, Flask, Python, Notion 2024. 3. 3.
[프로젝트] Lightening Data Masters 1기 - Wing Price 프로젝트 개요 프로젝트명 : Wing Price 주제 : 항공권 가격 비교 서비스 목표 : 배치 데이터 파이프라인 구축 프로젝트 기간 : 2023.03.03 ~ 2023.06.05 장소 : 스터디위드 사당점 기술 스택 / 툴 : Airflow, Hive, Hadoop, Spark, MySQL, Flask, Python, Github, Notion 후기 생각지도 못한 곳에서 시간을 잡아먹어서 시간이 부족했다. 이건 모든 프로젝트에 적용되겠지만. Linux : 늘 root로만 로그인해서 작업해서 막힐 것이 없었는데 root가 아닌 사용자로 작업하면서 사용자 권한에 관해 다시 공부했다. 최종 결과물이 출발 날짜, 도착 날짜, 공항 코드 세가지만 입력받는데 최초 계획은 다른 항공권 비교 사이트처럼 편도/왕복 여.. 2024. 3. 3.
[프로젝트] Lightening Data Masters 1기 결과물 (영상) 2023. 6. 5.
Hive 로 json parsing for문 처럼 사용하기(모름) Hive 로 json parsing for문 처럼 사용하는 방법은 아직 모른다 Amadeus API 로 항공 가격 조회를하면 데이터를 아래처럼 준다 data에 0, 1, 2,3 .. 이게 각각 항공권 이다 hive로 json 파싱을해봤다. 값은 잘 추출되었고 data\[0] 이부분을 1,2, 3 등으로 바꿔줘야하는데 아직 hive 로 한번에 처리하는 방법을 모르겠어서 시간이 없으니 그냥 python으로 parsing하는 코드를짰다. airflow에서 실행시키기 편하도록 json 파일명, 경로, csv 파일명, 경로를 커맨드로 입력 받을 수 있게 했다. csv 파일 경로를 지정 하지 않으면 json 파일 경로와 동일한 곳에 저장되고, csv 파일명을 지정하지 않으면 json파일명과 동일한 파일명에 확장자.. 2023. 4. 12.