본문 바로가기

Data/Data Engineering & Analystics42

[Airflow] 1. Apache Airflow란? velog 마이그레이션 원글 : [Airflow] 1. Apache Airflow란?(2022년 9월 11일) ✏️ Airflow란? Airlfow는 Workflow 관리 도구이다. (Airflow는 데이터 스트리밍 솔루션도 아니고, data processing framework도 아니다.) Airbnb에서 개발했고, 2016년에 Apache 프로젝트가 되었다. 🤷 그럼 Workflow는 뭔데? Workflow란 말 그래도 작업 흐름이다. 데이터 ETL을 예시로 들어보면, Extract, Transform, Load 작업이 순서대로 실행된다. 이렇게 순서가 있는 작업 과정을 workflow라고 한다. Airflow로 workflow를 Python 코드로 작성하고, UI로 스케줄링, 모니터링 할 수있다. .. 2024. 3. 5.
[Airflow] 데몬으로 실행 설정 오류 : The unit airflow-webserver.service has entered the 'failed' state with result 'resources' 0. 실행 환경 OS : Ubuntu 22.04.2 LTS 1. Error 메세지 원인 airflow-scheduler.service > [Service] 에 EnvironmentFile 경로가 잘못 지정되어있거나, AIRFLOW_CONFIG, AIRFLOW_HOME 이 지정되어있지 않아서 발생한다. 해결 방법 Ubuntu(데비안 계열)이라면 /etc/environment, Redhat 계열이라면 /etc/sysconfig/airflow 로 설정되어있고, AIRFLOW_CONFIG, AIRFLOW_HOME 경로 바르게 설정하면 된다. sudo journalctl -xeu airflow-webserver. service A stop job for unit airflow-webserver. service h.. 2023. 4. 23.
[Airflow] Airflow를 데몬(서비스)로 실행 설정 (Ubuntu) 0. 실행 환경 OS : Ubuntu 22.04.2 LTS Airflow version : 2.5.0 1. 설정하기 Airflow How-to Guides 에보면 /usr/lib/systemd/system 에있는 파일 복사해다 쓰고, AIRFLOW_HOME과 AIRFLOW_CONFIG 를 수정하면 된다고 나와있다. 근데 Redhat 기반 시스템 기준이고 그렇지 않은 경우에는 적절한 변경이 필요하다고한다. 1) 서비스 생성 아래처럼 /etc/sysconfig/system에 .service 파일을 만든다. (/lib/systemd/system 에 있는 파일 복사해서 수정해도된다.) # airflow-scheduler 서비스 생성 sudo touch /etc/systemd/system/airflow-sched.. 2023. 4. 23.
[Snowflake] Data Applications 뱃지 획득 Badge 2 : Data Application Builders Workshop 과정 수료하고 Data Applications 뱃지 획득했다. Snowflake를 백엔드로 사용하는 애플리케이션을 구축하는 과정인데 rivery 랑 연동해서 api 데이터 가져오고, streamlit이랑 연동해서 프론트로 보여주는 등을 다룬다. 작년 11월에 뱃지1따고 이어서하다가 말아서 두번째 한건데 지난번에 rivery에서 google forms 결과 가져오는데 결과가 한글로 저장되는거 때문에 애먹었는데 그래도 나름 두번째라고 금방 해결했다. 2023. 4. 13.
[Snowflake] Badge 1 획득 Snowflake 웨비나, 핸즈온 랩1을 완료하고 뱃지를 받았다. 랩 1(데이터 웨어하우징)까지 했을 때는 스키마도 사전에 정해야하고 SnowflakeSQL 쿼리로 질의하는데 DB랑 뭐가 다른거지 싶었다. 랩 2는 Snowflake를 백엔드로 사용하는 애플리케이션 구축에 관한 내용인데 여기부터가 진짜인가보다 2023. 1. 8.