본문 바로가기

Spark3

[프로젝트] Lightening Data Masters 1기 - Wing Price 프로젝트 개요 프로젝트명 : Wing Price 주제 : 항공권 가격 비교 서비스 목표 : 배치 데이터 파이프라인 구축 프로젝트 기간 : 2023.03.03 ~ 2023.06.05 장소 : 스터디위드 사당점 기술 스택 / 툴 : Airflow, Hive, Hadoop, Spark, MySQL, Flask, Python, Github, Notion 후기 생각지도 못한 곳에서 시간을 잡아먹어서 시간이 부족했다. 이건 모든 프로젝트에 적용되겠지만. Linux : 늘 root로만 로그인해서 작업해서 막힐 것이 없었는데 root가 아닌 사용자로 작업하면서 사용자 권한에 관해 다시 공부했다. 최종 결과물이 출발 날짜, 도착 날짜, 공항 코드 세가지만 입력받는데 최초 계획은 다른 항공권 비교 사이트처럼 편도/왕복 여.. 2024. 3. 3.
[Spark] Spark Streaming velog에서 보기 Spark Docs에 나오는 Spark Streaming 예제 localhost:9999에서 입력받은 글자 단어 세기 0. 실행 환경 AWS EC2 t2.xlarge OS : Red Hat 9.1 Python : 3.9 Spark : 3.3.1 Scala : 2.12.15 Java : OpenJDK 64-Bit Server VM, 1.8.0_352 1. Streaming Test 1-1. streaming.py 생성 vi streaming.py from pyspark.sql import SparkSession from pyspark.sql.functions import * # Create SparkSession spark = SparkSession \ .builder \ .appNam.. 2022. 12. 18.
[Spark] SQL 연습하기 velog에서 보기 0. 실행 환경 AWS EC2 t2.xlarge OS : Red Hat 9.1 Python : 3.9 Spark : 3.3.1 Scala : 2.12.15 Java : OpenJDK 64-Bit Server VM, 1.8.0_352 1. SQL 연습 # create data list stockSchema = ["name", "ticker", "country", "price", "currency"] stocks = [ ('Google', 'GOOGL', 'USA', 2984, 'USD'), ('Netflix', 'NFLX', 'USA', 645, 'USD'), ('Amazon', 'AMZN', 'USA', 3518, 'USD'), ('Tesla', 'TSLA', 'USA', 1222, .. 2022. 12. 18.