Airflow 에 PostgresToS3Operator 만들기

2019-01-27

ETL 작업을 어떻게 관리하는게 좋을지 고민입니다. 검색했을 때나 주변 분들 얘기를 들어봤을 때 Apache Airflow 가 많이 쓰이는 것 같습니다. 매니지드 서비스로는 GCP 에서는 Cloud Composer, AWS 에서는 AWS Data Pipeline 가 있습니다. 업무 인프라의 대부분이 AWS 라서 Data Pipeline 에 눈이 갔는데 아쉽게도 서울 리전에는 아직 제공되지 않습니다.

Read More

EMR 콘솔에서 Spark, Zeppelin 클러스터 생성

2019-01-11

Ad-hoc 분석과 배치 작업에 Apache Spark 를 쓰고 있습니다. 현재 실무에서는 AWS 인프라 위에 직접 Spark 클러스터와 Zeppelin 을 구성해서 사용하고 있습니다. 기존 클러스터 구성이 만족스럽기에 EMR 로 마이그레이션 하진 않겠지만, 언젠가 별도의 인프라를 새롭게 구성해야 한다면 EMR 을 써보고 싶은 마음입니다. 그래서 EMR 에 대해 공부하기 시작했습니다.

Read More

MySQL 의 Geospatial Index (1)

2018-11-26

MySQL InnoDB 스토리지 엔진은 버전 5.7.5 부터 geospatial index 를 지원합니다. geospatial index 를 사용하고, where 절의 조건을 적절히 설정하면 쿼리 속도를 높힐 수 있습니다. 간단한 위도/경도 샘플 데이터를 생성해서 테이블을 만들고, 특정 위치로 부터 특정 거리 이내에 존재하는 레코드의 개수를 세는 간단한 쿼리에 대해 성능이 어떻게 개선되는지 확인해보겠습니다.

Read More

글또 2기를 시작하며

2018-11-11

글또 라는 모임의 2기 활동에 참여합니다. 글쓰는 또라이가 세상을 바꾼다 라는 재밌는 이름의 개발자 글쓰기 모임입니다. 예전부터 성윤님의 존재를 알고 팔로잉하고 있었는데, 글또 2기 모집글 올리신걸 보고 바로 신청했습니다.

Read More