[GCP]BigQuery
개요
- Project : 가장 큰 개념으로 프로젝트에는 사용자에 대한 정보가 저장됨.
- Dataset: RDB(Relative Database)와 같은 개념으로 특정프로젝트에 포함되어 테이블과 뷰에 대한 액세스를 구성하고 제어하는데 사용됨. 하나의 Dataset에는 여러개의 Table을 가질 수 있음
- Table : RDB의 Table과 같은 개념
- 기본 Table : 기본 BigQuery Repository에서 지원되는 테이블
- 외부 Table : BigQuery 외부 Repository에서 지원되는 테이블
- 뷰 : SQL쿼리로 정의된 가상테이블
- Job : 쿼리, 데이터 로딩, 생성, 삭제 등 작업에 대한 단위
SQL 문법은 오라클에서 사용하던 것과 동일하다
EX)
Select product.product_id, product.product, product.price, producer.producer, producer.uni_cost
from 'my-project-byjw.mydataset.product' AS product
left join 'my-project-byjw.mydataset.producer' AS producer
ON product.product_id = producer.product_id
BigQuery ML
BigQueryML을 사용하면 Python이나 자바 없이 표준 SQL쿼리만으로 머신러닝 모델을 만들고 실행할 수 ㅣㅇㅆ다.
>> 선형회귀 (Linear Regression), 이진 로지스틱 회귀(Binary Logistic Regression), 다중 클래스 로지스틱 회귀(Multiclass Logistic Regression) 모델 지원
BigQuery GIS
BigQuery GIS에서 지리 데이터 유형과 표준 SQL지리 함수를 사용하여 지리 공간 데이터를 분석하고 시각화할 수 있다.
_____________________________실습____________________________
데이터가 없을 때 : GCP에서 제공하는 공개데이터를 가져온다.
한국어로는 데이터추가 > 공개데이터세트 탐색하기 > 대표적인 데이터세트 : austin crime
시각화 : 쿼리결과에 대해서 '데이터 스튜디오에서 살펴보기' 선택
SELECT한 정보만 따로 csv파일로 저장가능하다.