일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- hive
- data load
- L2 정규화
- 학습률
- Managed Table
- Feature extraction
- 선형 회귀
- Spark Data 불러오기
- Haddop
- DeepLearning
- Spark 설치
- Tez
- 딥러닝
- 차원의 저주
- 스파크
- 하이브
- Hive CLI
- Over fitting
- .hiverc
- Deeplearning 키워드
- hive setting
- Hadoop Ecosystems
- 캐글
- Data 불러오기
- learning rate
- Auto Encoder
- One-hot encoding
- Clodera Quick Start
- Manifold Learning
- Spark
- Today
- Total
남는건 기록뿐
Hive란? 본문
Apache Hive : Hive는 대용량 데이터를 질의하고 그 결과를 생성하는 쿼리 엔진이라 할 수 있다. SQL을 Maxmpduce로 변환하기 때문에 Apache Hadoop이 설치돼 있어야 한다. 기본 동작은 데몬 형태로 동작하지는 않지만, 동작을 위해서는 메타 데이터를 관리하는 별도의 데이터베이스가 있어야 하고, 보통은 MySQL을 이용한다. 음.. 뭐랄까 Hive는 Hadoop에서 사용하는 쿼리같은 느낌이다. 아니, 사실 SQL을 안다면 어려움 없이 사용할 수 있다.
다음은 Apache Hive를 구성하는 모듈 구성도이다.
참조: https://data-flair.training/blogs/apache-hive-architecture/
Apache Hive Architecture - Complete Working of Hive with Hadoop - DataFlair
Apache Hive Architecture tutorial cover Hive components, hive client, hive services, hive metastore, servers, hive drivers, Hive data processing flowchart.
data-flair.training
Hive를 구성하는 모듈에서 Metadata store는 Hive QL에서 사용하는 데이터베이스 테이블과 HDFS 상의 파일을 서로 연결해주는 역할을 한다. Maxmpduce, HDFS는 모두 경로를 기반으로 입출력 파일을 지정하지만, Hive는 SQL 형태의 쿼리를 작성하기 때문에 파일의 경로 기준으로 작업을 하지 않고 테이블의 스키마명을 기준으로 질의 쿼리를 실행한다. 따라서 HDFS의 파일을 테이블과 연결하는 작업이 필요하다. 보통 연결하는 작업은 Hive QL로 처리하지만, 그 정보는 어딘가에 저장돼 있어야 하는데 그 저장소가 바로 Metadata store이다. Metadata store는 JDBC를 기반으로 동작하는 어떤 데이터베이스를 사용해도 되며, 기본으로 설정하지 않아도 파일 기반 데이터베이스를 사용하도록 설정돼 있다. 그렇더라도 단순 테스트 환경이 아닌 경우 반드시 별도의 데이터베이스를 지정해서 사용해야 한다.
'Hive & Impala' 카테고리의 다른 글
Hive Partition, Bucketting에 대하여 (0) | 2020.06.17 |
---|---|
Hive의 3 가지 Table Type, Data Load (0) | 2020.06.17 |
MR과 TEZ의 차이 (0) | 2020.06.16 |
Hive CLI(Command Line Interface) (0) | 2020.06.15 |
Docker에서 Cloudera Quick Start Vm Image 다운받기 (0) | 2020.06.15 |