일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- One-hot encoding
- Manifold Learning
- 선형 회귀
- 캐글
- Hadoop Ecosystems
- data load
- Tez
- hive
- .hiverc
- Deeplearning 키워드
- Auto Encoder
- L2 정규화
- hive setting
- 하이브
- Over fitting
- DeepLearning
- learning rate
- 차원의 저주
- Spark
- Clodera Quick Start
- 스파크
- Data 불러오기
- Spark Data 불러오기
- Hive CLI
- Feature extraction
- 학습률
- Haddop
- 딥러닝
- Spark 설치
- Managed Table
- Today
- Total
목록분류 전체보기 (31)
남는건 기록뿐

Partition 파티션은 데이터를 디렉토리로 분리하여 저장한다. 하이브 같은 파일 기반 테이블은 기본적으로 테이블의 모든 row 정보를 읽기 때문에 데이터가 많아지면 속도가 느려진다. 파티션 칼럼은 where 조건에서 칼럼 처럼 이용할 수 있기 때문에 처음에 읽어 들이는 데이터를 줄여서 처리 속도를 향상 시켜 준다. 테이블의 파티션을 생성하는 기본 문법은 다음과 같다. CREATE TABLE tbl( order_id STRING ) PARTITIONED BY (yymmdd STRING); Partiton 종류 파티션의 종류는 동적 파티션(dynamic)과 고정 파티션(static)이 있다. 고정 파티션은 테이블에 데이터를 입력하는 시점에 파티션 정보를 전달하기 때문에 입력되는 파티션을 알 수 있다. 동..

Managed -> 테이블 생성 시 옵션을 따로 설정하지 않으면 Managed Table로 생성된다. 세션이 종료되어도 테이블의 데이터와 파일은 유지되는데, Table을 Drop하면 파일도 함께 삭제된다. USE retail_db; CREATE TABLE orders ( order_id INT COMMENT 'Unique order id', order_dat STRING COMMENT 'Date on which order is placed', order_customer_id INT COMMENT 'Customer id who placed the order', order_status STRING COMMENT 'Current status of the order' ) COMMENT 'Table to save..

Check SCHEMA data.printSchema Check COLUMNS data.columns SELECT val pracData = data.select($"fecha_dato", $"ncodpers", $"ind_empleado") //change schema, name of columns pracData.select($"fecha_dato".cast("timestamp") as "Date", $"ncodpers".cast("string") as "CutomerNum", $"ind_empleado".cast("string") as "employed") // change only a name of a column pracData.withColumnRenamed("Date", "DateTime")..

MR(Map Redue) -> MR은 일반적으로 파일에서 데이터를 읽고 매퍼를 통해 임시 결과를 출력, 셔플과 정렬을 통해 맵의 임시 결과를 읽고, 이동하고 다시 쓴다. 그리고 리듀서 작업을 통해 임시 결과를 읽고 결과를 출력하는 과정을 거친다. 쉽게 말하면, 작업의 중간결과를 HDFS에 입력하므로 I/O 오버헤드가 발생한다. Tez -> 이 모든 작업들을 메모리 상에서 처리하고 임시 데이터는 메모리에서 처리한다. 그러므로 MR보다 디스크 I/O가 줄어들어 속도가 빠르다. 즉, MR은 차례대로 읽으면서 처리하고 저장하는 과정을 반복하지만 Tez는 미리 작업량을 계산해서 dataflow graph(DAG)로 작업 순서, 리소스를 최적화한다. 오버헤드(OverHead) -> 어떤 처리를 하기 위해 들어가는 ..

아이패드에 있는걸 다시 어케 옮겨야하나..으앙ㅠㅠ 복습할 겸, 주요부분만 요약! Auto Encoder : Auto Encoder는 크게 Unsupervised Learning, Representation Learning, Dimensionality Reduction, Generative Model Learning에서 쓰이며, 대부분 Dimensionality Reduction, Generative Model Learning에서 사용된다. Dimensionality Redution에서는 또, Feature Extraction과 Manifold Learning으로 나눌 수 있지만, 사실상 같다. 학습된 Auco Encoder에서 Encoder는 차원 축소 역할을 수행(maniford learning)하며,..

하이브 CLI(Command Line Interface)는 하이브 쿼리를 실행하는 가장 기본적인 도구이다. 인터랙티브 쉘을 이용하여 사용자의 명령을 입력할 수 있고 여기서는 쿼리 실행 방법, 유용한 옵션, 내부 명령어를 알아보겠다. CLI 옵션 hiveconf는 옵션값을 설정할 때 이용한다. hivevar는 쿼리에 변수를 지정할 때 이용한다. usage: hive -e 커맨드 라인으로 실행할 쿼리 -f 쿼리가 작성된 파일을 이용하여 실행할 경우 --hiveconf 하이브 설정값 입력 예) --hiveconf tez.queue.name=queue --hivevar 쿼리에서 사용할 변수 입력 예) --hivevar targetDate=20180101 -- 옵션 지정 방법 $ hive --hiveconf te..