일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- DeepLearning
- Data 불러오기
- Hadoop Ecosystems
- 딥러닝
- Managed Table
- Over fitting
- Haddop
- hive setting
- 캐글
- hive
- 하이브
- 스파크
- Spark 설치
- Tez
- 선형 회귀
- .hiverc
- Spark
- One-hot encoding
- Manifold Learning
- L2 정규화
- 학습률
- Clodera Quick Start
- Feature extraction
- Spark Data 불러오기
- Deeplearning 키워드
- 차원의 저주
- Hive CLI
- data load
- Auto Encoder
- learning rate
- Today
- Total
목록Spark (4)
남는건 기록뿐

Check SCHEMA data.printSchema Check COLUMNS data.columns SELECT val pracData = data.select($"fecha_dato", $"ncodpers", $"ind_empleado") //change schema, name of columns pracData.select($"fecha_dato".cast("timestamp") as "Date", $"ncodpers".cast("string") as "CutomerNum", $"ind_empleado".cast("string") as "employed") // change only a name of a column pracData.withColumnRenamed("Date", "DateTime")..

이걸 보는 여러분들이 쉽게 사용하기를 바라는 마음에(사실 내가 귀찮아서) 배포판을 설치하기는 좀 그렇고.. 그래서 Docker에서 cloudera quick start vm image를 설치하여 바로 사용하는 방법을 알려주도록 하겠다. https://hub.docker.com/r/cloudera/quickstart Docker Hub hub.docker.com 사실 위 url에 들어가면 자세히 설명되어 있지만, 그래도 한국사람은 한국말이 편하기에.. Docker가 집에 깔려있다는 가정하에 진행한다. 물론 Docker 설치하는 것도 쉬우니, 구글링해서 검색해보도록 하자! 1. Cloudera quickstart vm의 가장 최선 버전을 다운받기. docker pull cloudera/quickstart:l..

Download Santander dataset 사실 데이터가 더 많은데, 사이즈가 커서 업로드가 안된다ㅠㅠ 캐글의 santander data를 가져옴 local에 저장 후 hdfs에 data 적재 # testdata 경로 생성 mkdir ./testdata # 방금 만든 testdata 경로로 dataset 이동 mv ./santander* ./testdata/ # hdfs에 data 경로 생성 hdfs dfs -mkdir /data # 방금 만든 data 경로에 dataset 적재 hdfs dfs -put ./santander-dataset* /data/ # 확인 hdfs dfs -ls /data/ Spark-shell 실행하여 data 불러오기 //spark에서 data 불러오기 //schema를 ..

Download binary cd /path/to/spark/download wget http://apache.mirror.cdnetworks.com/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz. tar zxvf spark-3.0.0-preview2-bin-hadoop3.2.tgz ln -s spark-3.0.0-preview2-bin-hadoop3.2 default Setting Environment Variables export SPARK_HOME="/path/to/spark/download/default" export SPARK_CONF_DIR="${SPARK_HOME}/conf" export PATH="${PATH}:${SP..