일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Spark Data 불러오기
- L2 정규화
- Spark 설치
- 캐글
- 선형 회귀
- Managed Table
- 스파크
- Tez
- Clodera Quick Start
- .hiverc
- Hive CLI
- Over fitting
- 하이브
- DeepLearning
- 차원의 저주
- Feature extraction
- Hadoop Ecosystems
- Auto Encoder
- 딥러닝
- Deeplearning 키워드
- Data 불러오기
- Manifold Learning
- Spark
- data load
- Haddop
- One-hot encoding
- 학습률
- hive
- learning rate
- hive setting
- Today
- Total
목록Spark (3)
남는건 기록뿐

Check SCHEMA data.printSchema Check COLUMNS data.columns SELECT val pracData = data.select($"fecha_dato", $"ncodpers", $"ind_empleado") //change schema, name of columns pracData.select($"fecha_dato".cast("timestamp") as "Date", $"ncodpers".cast("string") as "CutomerNum", $"ind_empleado".cast("string") as "employed") // change only a name of a column pracData.withColumnRenamed("Date", "DateTime")..

Download Santander dataset 사실 데이터가 더 많은데, 사이즈가 커서 업로드가 안된다ㅠㅠ 캐글의 santander data를 가져옴 local에 저장 후 hdfs에 data 적재 # testdata 경로 생성 mkdir ./testdata # 방금 만든 testdata 경로로 dataset 이동 mv ./santander* ./testdata/ # hdfs에 data 경로 생성 hdfs dfs -mkdir /data # 방금 만든 data 경로에 dataset 적재 hdfs dfs -put ./santander-dataset* /data/ # 확인 hdfs dfs -ls /data/ Spark-shell 실행하여 data 불러오기 //spark에서 data 불러오기 //schema를 ..

Download binary cd /path/to/spark/download wget http://apache.mirror.cdnetworks.com/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz. tar zxvf spark-3.0.0-preview2-bin-hadoop3.2.tgz ln -s spark-3.0.0-preview2-bin-hadoop3.2 default Setting Environment Variables export SPARK_HOME="/path/to/spark/download/default" export SPARK_CONF_DIR="${SPARK_HOME}/conf" export PATH="${PATH}:${SP..