'Spark' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Spark (3)

남는건 기록뿐

Spark Basic Function

Check SCHEMA data.printSchema Check COLUMNS data.columns SELECT val pracData = data.select($"fecha_dato", $"ncodpers", $"ind_empleado") //change schema, name of columns pracData.select($"fecha_dato".cast("timestamp") as "Date", $"ncodpers".cast("string") as "CutomerNum", $"ind_empleado".cast("string") as "employed") // change only a name of a column pracData.withColumnRenamed("Date", "DateTime")..

Spark 2020. 6. 16. 22:35

Spark에서 Data 불러오기

Download Santander dataset 사실 데이터가 더 많은데, 사이즈가 커서 업로드가 안된다ㅠㅠ 캐글의 santander data를 가져옴 local에 저장 후 hdfs에 data 적재 # testdata 경로 생성 mkdir ./testdata # 방금 만든 testdata 경로로 dataset 이동 mv ./santander* ./testdata/ # hdfs에 data 경로 생성 hdfs dfs -mkdir /data # 방금 만든 data 경로에 dataset 적재 hdfs dfs -put ./santander-dataset* /data/ # 확인 hdfs dfs -ls /data/ Spark-shell 실행하여 data 불러오기 //spark에서 data 불러오기 //schema를 ..

Spark 2020. 6. 15. 09:28

Spark 설치

Download binary cd /path/to/spark/download wget http://apache.mirror.cdnetworks.com/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop3.2.tgz. tar zxvf spark-3.0.0-preview2-bin-hadoop3.2.tgz ln -s spark-3.0.0-preview2-bin-hadoop3.2 default Setting Environment Variables export SPARK_HOME="/path/to/spark/download/default" export SPARK_CONF_DIR="${SPARK_HOME}/conf" export PATH="${PATH}:${SP..

Spark 2020. 6. 15. 09:22

Prev 1 Next

목록Spark (3)

남는건 기록뿐

티스토리툴바