일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 딥러닝
- data load
- Tez
- Deeplearning 키워드
- Hive CLI
- Feature extraction
- 스파크
- 차원의 저주
- 하이브
- Haddop
- Managed Table
- .hiverc
- 학습률
- Hadoop Ecosystems
- Auto Encoder
- 캐글
- Data 불러오기
- 선형 회귀
- Spark
- Spark Data 불러오기
- Clodera Quick Start
- Manifold Learning
- L2 정규화
- hive
- Over fitting
- learning rate
- Spark 설치
- hive setting
- One-hot encoding
- DeepLearning
- Today
- Total
목록딥러닝 (3)
남는건 기록뿐

학부시절부터 캐글을 알긴했지만, 학생때는 학생이라 바뻤고 지금은 직장인이라 바쁘다ㅠㅠ 그래도 더 미룰 수 없어 올해부터는 제대로 된 Submit을 못해볼지언정 한번이라도 대회에 참가하여 Submit을 해보려한다! 먼저 캐글(kaggle)에 대해 소개하려고 한다. 아마도 머신러닝, 딥러닝, 데이터 사이언스 혹은 더 나아가서 그로스해커에 관심있는 사람이라면 한번쯤은 들어봤을 것이라 생각한다. 다만, 나처럼 시간에 치여 도전할 엄두가 나지 않았겠지ㅎㅎ 사실 의지박약. 캐글(Kaggle)은 2010년 설립된 빅데이터 솔루션 대회 플랫폼이다. 기업 및 단체에서 Data와 해결과제 등을 등록하면, 전세계의 어마무시한 능력자들이 이를 해결하기 위한 모델을 개발하고 경쟁하며 랭킹에 들려고 노력하고 순위안에 들면 Pri..
1. 머신러닝에서 표현(Representation)이란 단어의 뜻 -- 데이터 표현(representation of the data)은 원시 데이터(raw data)를 특성 벡터(feature vector)에 매핑한 결과이다. 2. 특성 추출(Feature extraction) -- 특성 추출은 원시 데이터를 특성 벡터로 추출하는 과정이다. 3. 원 핫 인코딩(One-hot encoding) -- 관련 벡터 요소를 1로 설정한다. -- 다른 요소는 모두 0으로 설정한다. -- 이 벡터의 길이는 어휘에 있는 요소의 수와 같다. 이러한 표현은 단일 값이 1일 때 one-hot encoding, 여러 값이 1일 때 multi one-hot encoding이라 한다. 4. 좋은 특성(Feature)의 조건 --..
1. 데이터를 학습 세트와 평가 세트로 분할하는 이유 -- 머신러닝 모델을 학습시킨 후에는 모델이 새로운 데이터를 입력했을 때도 범용적으로 잘 작동하는 지 평가할 기준이 필요하다. 이를 위해 평가(test data)가 필요하다. 일반적으로 머신러닝에선 정확한 평가를 위해 데이터를 학습 데이터(train data), 평가 데이터(test data)로 나누거나, 더 나아가서는 학습 데이터(train data), 검증 데이터(validation data), 평가 데이터(test data)로 분리한다. 학습 데이터(train data): 모델을 학습시키는데 필요함 검증 데이터(validation data): 학습한 모델이 적합한지 검증함 평가 데이터(test data); 최종적으로 선택한 모델의 성능을 평가함 ..