
초보 입장에서 어려웠던 부분중에 하나가 큰 데이터를 다루는 부분 이었다.데이터는 크게 Feature, Label로 나뉘는데Raw 데이터를 이용해 Label을 후에 붙여주게 된다.내 경우에는 RAW 데이터가 MySQL 로 저장이 되어MySQL에서 아래 작업을 처리 하려고 했었는데 이게 문제였다. 1. Feature 부분을 Export -> Export 속도가 느림.2. label 생성 -> 생성은 빠름3. Feature와 Label을 Join -> 하루 종일 돌려서 6000만건, 3억 건이면 5일을 돌려야 됨 이에 대한 해결 책은1. Python을 이용하여 Feature데이터를 나누어서 Parquet 형식으로 저장2. Label 도 Parquet 형식으로 저장3. Label 과 Feature는 나중에 Jo..

일단 AWS Sagemaker에 들어가 본다. 바로 SageMaker 시작하기가 있어서 들어갔다. 역할 구성 아래 창에서 기록 안하면 다음으로 안 넘어가서 일단 최소화 하고간단한것들만 작성해 봤다. 도메인 설정 S3 리소스 구성 일단 설정이 되었으니 자습서를 따라가 본다.https://aws.amazon.com/ko/sagemaker/getting-started/ Amazon SageMaker에서 기계 학습 시작하기 - Amazon Web Services aws.amazon.com 여러가지가 있는데 일단 노코드 ML을 시도 해 보자 들어가서 여러 가이드가 있는데 비용을 먼저 살펴 보니 SageMaker Canvas를 시도하려는 4명의 분석가 팀이 있다고 가정해 보겠습니다. 그중 한 명이 50MB 입력 ..

나는 처리하고 싶은 데이터는 가지고 있다.그런데 문제는 라벨링. 데이터를 처리 해서 라벨링을 해야 하는데어느새 데이터가 3억건이 되어 있었다. 처리 해 보니 라벨을 생성 하는 것 보다라벨을 DB에 다시 저장하는게 오래 걸린다. CPU는 놀고 있는데 SSD가 계속 돌아가면서더 빨리 돌릴 방법이 없다. 일단 이건 이것 대로 돌려두고300만개 정도만 CSV 파일로 만들어서AWS C3 에 올려 봤다. AWS에 올리는건 아주 간단하다. 1. S3에 들어가서 2. 버킷 만들기 3. 그대로 놓고 버킷 만들기 버튼 누르기 4. 생성된 버킷 확인 5. 버킷 들어가기 6. 업로드 버튼 누르고 파일 올리기 이렇게 하면 파일이 올라간다.160GB 까지는 이대로 올라가는데더 큰걸 올리려면 API를 써야 한다고 한다.

2017년에 시도 했던 Machine learning을 다시 해 보려고주섬 주섬 코드를 찾고 그래픽 카드를 설치하고 머신러닝을 해 보려고 하는데몇가지 어려움이 생긴다. 1. 데이터가 커지니 전 처리가 쉽지않다. 그 동안 데이터가 100GB 이상, 3억건으로 커졌고 여기에 Label 을 붙이려고 하니 몇 일이 걸렸다. 2. 오래된 GTX1080Ti는 호환성을 맞추기가 참 어렵다. CUDA, Numpy Pandas 등 최신 버전을 사용 할 수 없고 예전 버전을 사용 해야 하는데, 그러면 최신 예제 코드들이 에러가 난다. 쓸 수는 있는데, 쉽지 않다. 3. 데이터가 커지니 학습도 쉽지 않다. 용량이 커지니 배치로 처리 하는데, 데이터를 가져 오고 학습하는 과정이 많..
- Total
- Today
- Yesterday