
초보 입장에서 어려웠던 부분중에 하나가 큰 데이터를 다루는 부분 이었다.데이터는 크게 Feature, Label로 나뉘는데Raw 데이터를 이용해 Label을 후에 붙여주게 된다.내 경우에는 RAW 데이터가 MySQL 로 저장이 되어MySQL에서 아래 작업을 처리 하려고 했었는데 이게 문제였다. 1. Feature 부분을 Export -> Export 속도가 느림.2. label 생성 -> 생성은 빠름3. Feature와 Label을 Join -> 하루 종일 돌려서 6000만건, 3억 건이면 5일을 돌려야 됨 이에 대한 해결 책은1. Python을 이용하여 Feature데이터를 나누어서 Parquet 형식으로 저장2. Label 도 Parquet 형식으로 저장3. Label 과 Feature는 나중에 Jo..

일단 AWS Sagemaker에 들어가 본다. 바로 SageMaker 시작하기가 있어서 들어갔다. 역할 구성 아래 창에서 기록 안하면 다음으로 안 넘어가서 일단 최소화 하고간단한것들만 작성해 봤다. 도메인 설정 S3 리소스 구성 일단 설정이 되었으니 자습서를 따라가 본다.https://aws.amazon.com/ko/sagemaker/getting-started/ Amazon SageMaker에서 기계 학습 시작하기 - Amazon Web Services aws.amazon.com 여러가지가 있는데 일단 노코드 ML을 시도 해 보자 들어가서 여러 가이드가 있는데 비용을 먼저 살펴 보니 SageMaker Canvas를 시도하려는 4명의 분석가 팀이 있다고 가정해 보겠습니다. 그중 한 명이 50MB 입력 ..

나는 처리하고 싶은 데이터는 가지고 있다.그런데 문제는 라벨링. 데이터를 처리 해서 라벨링을 해야 하는데어느새 데이터가 3억건이 되어 있었다. 처리 해 보니 라벨을 생성 하는 것 보다라벨을 DB에 다시 저장하는게 오래 걸린다. CPU는 놀고 있는데 SSD가 계속 돌아가면서더 빨리 돌릴 방법이 없다. 일단 이건 이것 대로 돌려두고300만개 정도만 CSV 파일로 만들어서AWS C3 에 올려 봤다. AWS에 올리는건 아주 간단하다. 1. S3에 들어가서 2. 버킷 만들기 3. 그대로 놓고 버킷 만들기 버튼 누르기 4. 생성된 버킷 확인 5. 버킷 들어가기 6. 업로드 버튼 누르고 파일 올리기 이렇게 하면 파일이 올라간다.160GB 까지는 이대로 올라가는데더 큰걸 올리려면 API를 써야 한다고 한다.
- Total
- Today
- Yesterday