머신러닝 & 딥러닝/데이터 분석 3

데이터프레임 - 그룹화된 데이터 열(column) 가공하기(2) : 배열 형태의 데이터 각 column으로 정리하기 지난번 포스팅에 이어서 나머지 열(column)인 Group_A 와 Group_B를 정리해보도록 하겠습니다. 주피터 노트북으로 구현 In [11] : group_A = train_df['Feature_Group_A'] group_A[0] - Group A와 Group B의 경우 한 행에 배열의 형태로 데이터가 들어가 있었습니다. 256개의 원소를 가지는 배열이었으며 모든 행이 같은 형태였습니다. - 의미도 모르는 이 데이터들을 어떻게 처리해야 할지 고민을 했습니다. 그래서 그냥 단순하게 데이터마다 하나씩 column을 지정해서 값을 정리하기로 했습니다. (Group_A의 256개의 값들을 a_0, a_1, a_2 ... 이런 방식으로) In [12] : characters = "[] " for x in .. 머신러닝 & 딥러닝/데이터 분석 2021. 11. 4.
데이터프레임 - 그룹화된 데이터 열(column) 가공하기(1) : .json_loads() && .from_dict() 준비 교내 경진대회를 진행하면서, 그룹화된 데이터를 다루게 되었는데 진행했던 과정들을 차례대로 포스팅 해보겠습니다. 공부를 하고 있는 입장에서, 더 좋은 방법을 알려주시면 대단히 감사합니다. ㅎㅎ .csv 파일이 30MB의 크기 정도여서, 반디집으로 분할 압축하여 올렸습니다. 엑셀로 파일을 열어 보시면, 위의 사진과 같은 형태의 데이터입니다. 자세한 내용들은 구현을 하면서 살펴보도록 하겠습니다. 주피터 노트북으로 구현 In [1] : import numpy as np import pandas as pd import json - 데이터를 불러오기에 앞서 필요한 라이브러리를 불러옵니다. (numpy, pandas, json) In [2] : train_df = pd.read_csv("train.csv", e.. 머신러닝 & 딥러닝/데이터 분석 2021. 11. 2.
EDA - 결측치/결측값(missing values) 분석과 barplot을 이용한 데이터 시각화 캐글(Kaggle)에서 클론 코딩으로 공부를 하면서, 필요한 내용과 기술들을 정리하고 있습니다. 사용한 Competition의 데이터와 클론 코딩의 출처는 다음과 같습니다. https://www.kaggle.com/c/siim-isic-melanoma-classification SIIM-ISIC Melanoma Classification | Kaggle www.kaggle.com https://www.kaggle.com/datafan07/analysis-of-melanoma-metadata-and-effnet-ensemble Analysis of Melanoma Metadata and EffNet Ensemble Explore and run machine learning code with Kaggle N.. 머신러닝 & 딥러닝/데이터 분석 2021. 8. 31.