관심 1/Python

데이터 분석 준비과정(읽고 시각화 까지)

give_me_true 2023. 6. 24. 00:10

데이터를 이해하고 전처리 실행

  • 데이터를 읽어서,
  • 데이터의 구조를 확인하고 결측치가 있는지 확인한다
  • 시각화로 다시 한번 확인
  • 학습용 데이터와 검증용 데이터 분리
  • 데이터 정규

 

df_train = pd.read_csv(train_data, delimiter=',', header=0)
df_test = pd.read_csv(test_data, delimiter=',', header=0)
# DataFrame.to_numpy()
pd.DataFrame({"A":[1,2], "B":[3,4]}).to_numpy()

# DataFrame.values
# 결측치 확인
null_df = df.isnull() # df 로 반환
null_np = null_df.values # ndarray 로
null_exist = null_np.any() # True or False
# 데이터 시각화
from matplotlib import pyplot as plt
%matplotlib inline

fig = plt.figure(figsize=(20,6))
plt.xlabel()
plt.ylabel()
plt.legend(loc=)

# boxplot 그리기
matplotlib.pyplot.boxplot