본문 바로가기
관/핫한 머신러닝 프로젝트

파이썬 모듈을 이용한 머신러닝 공부 05. (pandas 모듈 소개 4/5)

by 4차원 박스 2019. 11. 7.

pandas : 데이터 처리와 분석을 담당

R의 데이터프레임 함수를 본떠서 만들어짐.
간단히 말하면 엑셀의 스프레드시트와 비슷한 테이블 형태라고 볼수있다.

전체 배열의 원소가 동일한 자료형인 넘파이와 다르게
판다는 각 열의 자료형이 달라도 된다.(문자나 정수등이 혼합이 가능함) 

다음 예시로 보면
import pandas as pd

data={'name':["john","anna","peter","linda"],
'location':["newyork","paris","berlin","london"],
'age':[24,13,53,33]}

data_pandas = pd.DataFrame(data)
#IPython.display 는 주피터 노트북에서 데이터프레임을 잘 출력해줌
display(data_pandas)

이걸 주피터 노트북으로 출력하면 표로 잘 정리되어 나온다.

display(data_pandas)로 나온 결과 이미지.


여기서 표로 정리된 결과를 보고 질의하는 방법을 다음과 같이 사용할수 있다.

 

display(data_pandas[data_pandas.age>30])


이 코드는 직관적으로 알수 있듯이 age가 30 이상인 모든 행을 선택한다.

댓글