본문 바로가기
파이썬 독학

판다스(Pandas) 기초 - 사용방법, 데이터프레임, 코드 예제

by 데싸루나 2023. 1. 28.

판다스(Pandas)에 대해

Pandas는 Python을 위한 강력한 데이터 분석 툴킷으로, 데이터를 처리하고 조작하기 위한 빠르고 유연한 데이터 구조를 제공합니다. 스프레드시트 또는 SQL 테이블과 같은 표 형식의 데이터로 작업할 때 특히 유용합니다. Pandas를 사용하면 대규모 데이터 세트를 쉽게 로드, 조작 및 분석할 수 있으므로 데이터를 다루는 분들 사이에서 인기가 정말 많습니다. 이번 포스팅에서는 판다스가 데이터 분석에 유용한 이유와 데이터 프레임에 데이터를 로드하는 방법을 포함하여 판다스의 기본 사항을 살펴보겠습니다. 또한 판다스를 시작하는 데 도움이 되는 코드 예제도 보여드리겠습니다.

 

title
title

판다스(Pandas)가 많이 사용되는 이유는?

왜 Pandas를 많이 사용할까요? 판다스는 다양하고 유용한 특징과 기능을 제공하기 때문에 데이터 분석을 위한 아주 좋은 도구입니다. 판다스를 사용하는 주요 이점은 다음과 같습니다.

  • 누락된 데이터의 쉬운 처리: Panda는 누락된 값을 채우거나 누락된 행을 삭제하는 등 누락된 데이터를 처리하기 위한 다양한 옵션을 제공합니다.
  • 중복 데이터의 쉬운 처리: Pandas를 사용하면 중복된 행이나 값을 쉽게 찾고 제거할 수 있습니다.
  • 간편한 데이터 조작: Pandas는 필터링, 정렬 및 작업별 그룹화와 같은 다양한 데이터 조작 방법을 제공합니다.
  • 간편한 데이터 시각화: Pandas는 Matplotlib 및 Seaborn과 같은 인기 있는 데이터 시각화 라이브러리와 같이 사용하면보기좋은 플롯과 차트를 손쉽게 만들 수 있습니다.

판다스(Pandas) 시작해보기

판다스를 사용하려면 먼저 설치를 해야 합니다.

명령 프롬프트에서 다음 pip를 이용한 명령을 실행하면 설치가 진행됩니다.

pip install pandas

 

Pandas가 설치되면 다음 명령을 실행하여 Pandas를 import할 수 있습니다.

 

import pandas as pd

 

Pandas를 사용하는 첫 번째 단계는 데이터를 데이터 프레임에 로드하는 것입니다. 데이터 프레임(Data frame)은 다양한 유형의 데이터(예: 정수, 문자열, 날짜 등)를 저장할 수 있는 2차원 테이블 형태의 데이터 구조입니다. 데이터 프레임에 데이터를 로드하는 방법은 다음과 같습니다.

  • CSV 파일에서 데이터 읽기:
df = pd.read_csv('data.csv')
  • 엑셀에서 읽기
df = pd.read_excel('data.xlsx')
  • SQL을 통해 DB에서 읽기 :
import sqlite3
conn = sqlite3.connect('data.db')
df = pd.read_sql_query("SELECT * FROM data", conn)
  • 딕셔너리에서 데이터프레임으로 읽어오기 :
data = {'name': ['John', 'Jane', 'Mike'], 'age': [30, 25, 35]}
df = pd.DataFrame(data)

 

데이터가 데이터 프레임에 로드되면 Pandas가 제공하는 다양한 방법과 기능을 사용하여 데이터 프레임을 탐색하고 조작할 수 있습니다. 예를 들어, head() 메소드를 사용하여 데이터 프레임의 처음 몇 행을 볼 수 있습니다.

df.head()

describe() 메소드를 사용하여 통계 요약을 볼 수도 있습니다.

df.describe()

 

Pandas는 데이터를 처리하고 조작하기 위한 빠르고 유연한 데이터 구조를 제공하는 강력한 파이썬 데이터 분석 도구입니다. 표 형식의 데이터로 작업할 때 특히 유용하며 데이터 조작, 데이터 시각화 및 누락되거나 중복된 데이터 처리를 위한 다양한 기능을 제공합니다. 이 글이 판다스를 이해하는데 도움이 되었기를 바랍니다. 향후 포스팅에서는 단계적으로 판다스 활용방법에 대해 다뤄보겠습니다. 

댓글