[python-pandas] dataframe, series 차이
본문 바로가기
pandas

[python-pandas] dataframe, series 차이

by 비전공자의 코딩정리

 

https://www.kaggle.com/code/residentmario/creating-reading-and-writing

 

Creating, Reading and Writing

Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources

www.kaggle.com

 

1.dataframe, series 차이

1.1 dataframe

  • 정의: 2차원 데이터 구조로, 행(row)과 열(column)로 구성된 테이블 형식의 데이터.
  • 구성요소:
    • 여러 개의 Series가 모여서 DataFrame을 형성.
    • 행(row)과 열(column)로 구성.
  • 사용 예시: 데이터를 테이블처럼 다루고 싶을 때 사용 (엑셀 시트와 유사).
  • 구조:
    • 각 열은 같은 데이터 타입을 가져야 하지만, 다른 열은 서로 다른 데이터 타입을 가질 수 있음.
    • 데이터는 행/열 인덱스로 접근 가능.

1.2 series

  • 정의: 1차원 데이터 구조로, 단일 열 또는 배열과 유사한 데이터 구조.
  • 구성요소:
    • 값(values)과 인덱스(index)로 구성.
    • DataFrame의 열(column) 하나가 Series로 표현됨.
  • 사용 예시: 하나의 열(column) 데이터나 단일 데이터 목록을 다룰 때 사용.
  • 구조:
    • 배열처럼 동작하지만, 인덱스를 통해 데이터를 더 유연하게 다룰 수 있음.
import pandas as pd

# Series 생성
s = pd.Series([25, 30, 35], index=["Alice", "Bob", "Charlie"], name="Age")
print(s)

Name의 의미

  1. Series의 이름:
    • Series 객체는 name 속성을 가지고 있으며, 이는 Series를 구분하거나 설명하기 위한 식별자 역할을 합니다.
    • Series가 DataFrame의 한 열(column)에서 파생된 경우, 기본적으로 해당 열의 이름이 Series의 name으로 설정됩니다.

차이점 요약

차원 2차원 (행과 열) 1차원 (열 하나 또는 배열)
구성요소 여러 Series로 구성 값(values)과 인덱스(index)로 구성
데이터 접근 방식 df['column_name'], df.loc[row, column] s[index]
주요 사용 사례 테이블 형태 데이터 단일 열 데이터 또는 배열

 

2.dataframe은 딕셔너리로 구성

import pandas as pd

# 딕셔너리 작성
data_dict = {
    "Name": ["Alice", "Bob", "Charlie"],
    "Age": [25, 30, 35],
    "City": ["New York", "Los Angeles", "Chicago"]
}

print("1-----------")
print(data_dict["Name"])
print("2-----------")
print(data_dict["Age"])
print("3-----------")
print(data_dict["City"])

# pandas DataFrame 생성
df = pd.DataFrame(data_dict)

# 데이터프레임 출력
print("4-----------")
print(df)

3. DataFrame의 한 열을 Series로 변환

import pandas as pd

# DataFrame 생성
data = {
    "Name": ["Alice", "Bob", "Charlie"],
    "Age": [25, 30, 35],
    "City": ["New York", "Los Angeles", "Chicago"]
}
df = pd.DataFrame(data)

# DataFrame의 'Age' 열을 Series로 가져오기
age_series = df['Age']
print(age_series)

'pandas' 카테고리의 다른 글

[python-pandas] loc, iloc 로 데이터 접근하기  (2) 2024.12.28