https://www.kaggle.com/code/residentmario/creating-reading-and-writing
Creating, Reading and Writing
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
www.kaggle.com
1.dataframe, series 차이
1.1 dataframe
- 정의: 2차원 데이터 구조로, 행(row)과 열(column)로 구성된 테이블 형식의 데이터.
- 구성요소:
- 여러 개의 Series가 모여서 DataFrame을 형성.
- 행(row)과 열(column)로 구성.
- 사용 예시: 데이터를 테이블처럼 다루고 싶을 때 사용 (엑셀 시트와 유사).
- 구조:
- 각 열은 같은 데이터 타입을 가져야 하지만, 다른 열은 서로 다른 데이터 타입을 가질 수 있음.
- 데이터는 행/열 인덱스로 접근 가능.
1.2 series
- 정의: 1차원 데이터 구조로, 단일 열 또는 배열과 유사한 데이터 구조.
- 구성요소:
- 값(values)과 인덱스(index)로 구성.
- DataFrame의 열(column) 하나가 Series로 표현됨.
- 사용 예시: 하나의 열(column) 데이터나 단일 데이터 목록을 다룰 때 사용.
- 구조:
- 배열처럼 동작하지만, 인덱스를 통해 데이터를 더 유연하게 다룰 수 있음.
import pandas as pd
# Series 생성
s = pd.Series([25, 30, 35], index=["Alice", "Bob", "Charlie"], name="Age")
print(s)
Name의 의미
- Series의 이름:
- Series 객체는 name 속성을 가지고 있으며, 이는 Series를 구분하거나 설명하기 위한 식별자 역할을 합니다.
- Series가 DataFrame의 한 열(column)에서 파생된 경우, 기본적으로 해당 열의 이름이 Series의 name으로 설정됩니다.
차이점 요약
차원 | 2차원 (행과 열) | 1차원 (열 하나 또는 배열) |
구성요소 | 여러 Series로 구성 | 값(values)과 인덱스(index)로 구성 |
데이터 접근 방식 | df['column_name'], df.loc[row, column] | s[index] |
주요 사용 사례 | 테이블 형태 데이터 | 단일 열 데이터 또는 배열 |
2.dataframe은 딕셔너리로 구성
import pandas as pd
# 딕셔너리 작성
data_dict = {
"Name": ["Alice", "Bob", "Charlie"],
"Age": [25, 30, 35],
"City": ["New York", "Los Angeles", "Chicago"]
}
print("1-----------")
print(data_dict["Name"])
print("2-----------")
print(data_dict["Age"])
print("3-----------")
print(data_dict["City"])
# pandas DataFrame 생성
df = pd.DataFrame(data_dict)
# 데이터프레임 출력
print("4-----------")
print(df)
3. DataFrame의 한 열을 Series로 변환
import pandas as pd
# DataFrame 생성
data = {
"Name": ["Alice", "Bob", "Charlie"],
"Age": [25, 30, 35],
"City": ["New York", "Los Angeles", "Chicago"]
}
df = pd.DataFrame(data)
# DataFrame의 'Age' 열을 Series로 가져오기
age_series = df['Age']
print(age_series)
'pandas' 카테고리의 다른 글
[python-pandas] loc, iloc 로 데이터 접근하기 (2) | 2024.12.28 |
---|