본문 바로가기

통계/데이터 분석 기초13

Python Pandas 실무 데이터 분석 : 엑셀 데이터 구조 파악하기 이번 시간에는 엑셀 정형 데이터 타입을 확인하는 시간을 가져보겠습니다. 정형 데이터를 가져왔을 때 어떤 타입의 데이터인지 파악하는 것이 중요하다. 어떤 데이터 타입인지에 따라 분석 방법과 결과가 달리지기 때문이다. 1. 데이터 타입(단일 변수) 1-1. 수치형 데이터 (숫자) - 이산형 : 변수의 값을 셀 수 있는 자료. 정수값으로 나타낼 수 있으며, 값 사이에는 간격이 존재한다 ex) 동전 던지기에 앞면이 나온 횟수, 수업 참여 횟수 등 - 연속형 : 모든 구간의 값을 가질 수 있는 숫자 자료. 실수값을 가지며, 값 사이에는 무한히 많은 가능한 값을 가질 수 있다 ex) 사람들의 키, 무게, 온도, 시간 등 1-2. 범주형 데이터 (문자) - 명목형 : 데이터 간 크기와 순서가 존재하지 않는 자료. 서.. 2024. 3. 15.
Python Pandas 실무 데이터 분석(행 추출, 정렬, 필터링, 저장) 이번시간에는 가져온 데이터에 행 추출, 정렬, 필터링(오름차순,내림차순), 저장 을 해보겠습니다 1. 행 추출 iloc[행 번호] - 행 번호에 맞는 데이터를 추출 해준다 위와 같이 행 범위를 설정해주어 추출 하는것도 가능하다. 2. 데이터 정렬 2.1 sort.values(by='정렬기준', ascending = True or False) - 정렬기준에 따라 정렬 해준다 여기서 ascending 을 생략 및 True로 설정하면 오름차순 False로 설정하면 내림차순으로 정렬 된다 2.2 sort.value(by=['정렬기준1','정렬기준2']) - 여러가지 정렬기준을 정하고 싶을 땐 by라는 함수 안에 리스트 형태로 정렬기준을 여러가지 지정 해준다. 3. 데이터 필터 데이터들 중에 조건에 맞는 데이터를.. 2024. 3. 14.
Python Pandas 실무 데이터 분석(데이터 불러오기, 데이터 요약,형태 파악,데이터 추출) 이번시간에는 Pandas 라이브러리를 이용한 정형데이터 분석에 대한 내용을 다뤄 보겠습니다. 1. CSV데이터 불러오기 import pandas as pd -> Pandas 라이브러리를 pd로 명칭하겠다 csv 파일 pd.read_csv('경로/파일이름.csv') -> 불러올 데이터가 파이썬 파일과 같은 경로에 있을 경우 생략 가능하다 엑셀 파일 pd.read_excel('경로/파일이름.xls') 위 데이터를 살펴보면 1열에 각 행의 인덱스가 명시되어 있고 열에따라 구분하고 있다. 2 데이터 형태 살펴보기 2.1 shape 위 함수를 통해 데이터 형태를 알아볼 수 있다. 위 데이터는 705571개의 데이터와 20개의 컬럼으로 이루어져 있다. 2.2 info 데이터에 전체적인 요약을 알 수 있다. 2. 3.. 2024. 3. 14.
Python Pandas 실무 데이터 분석(Series, Dataframe 구조) 이번 시간에는 파이썬에 Pandas 라이브러리 2가지 데이터 형태인 Series 와 Dataframe 데이터 구조에 대해서 알아보겠습니다. 1. Pandas library 더보기 Pandas library란 ? - 정형 데이터(xlsx, csv 데이터 등)를 처리하는 라이브러리 Pandas library에는 2가지의 데이터 타입이있다. Series - 모든 유형의 데이터 가지고 있는 1차원의 배열 Dataframe - 2차원의 배열, 행과 열이 있는 2차원의 데이터 구조 Series index - value 로 이루어짐 s3 에서 보듯 Series에서 데이터 타입을 일치 시킴 Dataframe index - column - value 로 이루어짐 Dataframe 의 장점 대용량 데이터를 빠르고 쉽게 다.. 2024. 3. 11.