본문 바로가기

통계19

Python Pandas 실무 데이터 분석(데이터 불러오기, 데이터 요약,형태 파악,데이터 추출) 이번시간에는 Pandas 라이브러리를 이용한 정형데이터 분석에 대한 내용을 다뤄 보겠습니다. 1. CSV데이터 불러오기 import pandas as pd -> Pandas 라이브러리를 pd로 명칭하겠다 csv 파일 pd.read_csv('경로/파일이름.csv') -> 불러올 데이터가 파이썬 파일과 같은 경로에 있을 경우 생략 가능하다 엑셀 파일 pd.read_excel('경로/파일이름.xls') 위 데이터를 살펴보면 1열에 각 행의 인덱스가 명시되어 있고 열에따라 구분하고 있다. 2 데이터 형태 살펴보기 2.1 shape 위 함수를 통해 데이터 형태를 알아볼 수 있다. 위 데이터는 705571개의 데이터와 20개의 컬럼으로 이루어져 있다. 2.2 info 데이터에 전체적인 요약을 알 수 있다. 2. 3.. 2024. 3. 14.
Python Pandas 실무 데이터 분석(Series, Dataframe 구조) 이번 시간에는 파이썬에 Pandas 라이브러리 2가지 데이터 형태인 Series 와 Dataframe 데이터 구조에 대해서 알아보겠습니다. 1. Pandas library 더보기 Pandas library란 ? - 정형 데이터(xlsx, csv 데이터 등)를 처리하는 라이브러리 Pandas library에는 2가지의 데이터 타입이있다. Series - 모든 유형의 데이터 가지고 있는 1차원의 배열 Dataframe - 2차원의 배열, 행과 열이 있는 2차원의 데이터 구조 Series index - value 로 이루어짐 s3 에서 보듯 Series에서 데이터 타입을 일치 시킴 Dataframe index - column - value 로 이루어짐 Dataframe 의 장점 대용량 데이터를 빠르고 쉽게 다.. 2024. 3. 11.
데이터 분석 입문 데이터 분석 기초 오늘부터 제가 통계학과를 전공하면서 배웠던 지식들을 다시 한 번 상기시키고 복습하는 시간들을 가져볼려고 합니다 그럼 시작 해보겠습니다! 데이터 분석의 트랜드 변화 1. 통계학 : 추출과 추정을 통한 데이터 분석 -> 모집단 전체를 분석하기 힘들기 때문 일부 집단(표본)의 통계량(ex. 평균, 최대값, 최소값, 등등) 을 계산하여 모집단을 추정하는 과정 IT 기술의 발달로 인한 데이터 마이닝 등장! (방대한 양의 데이터를 수집, 저장 하고 다룰 수 있게 되었음) 2. 데이터 마이닝 (머신러닝) : 컴퓨터가 학습과 검증을 통한 데이터 분석 -> 데이터와 결과를 집어넣어 그에 맞는 수식을 도출해내는 과정 3. 빅데이터 1. 데이터 사이즈 관점(큰 용량의 데이터를 다루고 처리하는 기술) 2. 데이터 구조 ( 정.. 2024. 3. 11.