본문 바로가기
통계/데이터 분석 기초

데이터 분석 입문 데이터 분석 기초

by 만슨 2024. 3. 11.

오늘부터 제가 통계학과를 전공하면서 배웠던 지식들을 다시 한 번 상기시키고 복습하는 시간들을 가져볼려고 합니다 

 

그럼 시작 해보겠습니다!

 

데이터 분석의 트랜드 변화  

1. 통계학 : 추출추정을 통한 데이터 분석 

-> 모집단 전체를 분석하기 힘들기 때문 일부 집단(표본)의 통계량(ex. 평균, 최대값, 최소값, 등등) 을 계산하여 모집단을 추정하는 과정

 

IT 기술의 발달로 인한 데이터 마이닝 등장!

(방대한 양의 데이터를 수집, 저장 하고 다룰 수 있게 되었음)

 

2. 데이터 마이닝 (머신러닝)  : 컴퓨터가 학습검증을 통한 데이터 분석

->   데이터와 결과를 집어넣어 그에 맞는 수식을 도출해내는 과정

 

 

3. 빅데이터

     1.  데이터 사이즈 관점(큰 용량의 데이터를 다루고 처리하는 기술)

     2.  데이터 구조 ( 정령데이터 - 엑셀이나 CSV 같은 표로 되어 있는 데이터 -> 비정령 데이터 - 이미지, 소리, 영상, 신호)

 

이러한 데이터 분석의 트랜드 변화로 IT기술을 이용하여 데이터를 분석하기 시작

그러므로 데이터 분석을 위한 프로그래밍을 한 번 배워 보겠습니다. 

 

시작하기에 앞 서 데이터의 구조에 대해서 한 번 살펴보겠습니다.

 

Data 구조 

기본적으로 데이터의 구조는 크게 2가지로 나누어 볼 수 있다.

 

1. 정형 데이터

- 엑셀 형태의 데이터 , 표 형태로 수치형 자료와 문자형 자료로 정리되어 있는 것. 테이블 형태로 저장되며 관계형 데이터라고도 부른다

- Column : 데이터의 항목을 나타낸다

ex) 고객 나이, 성별 등

- Low : index 즉 데이터의 갯수를 나타낸다

- Value : Column 과 Low에 맞는 값을 나타낸다

 

ex) 고객 정보, 주문 내역, 주소록 

 

2. 비정형 데이터

- 구조가 없거나 일정한 패턴이 없는 데이터 정형 데이터와 달리 테이블 형태가 아닌 형태로 저장

ex) 텍스트, 이미지, 소리, 시그널, 영상 등

 

Python 프로그래밍 언어 

프로그래밍 언어 : 컴퓨터에게 명령을 내리기 위해 사용하는 언어

 

Python을 이용한 데이터 분석을 진행

 

Anaconda 프로그램 사용 : 데이터 분석에 필요한 Python ,R 언어와 관련 함수들을 관리하는 프로그램

-> Python 언어와 데이터 분석에 필요한 각종 라이브러리를 같이 설치 

 

아나콘다를 이용하여 Jupyeter notebook에서 파이썬을 이용

 

 

다음 시간에는 데이터 불러오기 및 데이터 확인에 대해서 알아보겠습니다!

 

 

출처 : [Jupyter Notebook 활용] Python 기초 입문 3 (데이터 자료형) - YouTube