오늘부터 제가 통계학과를 전공하면서 배웠던 지식들을 다시 한 번 상기시키고 복습하는 시간들을 가져볼려고 합니다
그럼 시작 해보겠습니다!
데이터 분석의 트랜드 변화
1. 통계학 : 추출과 추정을 통한 데이터 분석
-> 모집단 전체를 분석하기 힘들기 때문 일부 집단(표본)의 통계량(ex. 평균, 최대값, 최소값, 등등) 을 계산하여 모집단을 추정하는 과정
IT 기술의 발달로 인한 데이터 마이닝 등장!
(방대한 양의 데이터를 수집, 저장 하고 다룰 수 있게 되었음)
2. 데이터 마이닝 (머신러닝) : 컴퓨터가 학습과 검증을 통한 데이터 분석
-> 데이터와 결과를 집어넣어 그에 맞는 수식을 도출해내는 과정
3. 빅데이터
1. 데이터 사이즈 관점(큰 용량의 데이터를 다루고 처리하는 기술)
2. 데이터 구조 ( 정령데이터 - 엑셀이나 CSV 같은 표로 되어 있는 데이터 -> 비정령 데이터 - 이미지, 소리, 영상, 신호)
이러한 데이터 분석의 트랜드 변화로 IT기술을 이용하여 데이터를 분석하기 시작
그러므로 데이터 분석을 위한 프로그래밍을 한 번 배워 보겠습니다.
시작하기에 앞 서 데이터의 구조에 대해서 한 번 살펴보겠습니다.
Data 구조
기본적으로 데이터의 구조는 크게 2가지로 나누어 볼 수 있다.
1. 정형 데이터
- 엑셀 형태의 데이터 , 표 형태로 수치형 자료와 문자형 자료로 정리되어 있는 것. 테이블 형태로 저장되며 관계형 데이터라고도 부른다
- Column : 데이터의 항목을 나타낸다
ex) 고객 나이, 성별 등
- Low : index 즉 데이터의 갯수를 나타낸다
- Value : Column 과 Low에 맞는 값을 나타낸다
ex) 고객 정보, 주문 내역, 주소록
2. 비정형 데이터
- 구조가 없거나 일정한 패턴이 없는 데이터 정형 데이터와 달리 테이블 형태가 아닌 형태로 저장
ex) 텍스트, 이미지, 소리, 시그널, 영상 등
Python 프로그래밍 언어
프로그래밍 언어 : 컴퓨터에게 명령을 내리기 위해 사용하는 언어
Python을 이용한 데이터 분석을 진행
Anaconda 프로그램 사용 : 데이터 분석에 필요한 Python ,R 언어와 관련 함수들을 관리하는 프로그램
-> Python 언어와 데이터 분석에 필요한 각종 라이브러리를 같이 설치
아나콘다를 이용하여 Jupyeter notebook에서 파이썬을 이용
다음 시간에는 데이터 불러오기 및 데이터 확인에 대해서 알아보겠습니다!
출처 : [Jupyter Notebook 활용] Python 기초 입문 3 (데이터 자료형) - YouTube