데이터분석/공공데이터를 활용한 데이터분석

공공데이터를 활용한 데이터분석 포트폴리오 만들기[데이터분석]_메타코드 강의 후기 4강

해봄544 2024. 5. 19. 23:44

목차 

데이터분석의 꽃, pandas 라이브러리 설치와 import
파일불러오기 + 탐색적 데이터 분석
날짜,시간 데이터 핸들링 기초, 심 part 1,2
결측치 핸들링
이상치 핸들링
데이터 가공


파이썬에서의 라이브러리란 다양한 도구를 모아둔 코드의 집합 의미합니다.
우리는 그 중 데이터 분석에서 필수인 pandas를 설치 할 것입니다.

pandas는 데이터 조작, 분석을 위해 사용하는 툴로 여기서 다루는 데이터를 dataframe이라 부릅니다.
dataframe은 자료 구조 형태 중 하나로 표 형태의 데이터를 쉽게 다룰 수 있습니다.
엑셀에서 많이 보이는 데이터를 의미하여 엑셀과의 조합도 좋습니다!

! pip install pandas 를 입력하여 설치해주면 됩니다.

경로 복사 절대경로 : vs을 어디에서 열든 상관 없이 해당 경로에 있는 파일을 여는 것

상대 경로 복사 (상대 경로) : vs를 어디에서 열었는가에 따라서 파일위치 확인 후 여는 것

 

csv파일을 그냥 복붙해서 열려고 하면 오류가 납니다. 
unicodedexodeerror

이럴 경우 컴퓨터 언어로 바꿔줘야 합니다.

보통 utf-8 혹은 cp949 형식을 사용해 주기 때문에 둘 중 하나를 넣어 에러를 확인해 주면 됩니다.


날짜, 시간 데이터 핸들링 기초

 

1. df.head() 상위 5가지 데이터 출력

2. df['신고년월일']
   df['출동년월일']

이런 식으로 두개를 한번에 출력하여도 맨 밑의 것만 출력 됩니다.

3. .to_datetime 을 사용하면 '신고연원일'의 데이터 타입을 datetime으로 변경할 수 있습니다.


날짜, 시간 데이터 핸들링 심화

신고시각 데이터를 보면 날짜 없이 시, 분만 존재하는게 불가하다는 것을 알 수 있다.

우선 위의 실습에서 datetype으로 바꾼 타입을 다시 object 타입으로 바꿔준 뒤

[신고일시] 칼럼을 새로 만들어 위와 같은 문제를 해결 해 줄 수 있다.

 

 

drop으로 칼럼을 삭제 할 수 있다.

여기서 axis를 사용 할 건데 '축'이라는 의미이다.

dataframe에서는 0번 축이 행이고 1번축이 열이다.

[신고년월일]인 열을 삭제하기 위해선 축에 1을 넣어야한다.


결측치: null 값을 확인할 수 있습니다.

이러한 식으로 발생장소에만 null 값이 있는 것을 확인 할 수 있습니다.

결측치 처리하는 방법

1. 0으로 처리
2.  아예 삭제
3. ' '으로 만들기

 

 


https://mcode.co.kr/mypage/lecture_view?wm_id=19237&lecture_id=99&lecture_sub=505&lecture_num=4

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr