본문 바로가기

DATA STUDY/모두의 데이터분석 with 파이썬

(10)
셋째 마당 - 인구 구조 다양한 형태로 시각화하기 UNIT 08-01 책에서 안내해주는 것을 따라 남녀 구분이 된 데이터를 다운받습니다. 인덱싱 부분은 책에 자세히 설명되어 있으니 책 내용을 잘 따라가면 될 것 같습니다. imort csv f = opne('gender.csv') data = csv.reader(f) m = [] f = [] for row in data: if '신도림' in row[0]: for i in row[3:104]: m.append(int(i)) for i in row[106:]: f.append(int(i)) 이렇게 보는 것이 이해하기 더 쉬워보여 먼저 이 코드부터 보겠습니다. 책에서 나와있듯 3번 인덱스부터 103번까지가 0세부터 100세까지의 남성 데이터, 다시 106부터 끝까지가 여성 데이터입니다. 같은 내용을 다르게 표현해볼까요? imo..
셋째 마당 - 인구 구조 다양한 형태로 시각화하기 UNIT 08 책 109 페이지에 나오는 '입력 프로그램'을 구현해보겠습니다. import csv f = open('age.csv') data = csv.reader(f) result = [] name = input('인구 구조가 알고 싶은 지역의 이름(읍면동 단위)을 입력해주세요 : ') for row in data: if name in row[0]: for i in row[3:]: result.append(int(i.replace(',',''))) import matplotlib.pyplot as plt plt.style.use('ggplot') plt.rc('font', family = 'Malgun Gothic') plt.tile(name + ' 지역의 인구 구조') plt.plot(result) plt.sho..
셋째 마당 - 우리 동네 인구 구조 시각화하기 UNIT 07 1. 인구 데이터 파일을 읽어온다. 2. 전체 데이터에서 한 줄씩 반복해서 읽어온다. 3. 우리 동네에 대한 데이터인지 확인한다. 4. 우리 동네일 경우 0세부터 100세 이상까지의 인구수를 순서대로 저장한다. 5. 저장된 연령별 인구수 데이터를 시각화한다. 1. 인구 데이터 파일을 읽어온다. import csv f = open('age.csv') data = csv.reader(f) 2. 전체 데이터에서 한 줄씩 반복해서 읽어온다. for row in data: print(row) 여기에서 특정 동네에 대한 데이터를 보고싶으면 어떻게 해야할까요? if '서울특별시 구로구 신도림동(1153051000)' == row[0]: print(row) 이런식으로 조건을 달아서 해당 데이터만 확인하면 됩니다. 같은..
둘째 마당 - 기온 데이터 다양하게 시각화 UNIT 06 UNIT 06은 데이터를 다양한 관점에서 보는 것이 좋을 수 있다는 말로 시작합니다. 지금까지 했던 꺾은선 그래프가 아닌 다른 형태의 그래프를 그려보겠습니다. 히스토그램 자료 분포를 hist() 함수를 통해 직사각형 모양의 막대 그래프로 나타냅니다. import matplotlib.pyplot as plt plt.hist([1,1,2,3,4,5,6,6,7,8,10]) plt.show() 데이터 분포에 따라 높이가 결정됩니다. 예를 들어 1과 6은 두 개씩 있으니 좀더 높이가 높겠죠? 기온 데이터를 히스토그램으로 표현하기 import csv import matplotlib.pyplot as plt f = open('seould.csv') data = csv.reader(f) next(data) result..
둘째 마당 - 내 생일 기온 그래프 그리기(인코딩) UNIT 05 익숙해질때까지 데이터 불러오는 것을 반복해서 연습하겠습니다. import csv f = open('seoul.csv') data = csv.reader(f) for row in data: print(row) 우선 csv 모듈을 import 하여 csv 파일을 읽을 수 있게 합니다. 혹시나 저처럼 헷갈리실 분이 있을까봐 미리 적어두는데 csv 모듈을 사용하는 것이 csv 파일을 사용하기 위한 유일한 길은 아닙니다. Pandas의 read_csv 함수를 이용해서 DataFrame으로도 불러올 수 있습니다. 단지, csv 모듈이 파이썬 표준 라이브러리에 속해 있기 때문에 대표적으로 사용되고 있습니다. 다시 코드로 돌아오면 for문을 통해서 data 파일에 있는 내용을 한 줄씩 출력할 수 있게 됐습니다. 여기서..
둘째 마당 - 기본 그래프 그리기 UNIT 04 - 02 iphfly1030.tistory.com/123?category=970834 둘째 마당 - 기본 그래프 그리기 UNIT 04 - 01 matplotlib 파이썬 데이터 시각화에 가장 많이 쓰이는 라이브러리입니다. https://matplotlib.org Matplotlib: Python plotting — Matplotlib 3.3.4 documentation matplotlib.org 해당 사이트 Tutorial 부분에.. iphfly1030.tistory.com 지난 포스팅에 이어 그래프에 옵션 넣는 법에 대해 공부해보겠습니다. 그래프에 제목 넣기 title() 함수를 이용합니다. import matplotlib.pyplot as plt plt.title('plotting') plt.plot([10,..
둘째 마당 - 기본 그래프 그리기 UNIT 04 - 01 matplotlib 파이썬 데이터 시각화에 가장 많이 쓰이는 라이브러리입니다. https://matplotlib.org Matplotlib: Python plotting — Matplotlib 3.3.4 documentation matplotlib.org 해당 사이트 Tutorial 부분에 들어가면 초급-중급-고급 순으로 가이드를 제공합니다. matplotlib에 다양한 모듈이 있는데 그 중에서 pyplot을 주로 배워볼 예정입니다. (다른 모듈에 대해서는 저도 공부하면서 따로 정리하겠습니다) pyplot 모듈이 MATLAB 사용법과 유사하다고하여 MATLAB에 대해 검색해봤습니다. kr.mathworks.com/videos/matlab-overview-61923.html What Is MATLAB? -..
첫째 마당 - 서울이 가장 더웠던 날은 언제였을까 UNIT 03 1. 질문 다듬기 서울이 가장 더웠던 날은 언제였을까? 얼마나 더웠을까? 갖고 있는 데이터를 고려해서 이 질문을 좀더 구체적으로 바꿔줘야 합니다. 기온 csv의 헤더를 보시면 '기온'에 관한 내용만 포함되어 있기 때문에 '기온'을 기준으로 더운 날을 설정해야합니다. (단순히 더웠던 날이 아닌 최고 기온이었던 날을 찾는 것) 2. 문제 해결 방법 구상하기 1번 질문을 어떻게 해결해야할지 계획을 세우는 단계입니다. UNIT 02에서 확인했던 헤더가 ['날짜', '지점', '평균기온', '최저기온', '최고기온'] 였죠? 이중에서 날짜와 최고기온 데이터를 사용하겠습니다 3. 파이썬 코드로 구현하기 import csv f = open('seoul.csv') data = csv.reader(f) header = ..
첫째 마당 - 서울의 기온 데이터 분석하기 UNIT 02 CSV 파일에서 데이터 읽어오는 함수 csv.reader() - csv 파일에서 데이터 읽어오기, 데이터 분석 실습을 할때 import csv한 후 csv.reader(f)를 사용해서 데이터를 가져왔습니다. csv.writer() - csv 파일에 데이터 저장, 책에 있는 writer 설명은 쉽게 와닿지 않았습니다. 다른 사이트를 참고해본 결과 csv 파일에 새로운 내용을 추가할때 사용하는 함수라고 이해했습니다. 쉽게 생각하면 문서 파일을 열때 읽기 전용인지 수정가능인지 선택하는 것과 비슷한 것 같습니다. docs.python.org/ko/3/library/csv.html csv — CSV 파일 읽기와 쓰기 — Python 3.9.2 문서 소위 CSV (Comma Separated Values – 쉼표로..
첫째 마당 - 기온 공공데이터 UNIT 01 기상청에서 제공하는 지역별 평균 기온/최고 기온/최저 기온 데이터 이용 http://data.kma.go.kr 기상자료개방포털 data.kma.go.kr 기상자료개방포털이 책에서 설명하는 것과는 약간 달라졌습니다. 그렇다고 찾기 어려운건 아니니 걱정하실 필요는 없습니다. CSV 다운로드 옆에 엑셀 다운로드 하는 버튼도 생겼네요. CSV란? Comma-Separated-Values의 약자로 데이터 값을 콤마(,)로 구분하는 파일 형식을 의미합니다. 지금까지 해봤던 예시 데이터 파일을 생각해보면 모두 CSV파일이었습니다. CSV 파일은 엑셀이나 메모장같은 프로그램으로도 수정 및 생성이 가능한데 이 같은 특성으로 연장선으로 엑셀 파일을 CSV파일로 변환도 쉽게 가능합니다. 파이썬(Python) 파이썬은 다양한..