본문 바로가기

시작이 반이다/Data

[서평] Do it! 데이터 분석을 위한 판다스 입문

몇 달 전, 데이터 직무로 분야를 틀기로 결심하면서 데이터 관련 활동을 더 많이 경험해보려고 하는 중입니다.

그래서 지난 10월엔 네이버 부스트코스의 데이터분석 스터디에 참여했고, pandas 나 numpy 같은 라이브러리를 기초부터 제대로 배워본 적이 없어서인지 과제를 수행할 때마다 판다스 기능들을 매번 구글링하면서 했던 게 아쉬움으로 남았습니다. 개인 프로젝트에 들어가기 전, 기초 개념 정리부터 다시 해야겠다는 생각이 들었고 우연하게도 이지스퍼블리싱의《데이터 분석을 위한 판다스 입문》서평단을 모집한다는 소식을 접하게 돼서 참여하게 됐습니다.


 

Intro

일상 속 많은 행동들이 데이터화되어 국가나 기업의 저장소에 저장되고 더 나아가 COVID-19의 유행으로 많은 활동들이 비대면(디지털)으로 전환되고 있습니다. 또한 데이터 처리를 위한 컴퓨팅 기술이 발전하고 매일 방대한 양의 데이터가 생산되고 있는 만큼 이제는 어떤 데이터를 가지고 어떻게 가치있게 만들 수 있는지, 즉 데이터 리터러시(데이터를 이해하고 활용할 수 있는 능력)가 중요해지게 됐습니다.

 

데이터 리터러시의 핵심 능력 중 하나인 데이터 수집&전처리는 데이터 분석 과정에서 80%정도를 차지할 만큼 중요한 작업이며, 충분한 전처리 과정을 통해 양질의 데이터를 확보할 수 있고, 이를 활용하여 올바른 분석 결과를 도출해 낼 수 있습니다. 이 과정에서 우리는 Pandas라는 데이터 분석용 오픈소스 파이썬 라이브러리를 사용하게 됩니다.

 

 

이 책은 16개의 데이터셋, 115개의 실습을 제공하여 데분에 관심 있는 누구나 데이터 분석의 첫걸음부터 차근차근 따라올 수 있도록 도와주는 책입니다.

 


목차

1장 판다스 실습 환경 준비하기 2장 판다스 시작하기 3장 판다스 자료구조 살펴보기
4장 그래프 그리기 5장 깔끔한 데이터 만들기 6장 apply() 메서드로 함수 적용하기
7장 데이터 결합하고 분해하기 8장 그룹으로 묶어 연산하기 9장 결측값 알아보기
10장 자료형 더 알아보기 11장 문자열 처리하기 12장 시계열 데이터 알아보

자세한 목차는 여기

크게 12개 장(400Page)으로 구성되어 있습니다.

책에서는 10일 / 5일 코스로 진도표를 제공하고 있으니 본인의 수준에 맞게 선택, 따라 해보는 것도 좋을 거 같습니다. 

 


특징

1. 다양한 데이터셋 & 실습 제공 : 친절하게 설명

프로그래밍 언어나 관련 이론 자체는 배웠지만 이를 실제 상황에 맞게 적용시키는 것은 쉽지 않다. 특히 입문자에게는 이론 이해하는 것만으로도 벅찰지도 모른다. 이런 점에 있어서 이 책은 주피터 노트북 설치, 판다스 기초부터 차근차근 실습과 함께 친절하게 설명해 줍니다. 기본 이론뿐만 아니라 '한걸음 더' 파트를 통해 헷갈리기 쉬운 개념을 비교해 주거나 어떻게 하면 더 효율적으로 작업할 수 있는지 등 중간중간 코딩 팁들도 알려주고 있습니다.

다양한 분야의 데이터셋(16개)을 제공하고 있다는 점을 활용해 이 책을 1회독 한 후, 16개 데이터셋 중 하나를 골라 책의 흐름대로 함수도 써보고 시각화도 해보면서 복습 겸 데이터 분석을 해보는 것도 좋을 거 같다는 생각이 들었습니다.

 

소스코드 다운로드(github)

 


2. '마무리하여' : 전체적인 흐름 정리

실습 비중이 큰 책은 책만으로도 그때그때필요한 함수 & 사례를 빠르게 확인, 이해할 수 있다는 점이 가장 큰 장점인 거 같습니다. 예전에 실습만 많고 이론적인 부분이 빈약해서 실습만 따라가기도 벅차고 결국 머릿속에 남는 게 크게 없다고 느낀 책도 있어서 실습이 많은 걸 보고 약간 우려?도 됐지만 이 책은 주요 함수들을 실습으로 많이 보여주면서 다루지 못한 내용은 표로 정리해서 추가로 제공, 각 쳅터의 끝에 '마무리하여' 라는 파트를 두어 쳅터에서 다루는 이론의 전체적인 흐름을 정리해 줍니다. 저는 이 파트가 차례대로 공부하는 분들이 데이터분석이라는 걸 이해하기에 큰 도움을 줄 것 같습니다.

 


 

제공하는 실습파일, 진도표를 활용해 기초부터 심화 개념까지 차례대로 잘 따라갈 수 있도록 친절하게 설명해 주고, 
실습 중간마다 '한걸음 더'를 통해 실습 중 마주할 수 있는 오류나 코딩 팁들을 알려주는 점이 기존 do it 시리즈를 읽었을 때도 느꼈지만 이번에도 잘 되어 있어서 읽으면서 새 유용한 정보들을 많이 알아갈 수 있어 좋았습니다.

 

데이터 분석에 입문하려는 분들에게도, 판다스를 기초부터 체계적으로 배우고 싶은 분들에게도 

이 책이 부담없이 자주 꺼내볼 수 있는 책이 되지 않을까라는 생각이 들었고 데이터분석 입문서로 이 책을 추천합니다.

 

 

Do it! 데이터 분석을 위한 판다스 입문 - 예스24

파이썬 기초 문법만 알아도 OK!테슬라 주식, 빌보드 차트 등 16개의 현실 데이터와 115개의 예제로 판다스의 기본을 확실히 익히자!이미 1만여 명의 독자가 선택한 《Do it! 데이터 분석을 위한 판다

www.yes24.com

 

이지스퍼블리싱으로부터 책을 무상으로 제공받아 작성한 리뷰입니다.