몇 달 전, 데이터 직무로 분야를 틀기로 결심하면서 데이터 관련 활동을 더 많이 경험해보려고 하는 중입니다.
그래서 지난 10월엔 네이버 부스트코스의 데이터분석 스터디에 참여했고, pandas 나 numpy 같은 라이브러리를 기초부터 제대로 배워본 적이 없어서인지 과제를 수행할 때마다 판다스 기능들을 매번 구글링하면서 했던 게 아쉬움으로 남았습니다. 개인 프로젝트에 들어가기 전, 기초 개념 정리부터 다시 해야겠다는 생각이 들었고 우연하게도 이지스퍼블리싱의《데이터 분석을 위한 판다스 입문》서평단을 모집한다는 소식을 접하게 돼서 참여하게 됐습니다.
Intro
일상 속 많은 행동들이 데이터화되어 국가나 기업의 저장소에 저장되고 더 나아가 COVID-19의 유행으로 많은 활동들이 비대면(디지털)으로 전환되고 있습니다. 또한 데이터 처리를 위한 컴퓨팅 기술이 발전하고 매일 방대한 양의 데이터가 생산되고 있는 만큼 이제는 어떤 데이터를 가지고 어떻게 가치있게 만들 수 있는지, 즉 데이터 리터러시(데이터를 이해하고 활용할 수 있는 능력)가 중요해지게 됐습니다.
데이터 리터러시의 핵심 능력 중 하나인 데이터 수집&전처리는 데이터 분석 과정에서 80%정도를 차지할 만큼 중요한 작업이며, 충분한 전처리 과정을 통해 양질의 데이터를 확보할 수 있고, 이를 활용하여 올바른 분석 결과를 도출해 낼 수 있습니다. 이 과정에서 우리는 Pandas라는 데이터 분석용 오픈소스 파이썬 라이브러리를 사용하게 됩니다.
이 책은 16개의 데이터셋, 115개의 실습을 제공하여 데분에 관심 있는 누구나 데이터 분석의 첫걸음부터 차근차근 따라올 수 있도록 도와주는 책입니다.
목차
1장 판다스 실습 환경 준비하기 | 2장 판다스 시작하기 | 3장 판다스 자료구조 살펴보기 |
4장 그래프 그리기 | 5장 깔끔한 데이터 만들기 | 6장 apply() 메서드로 함수 적용하기 |
7장 데이터 결합하고 분해하기 | 8장 그룹으로 묶어 연산하기 | 9장 결측값 알아보기 |
10장 자료형 더 알아보기 | 11장 문자열 처리하기 | 12장 시계열 데이터 알아보기 |
자세한 목차는 여기
크게 12개 장(400Page)으로 구성되어 있습니다.
책에서는 10일 / 5일 코스로 진도표를 제공하고 있으니 본인의 수준에 맞게 선택, 따라 해보는 것도 좋을 거 같습니다.
특징
1. 다양한 데이터셋 & 실습 제공 : 친절하게 설명
프로그래밍 언어나 관련 이론 자체는 배웠지만 이를 실제 상황에 맞게 적용시키는 것은 쉽지 않다. 특히 입문자에게는 이론 이해하는 것만으로도 벅찰지도 모른다. 이런 점에 있어서 이 책은 주피터 노트북 설치, 판다스 기초부터 차근차근 실습과 함께 친절하게 설명해 줍니다. 기본 이론뿐만 아니라 '한걸음 더' 파트를 통해 헷갈리기 쉬운 개념을 비교해 주거나 어떻게 하면 더 효율적으로 작업할 수 있는지 등 중간중간 코딩 팁들도 알려주고 있습니다.
다양한 분야의 데이터셋(16개)을 제공하고 있다는 점을 활용해 이 책을 1회독 한 후, 16개 데이터셋 중 하나를 골라 책의 흐름대로 함수도 써보고 시각화도 해보면서 복습 겸 데이터 분석을 해보는 것도 좋을 거 같다는 생각이 들었습니다.
2. '마무리하여' : 전체적인 흐름 정리
실습 비중이 큰 책은 책만으로도 그때그때필요한 함수 & 사례를 빠르게 확인, 이해할 수 있다는 점이 가장 큰 장점인 거 같습니다. 예전에 실습만 많고 이론적인 부분이 빈약해서 실습만 따라가기도 벅차고 결국 머릿속에 남는 게 크게 없다고 느낀 책도 있어서 실습이 많은 걸 보고 약간 우려?도 됐지만 이 책은 주요 함수들을 실습으로 많이 보여주면서 다루지 못한 내용은 표로 정리해서 추가로 제공, 각 쳅터의 끝에 '마무리하여' 라는 파트를 두어 쳅터에서 다루는 이론의 전체적인 흐름을 정리해 줍니다. 저는 이 파트가 차례대로 공부하는 분들이 데이터분석이라는 걸 이해하기에 큰 도움을 줄 것 같습니다.
제공하는 실습파일, 진도표를 활용해 기초부터 심화 개념까지 차례대로 잘 따라갈 수 있도록 친절하게 설명해 주고,
실습 중간마다 '한걸음 더'를 통해 실습 중 마주할 수 있는 오류나 코딩 팁들을 알려주는 점이 기존 do it 시리즈를 읽었을 때도 느꼈지만 이번에도 잘 되어 있어서 읽으면서 새 유용한 정보들을 많이 알아갈 수 있어 좋았습니다.
데이터 분석에 입문하려는 분들에게도, 판다스를 기초부터 체계적으로 배우고 싶은 분들에게도
이 책이 부담없이 자주 꺼내볼 수 있는 책이 되지 않을까라는 생각이 들었고 데이터분석 입문서로 이 책을 추천합니다.
이지스퍼블리싱으로부터 책을 무상으로 제공받아 작성한 리뷰입니다.
'시작이 반이다 > Data' 카테고리의 다른 글
[2023 마이데이터 국민참여단] 후기 (펜타브리드-마이셀프데이터) (0) | 2023.12.01 |
---|