목록전체 글 (152)
호기심 많은 분석가
포스팅 개요 데이터 분석할 때 Pandas 이용을 많이들 하실 겁니다. 저 또한 편리하기에 주로 쓰는 Library였습니다. 하지만 Pandas는 기본적으로 data type을 동일하게 불러오기 때문에 데이터 용량이 커지는 상황이 종종 발생합니다. 그러던 와중 오승우 님의 뚱뚱하고 굼뜬 판다(Pandas)를 위한 효과적인 다이어트 전략이라는 좋은 자료를 보게 되어 공유하고자 포스팅을 하게 되었습니다. 우리 함께 판다의 다이어트를 도우러 가시죠! 포스팅 본문 대용량 데이터를 다룰 때는 Memory가 버티지 못할 때가 많습니다. 간단한 두 가지 방법을 통해 줄여보겠습니다. 1. 코드화 문자열로 된 데이터를 숫자 / 영어로 변환하여 데이터 크기 축소 - 남자 -> 0 여자 -> 1 - 서울특별시 -> 11 대..
포스팅 개요 '혹시나 책에 있을 모든 실수와 오류는 온전히 제 책임이며, 책에 실린 좋은 아이디어와 표현은 모두 리뷰어님들의 조언 덕분입니다. 정말 고맙습니다.'라는 지은이의 글은 나동빈 저자님의 인품을 느낄 수 있는 한 줄이었습니다. 저도 저런 마인드를 가진 사람이 되겠다고 다짐하며 책과의 여정을 떠나보겠습니다. 포스팅 본문 이번 포스팅으로 Chapter5에 대한 내용을 마무리하겠습니다. 2021.04.23 - [Coding Test & Algorithm] - [이것이 취업을 위한 코딩 테스트다 with 파이썬] (한빛미디어, 나동빈) Chapter5(2). DFS/BFS [이것이 취업을 위한 코딩 테스트다 with 파이썬] (한빛미디어, 나동빈) Chapter5(2). DFS/BFS 포스팅 개요 '혹..
포스팅 개요 매일 함께 성장하는 학습 커뮤니티, 퓨처스킬의 베타 서비스에 참여하게 되었습니다. 퓨처스킬은 크리에이터 분들이 각기 다른 주제로 콘텐츠를 구성해주시고 그 콘텐츠에 대한 각자의 의견을 토론하는 커뮤니티입니다. 정답은 없고 서로 토론하며 알아가자는 퓨처스킬의 정신이 멋있고, 검색하며 공부하기 용이하게 검색 키워드도 제공해주는 세심함에 반할 수밖에 없는 커뮤니티입니다. 데이터 분석의 기초부터 심화까지 여러 콘텐츠가 준비되어 있어, 어떻게 공부해야할 지 모르겠는 분께 꼭 추천드리고 싶은 사이트입니다. 퓨처스킬 : https://futureskill.io/ 포스팅 본문 퓨처스킬의 첫 콘텐츠로는 김용담 크리에이터님의 판다스 기본을 소비해봤습니다. 총 26문제로 이루어져 있었고, 판다스에 대해 대략적으로..
메쉬코리아의 Data Engineer 직군으로 지원했다. 지원하고 며칠 뒤 인사팀에서 전화가 와 서류 전형을 통과했으니 코딩 테스트에 응시하면 된다고 안내받았다. 더보기 지원 안내 : https://www.notion.so/VROONG-5c5458e75f9142f8b37272d7d146dffc 코딩 테스트 안내받고 1주일 안이면 언제든 응시할 수 있었고, 90분에 2문제였다. Hackerrank(https://www.hackerrank.com/dashboard)에서 test를 봤는데 문제가 영어라서 조금은 당황스러웠다. 외부 IDE 사용은 가능했고, 문제 유출을 방지하기 위해 ctrl+c 기능은 막혀있었다. 저번의 네이버 코딩 테스트와는 달리 히든 테스트 케이스들도 정답 여부를 확인을 할 수 있어 편했다..
포스팅 개요 점점 데이터의 중요성이 높아지고 있습니다. 하지만 데이터를 어디에서 구해야 할 지도 잘 모르고 유료 데이터는 터무니없이 비싸곤 합니다. 그래서 제가 종종 쓰곤 하는 공공 데이터들을 쉽게 얻을 수 있는 포털을 소개하겠습니다. :) 포스팅 본문 1. 공공데이터포털 https://www.data.go.kr/ 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr 제가 공공데이터가 필요할 때 가장 먼저 방문하는 사이트입니다. 다양한 공공데이터들이 깔끔하게 정리되어 있고 제공기관이 명시되어 있어 세부정보가 필요하면 그 기..
포스팅 개요 '혹시나 책에 있을 모든 실수와 오류는 온전히 제 책임이며, 책에 실린 좋은 아이디어와 표현은 모두 리뷰어님들의 조언 덕분입니다. 정말 고맙습니다.'라는 지은이의 글은 나동빈 저자님의 인품을 느낄 수 있는 한 줄이었습니다. 저도 저런 마인드를 가진 사람이 되겠다고 다짐하며 책과의 여정을 떠나보겠습니다. 포스팅 본문 저번 Chapter5(1)에 이어 DFS/BFS에 대해 계속 알아보겠습니다. 2021.04.22 - [Coding Test & Algorithm] - [이것이 취업을 위한 코딩 테스트다 with 파이썬] (한빛미디어, 나동빈) Chapter5(1). DFS/BFS [이것이 취업을 위한 코딩 테스트다 with 파이썬] (한빛미디어, 나동빈) Chapter5(1). DFS/BFS 포스..
포스팅 개요 여느 날과 같이 공부하고 있던 와중, 친구가 급하게 도움을 요청했다. 엔젤 클럽의 팀장을 맡고 있는 친구였는데, 어떤 페이지 크롤링을 하고 싶은데 어떻게 해야할 지 모르겠다는 것이었다. "마! 함 보자!", 호기롭게 외쳤지만 웬걸? 난생 처음 보는 화면이 등장했다. 과연 이 둘은 절체절명의 위기를 어떻게 극복할 것인가! 포스팅 본문 크롤링을 시도했을 때 서버에서 봇으로 인지하고 정보를 주지 않는 경우가 있다고 합니다. 그럴 땐 저희가 사람인 것을 서버에게 입증해주어야 합니다. 다음과 같이 입증할 수 있습니다. headers = {'User-Agent' : '유저정보'} url = '접속하고자 하는 사이트 주소' soup = requests.get(url, headers = headers).t..
포스팅 개요 '혹시나 책에 있을 모든 실수와 오류는 온전히 제 책임이며, 책에 실린 좋은 아이디어와 표현은 모두 리뷰어님들의 조언 덕분입니다. 정말 고맙습니다.'라는 지은이의 글은 나동빈 저자님의 인품을 느낄 수 있는 한 줄이었습니다. 저도 저런 마인드를 가진 사람이 되겠다고 다짐하며 책과의 여정을 떠나보겠습니다. 포스팅 본문 이번 Chapter는 예제가 많기에 DFS/BFS의 개념 부분과 실전 문제 부분을 나눠서 포스팅하겠습니다. 탐색이란 많은 양의 데이터 중에서 원하는 데이터를 찾는 과정이다. 탐색에서는 DFS와 BFS 알고리즘이 대표적이다. 이 알고리즘의 이해를 위해서는 기본 자료구조인 스택과 큐에 대한 이해가 필요하다. (자료구조란 데이터를 표현하고 관리하고 처리하기 위한 구조를 의미) 그렇기에 ..
포스팅 개요 제가 데이터 분석가 취업을 준비하면서 주로 쓰고 도움을 받은 사이트들을 정리해보았습니다. 저와 비슷한 길을 걸으며 어려움을 겪는 이에게 이 글이 조금이나마 도움이 되길 바랍니다. :) 포스팅 본문 본 포스팅은 채용 공고 / 구인구직 사이트를 주로 소개해보겠습니다. 1. 잡코리아(JOBKOREA) https://www.jobkorea.co.kr/ 잡코리아 끝이 다른 시작, 잡코리아. 1000대기업 핵심공채전략, 맞춤채용정보, 기업정보, 연봉정보 등 합격정보 제공 www.jobkorea.co.kr 잡코리아는 제가 일반 대기업/중소기업을 찾을 때 가장 자주 쓰는 구인구직사이트입니다. 공채달력과 인턴채용이라는 기능을 통해 매일 모든 공고를 놓치지 않을 수 있음 풍부한 합격자소서, 인적성·면접후기를 ..
포스팅 개요 '혹시나 책에 있을 모든 실수와 오류는 온전히 제 책임이며, 책에 실린 좋은 아이디어와 표현은 모두 리뷰어님들의 조언 덕분입니다. 정말 고맙습니다.'라는 지은이의 글은 나동빈 저자님의 인품을 느낄 수 있는 한 줄이었습니다. 저도 저런 마인드를 가진 사람이 되겠다고 다짐하며 책과의 여정을 떠나보겠습니다. 포스팅 본문 구현이란 '머릿속에 있는 알고리즘을 소스코드로 바꾸는 과정'이다. 풀이를 떠올리는 것은 쉽지만 소스코드로 옮기기는 어려운 문제를 칭합니다. 흔히 '피지컬을 요구하는' 문제라고 할 수 있습니다. 알고리즘은 간단한데 코드가 지나칠 만큼 길어지는 문제 특정 소수점 자리까지 출력해야 하는 문제 문자열이 입력으로 주어졌을 때 한 문자 단위로 끊어서 리스트에 넣어야 하는 문제 등이 있습니다...