'Coding/Machine Learning & Python' 카테고리의 글 목록

관리 메뉴

목록Coding/Machine Learning & Python (21)

호기심 많은 분석가

목차Python에서 구글 스프레드시트 연동하기구글 스프레드시트를 활용해 데이터 관리를 하거나 대시보드를 운영하는 경우 DB의 데이터를 python으로 전처리한 뒤 자동으로 업데이트하는 등 업무를 하다 보면 Python에서 구글 스프레드시트 연동해야 하는 니즈가 존재합니다. 이번 포스팅에서는 어떻게 Python에서 구글 스프레드시트를 연동하는지 예시를 통해 알아보고자 합니다.필요 라이브러리 불러오기 및 설치# !pip install pydata_google_auth# !pip install gspread# !pip install gspread_dataframeimport pydata_google_authimport gspreadfrom gspread_dataframe import set_with_dataf..

Coding/Machine Learning & Python 2024. 5. 21. 16:56

[DACON] LH 구내식당 식수 인원 예측 대회

구내식당 식수 인원 예측 AI 경진대회 - DACON [배경] 지금까지는 단순한 시계열 추세와 담당자의 직관적 경험에 의존하여한국토지주택공사 구내식당 식수 인원을 예측하였으나, 빅데이터 분석으로 얻어지는 보다 정확도 높은 예측을 통해 dacon.io 🎁 개요 [2021.06.03 ~ 2021.07.23] 신용도 예측 대회가 끝나고 다음 대회를 물색하던 중 굉장히 흥미로운 대회가 개최되었습니다. 한국토지주택공사, 즉 LH의 구내식당 식수 인원을 예측하는 대회였습니다. 과거 기숙사에 살 때 식수 인원이 제대로 예측되지 않아서 식사의 질도 떨어지고, 어떤 날은 늦게 가면 밥이 없기도 했던 기억이 있습니다. 이러한 불편함을 해소하는 알고리즘이라니, 굉장히 매력적이었고 도메인이 사람의 심리이니만큼 자신도 있어 참..

Coding/Machine Learning & Python 2021. 7. 26. 12:50

[Pandas] Series에는 merge를 어떻게 해줄까?

우리는 보통 DataFrame을 merge할 때 pandas의 merge를 쓰곤한다. 하지만 Series에는 merge가 적용되지 않는 다! 그래서 pd.concat을 이용하곤 하는데, Series의 내장 함수인 combine을 사용해보자. 위와 같은 10-16시까지의 값들만 존재하는 Series가 있다. 이 데이터를 24시간으로 시각화 시키기 위해 나머지 HOUR에는 0을 넣으려고 한다. 이때 어떻게 해줄 수 있을까? 우선 0-24시까지 0뿐인 Series를 생성해준다. zero_series = pd.Series(index=range(24), data=[0]*24) zero_series 이제 우리는 두 Series를 combine을 통해 합쳐줄 거다. Series1.combine(Series2, max..

Coding/Machine Learning & Python 2021. 7. 5. 23:27

[Python] Intersection에 대해 알아보자(set, index)

오늘은 친구의 흥미로운 질문을 다뤄보고자 한다. 이 친구의 사고 방식은 참 배울 점이 많은데, DataFrame을 groupby 시켰을 때는 list의 형태인지, index의 type은 무엇인지, 작업하면서 한번도 의문을 가져본 적 없는 것들을 물어봐서 허를 찔린다. 나도 이런 의문을 항상 품으면서 살아야할텐데, 오늘은 그 중 새로 알게 된 사실에 대해 이야기 해보고자 한다. Intersection 바로 intersection인데, 해석하면 교집합으로 두 그룹 사이에 동시에 존재하는 원소들을 의미한다. Python에서 이 친구를 사용하기 위해서는 유의해야할 점이 한 가지 존재하는데, list형태에서는 작동하지 않아 반드시 set의 형태로 변환해줘야한다는 점이다. 아래와 같이 실행되는 것을 확인할 수 있다..

Coding/Machine Learning & Python 2021. 6. 25. 13:13

[ML] 다중 회귀 VS 다항 회귀 (Multiple VS Polynomial regression)

목차 우리는 머신러닝 기법을 사용할 때 회귀 관련 모델을 사용하긴 한다. 가장 기본적인 선형 회귀(Linear Regression) 모델을 많이 사용할 텐데, 데이터의 분포가 직선이 아니라 곡선 형태를 띠고 있을 경우 오차가 크게 나타날 수 있다. 그럴 때 사용할 수 있는 다항 회귀를 헷갈릴 수 있는 다중 회귀와 비교하며 알아보자. 회귀 분석 (Regression Analysis) 그게 앞서 회귀 분석부터 알아보자 정의 회귀 분석이란, 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해내는 분석 방법 회귀 분석은 시간에 따라 변화하는 데이터나, 어떤 영향, 가설적 실험, 인과 관계의 모델링등의 통계적 예측에 사용 회귀 분석은 하나의 종속변수와 하나의 독립변수 사이의 관계를 분석하..

Coding/Machine Learning & Python 2021. 6. 7. 20:48

[Pandas] Pandas의 map, apply, applymap 함수

나는 Pandas에서 기존의 열에 조건을 주어 새로운 열을 생성할 때 apply 함수를 주로 쓰곤 했다. 속도도 빠르고 코드도 짧기에, 근데 map과 applymap 함수도 있다고 들었는데 과연 이 친구들은 어디에 사용을 할까? map함수 map함수는 간단하다. DataFrame이 아닌 Series 타입에만 사용을 한다. 아래와 같은 방식으로 사용할 수 있다. 하지만 Series에 대해서는 map만 가능한가? apply도 같은 방식으로 사용이 가능하다. 그래서 apply를 선호. df['new_col'] = df['col'].map(lambda x : x+1) apply함수 대망의 apply함수다. DataFrame에서 여러 개의 컬럼을 사용하고 싶을 때는 apply함수를 사용해준다 df['new_col..

Coding/Machine Learning & Python 2021. 6. 6. 00:33

[Python] TypeError: unhashable type: 'list'

리스트 안의 리스트 중 unique 한 것만 남겨두기 위해서 set을 적용해 주었더니 아래와 같은 Error가 발생하였다. 무엇이 문제일까? TypeError: unhashable type: 'list' 리스트 안의 str 같은 원소들의 경우 별문제가 없다. 그렇다면 list가 unhashable 하다는 것이 무슨 의미인가? unhashable type: list hashable hashable이라는 것은 어떤 데이터를 hash 함수를 이용해서 hash값으로 변환할 수 있다는 것을 의미 hash는 어떤 특정 데이터에 대해서, 매우 유니크한 하나의 값을 가지게 된다. 그런데 원래 데이터가 변한다면, 이 데이터가 변함에 따라서 해당 hash 값도 변하게 될 것 따라서 hashable 하기 위해서는 immut..

Coding/Machine Learning & Python 2021. 6. 5. 23:30

[Python] for문 상태바 라이브러리 tqdm

되게 긴 for문을 실행시켜둘 경우 대체 이게 얼마나 진행된 건가... 언제 끝나나.. 하고 기다리곤 했다. 진행 상태를 보여주면서 이 궁금증을 해소시켜줄 tqdm이라는 라이브러리를 만나보도록 하자. 설치 어렵지 않다. 아래 구문을 통해 설치 가능 pip install tqdm 사용방법 tqdm을 import 한 뒤 for문의 range 앞에 붙여주면 간단하게 사용할 수 있다. +참고. print() 구문에서 end에 \r를 사용해주면 다음 출력 줄이 현재 줄에서 실행되는 것으로, 값이 덮어써진다. 이제까지 이 좋은 것을 몰라서 start_time과 end_time 비교해가면서, i 출력하곤 했지... 이 글을 본 여러분은 그 헛된 시간을 아낄 수 있을 겁니다. 화이팅해요! :)

Coding/Machine Learning & Python 2021. 6. 5. 23:08

[Python] 로그함수(logarithmic function) np.log1p(z)

로그는 수학함수의 일종으로, 어떤 수를 나타내기 위해 고정된 밑을 몇 번 곱하여야 하는지 나타내는 함수이다. 지수 함수의 역연산(Inverse operation)이다. 데이터 전처리 과정에서 너무 큰 수를 작게 처리해주고자 로그 함수를 사용하곤 하는데, 밑이 자연로그e 혹은 10, 또는 2 이냐에 따라 np.log(x), np.log10(x), np.log2(x)를 구분해서 사용합니다. 그렇다면 이번 포스팅의 핵심, np.log1p(x)는 도대체 무엇일까요? 로그함수의 경우 x=0을 넣어주면 y는 −∞의 값을 가집니다. 이럴 때 사용하는 방법이 x+1을 해줘서 0을 1로 바꿔주는 것입니다. np.log1p() 함수가 바로 그 역할을 해줍니다. 그렇게 되면 y 값이 −∞에서 0을 바뀌게 됩니다. np.lo..

Coding/Machine Learning & Python 2021. 6. 3. 22:15

[Python] for문 VS While문 / for문 무한loop

for문과 while문의 차이가 뭘까? for문과 while문 모두 반복문으로 쓰이지만 조금의 차이점은 존재한다. for문 사용 for문의 경우 주로 반복 횟수가 정해진 경우 배열과 함께 사용한다. sum = 0 for i in range(10) : sum += i print(sum) while문 사용 while문은 무한루프나 특정 조건에 만족할 때까지 반복해서 사용한다. sum = 0 while True : sum += 1 if sum==10 : break for문과 while문은 서로를 표현할 수 있다고 한다. 그렇다면 왜 2개로 나누어져 있을까? 바로 코드의 효율성때문이다. 위의 두 경우 서로 표현하려고 하면 코드가 길어지기 때문에 간결히 표현할 수 있도록 나누어 사용하자. for문 무한루프 이 포..

Coding/Machine Learning & Python 2021. 6. 1. 22:28

이전 Prev 1 2 3 Next 다음

목록Coding/Machine Learning & Python (21)

호기심 많은 분석가

티스토리툴바