본문 바로가기

데이터 분석

(4)
selenium 대신 playwright를 써야되는 이유 테스트 자동화, 크롤링 프로젝트를 진행하면서 사용한 playwright와 selenium 후기 미리 결론을 말하자면 앞으로 나는 테스트 자동화나 크롤링할 때는 무조건 Playwright를 사용할 것 같습니다. playwright를 쓰면 좋은점을 써보려합니다 환경) 파이썬, Mac m1 1. 브라우저와 브라우저 드라이버 관리 Playwright를 설치하면 firefox, chrome 등 최신 브라우저와 연동되는 브라우저 드라이버를 자동을 다운로드하고 관리합니다. 이를 통해 사용자는 브라우저와 드라이버간의 호환성을 확인할 필요가 없습니다 selenium을 사용할때 이 브라우저와 드라이버간의 호환성 때매 정말 시간을 많이 써봐서 이는 매우 매력적 이었습니다. 예를 들어 테스트 자동화를 위해 여러 브라우저를 사..
[Python]500M*500M 정사각형으로 서울 구역 나누어 시각화에 이용하기 참고 블로그 : https://m.blog.naver.com/wideeyed/221243506770 [Python] 좌표변환 예제 UTM-K좌표계에서 WGS84좌표계로 변환하거나 WGS84좌표계에서 UTM-K좌표계로 변환해주는 예제... blog.naver.com https://chang12.github.io/python-map-grid/ Python 으로 지도 위에 정사각 격자를 그리려면? Python 으로 지도 위에 정사각 격자를 그리려고 합니다. 정확히는 서울시를 1km x 1km 크기의 정사각 격자로 나누려고 합니다. chang12.github.io 개요 서울 지역을 행정동보다 더 작게 구역을 나누어서 시각화에 이용해보려고 합니다. 우선 목표는 구역을 나누고 그 구역에 포함되는 아파트들의 총 세대..
파이썬 머신러닝 완벽 가이드 정리 chapter 2 2021/9/17 chapter 2 pg87~ 머신러닝 용어 지도 학습 ㅡ 입력과 타깃을 전달해 새로운 데이터를 예측 비지도 학습 ㅡ 타깃(정답) 데이터 없이 입력 데이터에서 특징 찾는데 주로 이용 과대적합 ㅡ 훈련 세트에서 점수가 좋았는데 테스트 세트에서는 점수가 안좋은 경우 해결방안 ㅡ 모델을 덜 복잡하게 만든다 k 최근접 이웃의 경우 k값을 늘린다 과소적합 ㅡ 훈련세트보다 테스트 세트 점수가 높거나 두점수가 너무 낮을때 해결방안 ㅡ 모델을 복잡하게 만든다 k 최근접 이웃의 경우 k값을 줄인다 scikit learn 함수 fit(data,target) ㅡ 사이킷런 모델을 훈련 두개의 인자를 이용 predict() ㅡ 새로운 데이터의 정답을 예측 score() ㅡ 성능 측정 x_train,x_test,..
파이썬 머신러닝 완벽 가이드 chapter 1 정리 day 2021-09-16 page 1-86 numpy 정리 numpy.argsort(a) 정렬된 행렬에서 기존 행렬의 인덱스를 반환해줌 - 아주 쓸떄가 많다 np.dot(a,b) 넘파이 행렬 내적(행렬 곱) np.transpose(A) 넘파이 전치 행렬 - 대각선 긋고 반대로 판다스 a.info() 판다스 데이터프레임의 non이 아닌 데이터수와 타입을 알수있다 a.describe() 데이터의 분포를 알수있다 수,평균,표준편차,최소 ,최대,중간값등 a.["age"]value_count() 해당 칼럼의 많은 건수 순서로 정렬하여 반환 시리즈 - 컬럼하나 (세로한줄) 데이터프레임 - 컬럼 여러개 pd.DataFrame(a, columns=[name1,n2,n,3]) -컬럼명 설정 pd.DataFrame(a,..