3일차 Pyqt로 웹 크롤링을~?!
고대하던 채용 연계형 면접에 떨어지고 다시 심기일전하며 공부 페이지를 만들었습니다!
교육을 들으며 금융 말고 정말 내가 하고 싶은 디지털, 데이터, AI에 대해 꾸준히 공부해보려고 합니다.
이 카테고리 모든 내용의 무단 배포는 금지하며 저작권 문제시 삭제하도록 하겠습니다,
부족한 부분이 많을 수 있으니 이해 부탁드립니다!
PYQT5 다루기
1) 가상환경 구축하기 : cmd활용(파이썬 3.10버전을 설치)
conda create -n p310_crawling python=3.10
2) vscode 실행 > 프로젝트 경로 바꾸기(오른쪽 하단)
3) 화면 설계:Qt Designer 설치 >> 이걸로 프론트를!! 파이썬으로 백앤드를 만든다고 생각하면 됩니다
main화면 : 크롤링 기능 / 크롤링 결과 워드클라우드 함수 기능 2가지 설정
버튼 이름: btn_close(종료) / btn_search(네이버 지식인 크롤링) / bth_wordcloud(워드클라우드 데이터 분석)
main화면 파이썬
필요한 라이브러리: PyQT5, SYS
클래스 만들기: 초기 함수(버튼설정), 화면열기(setupUi, MyWindow())
search.py
1) 똑같이 화면설계를 한번 해준다: ui_crowling 파일로
2) main에다 똑같이 설계할 수 있지만 그러면 코드 가독성 떨어짐 복잡함 >> search.py 파일 생성
3) main과 동일한 라이블러리, 알맞는 ui파일 열어주기, 종료버튼 만들기
4) 네이버 지식인에서 크롤링하는 함수 만들기 > 이것도 여기다 만들면 어려우니 새로운 파일 만들어줌
- 필요한 라이브러리: 웹 크롤링에 필요한 함수 / BeatifulSoup, urllbi.parse, requests
- naverKin 함수: 웹 클로링
url = " " / 웹 크롤링 할 주소 >> 여기서는 네이버 지식을 활용하였고 검색어는 search, 페이지는 i로 받았다.
html.status_code == 200: >> 인터넷 코드를 완벽하게 받아드렸다 라는 의미
parser: ui를 잘라줍니다.
select: 속성 <a> 부분에 내용을 리스트로 다 저장해줌
이후 tnp라는 리스트에 저장하면 완료!
-saveKin: 저장한 tmp파일은 csv파일로 만드는 과정!!
이 과정이 끝나면 다시 search.py 파일로 돌아옵니다
search_naver을 라이브러리 처럼 불러와서 def함수를 클래스로 만들어줍니다!
정보가 많은이 for문을 통해 20개씩 끊어볼께요!
다음은 저장 버튼을 누를 때 동작입니다!
파일을 저장하는 명령어까지 끝~! 4일차는 워드클라우드를 만들어보도록 하겠습니다~