3일차 Pyqt로 웹 크롤링을~?!

[AI & DX 전문가]

bestFinanceDataAnalyist 2024. 5. 16. 18:30

고대하던 채용 연계형 면접에 떨어지고 다시 심기일전하며 공부 페이지를 만들었습니다!

교육을 들으며 금융 말고 정말 내가 하고 싶은 디지털, 데이터, AI에 대해 꾸준히 공부해보려고 합니다.

부족한 부분이 많을 수 있으니 이해 부탁드립니다!

PYQT5 다루기

1) 가상환경 구축하기 : cmd활용(파이썬 3.10버전을 설치)

conda create -n p310_crawling python=3.10

2) vscode 실행 > 프로젝트 경로 바꾸기(오른쪽 하단)

3) 화면 설계:Qt Designer 설치 >> 이걸로 프론트를!! 파이썬으로 백앤드를 만든다고 생각하면 됩니다

main화면 : 크롤링 기능 / 크롤링 결과 워드클라우드 함수 기능 2가지 설정

버튼 이름: btn_close(종료) / btn_search(네이버 지식인 크롤링) / bth_wordcloud(워드클라우드 데이터 분석)

main화면 파이썬

필요한 라이브러리: PyQT5, SYS

클래스 만들기: 초기 함수(버튼설정), 화면열기(setupUi, MyWindow())

search.py

1) 똑같이 화면설계를 한번 해준다: ui_crowling 파일로

2) main에다 똑같이 설계할 수 있지만 그러면 코드 가독성 떨어짐 복잡함 >> search.py 파일 생성

3) main과 동일한 라이블러리, 알맞는 ui파일 열어주기, 종료버튼 만들기

4) 네이버 지식인에서 크롤링하는 함수 만들기 > 이것도 여기다 만들면 어려우니 새로운 파일 만들어줌

- 필요한 라이브러리: 웹 크롤링에 필요한 함수 / BeatifulSoup, urllbi.parse, requests

- naverKin 함수: 웹 클로링

url = " " / 웹 크롤링 할 주소 >> 여기서는 네이버 지식을 활용하였고 검색어는 search, 페이지는 i로 받았다.

html.status_code == 200: >> 인터넷 코드를 완벽하게 받아드렸다 라는 의미

parser: ui를 잘라줍니다.

select: 속성 <a> 부분에 내용을 리스트로 다 저장해줌

이후 tnp라는 리스트에 저장하면 완료!

-saveKin: 저장한 tmp파일은 csv파일로 만드는 과정!!

이 과정이 끝나면 다시 search.py 파일로 돌아옵니다

search_naver을 라이브러리 처럼 불러와서 def함수를 클래스로 만들어줍니다!

정보가 많은이 for문을 통해 20개씩 끊어볼께요!

다음은 저장 버튼을 누를 때 동작입니다!

파일을 저장하는 명령어까지 끝~! 4일차는 워드클라우드를 만들어보도록 하겠습니다~