[AI & DX 전문가]

[4일차] 3일차에 이어서 ...!!

bestFinanceDataAnalyist 2024. 5. 23. 09:24

고대하던 채용 연계형 면접에 떨어지고 다시 심기일전하며 공부 페이지를 만들었습니다!

교육을 들으며 금융 말고 정말 내가 하고 싶은 디지털, 데이터, AI에 대해 꾸준히 공부해보려고 합니다.

이 카테고리 모든 내용의 무단 배포는 금지하며 저작권 문제시 삭제하도록 하겠습니다,

부족한 부분이 많을 수 있으니 이해 부탁드립니다!


 

어제 했던 실행 파일로 웹 크롤링을 진행해보았습니다....(실제 업로드가 늦어지며,,,,,, 어제는 맞습니다 ㅎㅎ)

요새 가장 인기있는 쇼핑몰? 당연히 알리, 테무라고 생각하는데요...!

마동석의 광고를 보며 알리를 알았던 저는 검색해보다가 쿠팡의 경쟁자,, 아닌 그 이상일지도 모른다는 기사를 보고 충격적이었습니다... 로켓배송 아무도 못이길줄 알았습니다 .. 여하튼 이건 경제 뉴스를 작성해보도록 하고

 

오제 만든 웹 크롤링 서비스에 알리, 테사, 중국 쇼핑을 해보았습니다.

vscode 터미널에 주피터, 판다스, 워드클라우드 라이브러리를 설치해놓습니다.

 

pandas?

인공지능, 데이터 분석 처리에 가장 중요한 라이브러리입니다. 데이터 구조를 다루는데 중요한 변수가 많습니다.

기본적으로 알고 있는 shape, head, tail emdemddl dlTwy

 

어제 만든 데이터 csv파일을 filelist로 만들어 데이터프레임을 만들어보겠습니다!

 

 

정규화?

다음은 정규화인데요. 웹 크롤링을 하다보면 아무래도 필요없는 단어, 특수문자를 제외하고 의미있는 값을 뽑고 싶을때가 있으실겁니다!! 그럴 때 바로 정규화를 사용하면 됩니다.  많이 쓰는 예제들을 넣어놨으니 참고해주세요~

 

저는 이 예제에는 한글 영문 모든 단어를 삭제해보았습니다.

#한글 영문 제외한 모든 단어 삭제

def clean_text(inputString): text_rmv = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’\'·]', ' ', inputString) return text_rmv

 

 

 

워드클라우드란?

메타 데이터에서 얻어진 태그들을 분석하여 중요도나 인기도 등을 고려하여 시각적으로 늘어 놓아 웹 사이트에 표시하는 것. 구름 모양으로 단어의 중요도에 맞게 크기를 다르게 한것을 의미합니다

 

앞에 배운 파일 리스트 정리, 인덱스 정리, 정규화, 불용어(필요없는 다어 빼기) 처리를 해줍니다

 

 

 

이후에 어제 배운 main파일에 이 wordcloud를 입력해주면 끝납니다

 

결론은?

 

 

이런식으로 나오는 걸 확인할 수 있습니다! 최종 파일이 궁금하신 분들은 댓글 남겨주시면 감사하겠습니다

다들 화이팅해요