[컴퓨터일반]금융IT 필기준비

컴퓨터일반_데이터수집

bestFinanceDataAnalyist 2023. 6. 8. 21:00

안녕하세요. 금융 IT 준비생입니다. 본 카테고리는 금융 IT필기 준비를 위한 페이지이며

6월 8일 스터디를 통한 내용을 복습하고 정리하는 용도입니다.

여러 책과 블로그를 참고하였으며 문제가 있을 시 삭제하겠습니다. 

 

데이터 수집과 전처리

데이터 수집 과정

비즈니스 도메인 정보 수집 > 분석 기획서 기반 도메인.서비스 이해 > 수집 데이터 탐색 > 기초 데이터 수집 

(전문가 인터뷰)                         (비즈니스 현황 파악)                          (수집 데이터 선정)

 

*시스템 구축 절차

수집데이터 유형파악 > 수집 기술 결정 > 아키텍처 수립> 하드웨어 구축 > 실행환경 구축

 

데이터 종류

내부데이터 : 서비스 시스템(ERP, CRM, KMS, 회사 포탈) , 네트워크 및 서버 정리(방화벽, IPS, IDS 로그),

                     마케팅 데이터(제품 리뷰 커뮤니티, 고객 포탈)

외부데이터 : 소셜 데이터(SNS), 특정 기관 데이터, M2M데이터(machine to machine), LOD(linked open data)

  내부데이터 외부데이터
수집 주기 실시간으로 수집하여 분석 일괄 수집/일정 주기 협의
수집 경로 인터페이스 생성 인터넷
수집 대상 파일 시스템, DBMS, 센서 협약에 의한 데이터, 웹 페이지, 문서 등

 

정형데이터: 미리 정해진 형식/구조에 따라 저장됨. 주로 정형화된 업무/서비스에 사용되며 데이터에 대한 부분 검색, 선택, 갱신, 삭제 등 연산을 수행한다

비정형데이터: 정해진 구조가 없는 동영상 파일, 오디오 파일, 사진, 음악, 보고서, 메일 본문 등 정형화되지 않은 데이터로 연산이 불가능. 특히 SNS 이용률이 높아지면서 수많은 데이터가 쏟아지고 있음.

반정형데이터: 데이터의 구조 정보를 데이터와 함께 제공하지만, 데이터의 형식과 구조가 변경될 수 있음. 주로 XML, HTML, JSON 등이 파일 형태로 저장됨.

 

데이터 수집 기술

정형 데이터 : ETL, FTP, API, DBToDB, Sqoop

비정형데이터: 크롤링. RSS, OPEN API, Chukwa, Kafka

반정형데이터: Flume, Scribe, Sensing, 스트리밍

 

*추가 설명

ETL: 추출(extract), 변환(transform), 적재(load) 3단계로 구성되어 있으며 하나 이상의 데이터 소스로브터 데이터 웨어하우스, 데이터 마트, 데이터 통합 등 다양한 응용시스템을 위한 구축에 사용됨

FTP(file transfer protocol): 대량의 파일(데이터를) 네트워크를 통해 주고받을 때 사용되는 파일 전송 서비스. 동장 방식이 단순하고 직관적이며, 서버와 클라이언트를 연결한 후 데이터 전송이 가능하며, 이때 빠른 속도로 주고받을 수 있음

Sqoop: 관계형 데이터를 효과적으로 전송하기 위해 구현된 도구.

관계형 DB의 데이터를 하둡 파일 시스템(HDFS, HIVE, HBASE)로 수집 > 하둡 메듀리스에서 변환 > 다시 관계형 DB로 내보냄

FLUME: 대용량의 로그 데이터를 효과적으로 수집

 

 


데이터 변환                                                                                   

*수집 데이터 저장 형태에 따라 저장 방식이 다름

관계형 데이터 베이스_mysql, oralce, db2 / 분산데이터_HDFS/ 데이터웨어하우스_네티자, 테라데이터/

NOSQL_HBASE, MongoDB                                                     

 

데이터 적재

데이터 적재 도구 : 플루언티트, 플럼, 스크라이브, 로그스테시

 

데이터 저장

파일 시스템 저장방식: Apache HDFS, 구글 GFS

데이터베이스 저장방식: Nosql(키-값, 문서저장구조, 열기반 저장구조)

분산파일시스템: HDFS(Master -slave 구조, 네임노드-데이터노드)

 

CAP이론 : 분산 컴퓨팅 환경을 Consistency(일관성), Availability(가용성), 지속성(Partition Tolerance) 세가지로 정의

일관성: 분산 환경에서 모든 노드가 같은 시점에 같은 데이터를 보여줌

가용성: 일부 노드가 다운되어도 다른 노드에 영향을 주지 않아야 함.

지속성: 데이터 전송 중에 일부 데이터를 손실하더라도 시스템은 정상 동작해야함.