안녕하세요. 금융 IT 준비생입니다. 본 카테고리는 금융 IT필기 준비를 위한 페이지이며
6월 8일 스터디를 통한 내용을 복습하고 정리하는 용도입니다.
여러 책과 블로그를 참고하였으며 문제가 있을 시 삭제하겠습니다.
데이터 수집과 전처리
데이터 수집 과정
비즈니스 도메인 정보 수집 > 분석 기획서 기반 도메인.서비스 이해 > 수집 데이터 탐색 > 기초 데이터 수집
(전문가 인터뷰) (비즈니스 현황 파악) (수집 데이터 선정)
*시스템 구축 절차
수집데이터 유형파악 > 수집 기술 결정 > 아키텍처 수립> 하드웨어 구축 > 실행환경 구축
데이터 종류
내부데이터 : 서비스 시스템(ERP, CRM, KMS, 회사 포탈) , 네트워크 및 서버 정리(방화벽, IPS, IDS 로그),
마케팅 데이터(제품 리뷰 커뮤니티, 고객 포탈)
외부데이터 : 소셜 데이터(SNS), 특정 기관 데이터, M2M데이터(machine to machine), LOD(linked open data)
내부데이터 | 외부데이터 | |
수집 주기 | 실시간으로 수집하여 분석 | 일괄 수집/일정 주기 협의 |
수집 경로 | 인터페이스 생성 | 인터넷 |
수집 대상 | 파일 시스템, DBMS, 센서 | 협약에 의한 데이터, 웹 페이지, 문서 등 |
정형데이터: 미리 정해진 형식/구조에 따라 저장됨. 주로 정형화된 업무/서비스에 사용되며 데이터에 대한 부분 검색, 선택, 갱신, 삭제 등 연산을 수행한다
비정형데이터: 정해진 구조가 없는 동영상 파일, 오디오 파일, 사진, 음악, 보고서, 메일 본문 등 정형화되지 않은 데이터로 연산이 불가능. 특히 SNS 이용률이 높아지면서 수많은 데이터가 쏟아지고 있음.
반정형데이터: 데이터의 구조 정보를 데이터와 함께 제공하지만, 데이터의 형식과 구조가 변경될 수 있음. 주로 XML, HTML, JSON 등이 파일 형태로 저장됨.
데이터 수집 기술
정형 데이터 : ETL, FTP, API, DBToDB, Sqoop
비정형데이터: 크롤링. RSS, OPEN API, Chukwa, Kafka
반정형데이터: Flume, Scribe, Sensing, 스트리밍
*추가 설명
ETL: 추출(extract), 변환(transform), 적재(load) 3단계로 구성되어 있으며 하나 이상의 데이터 소스로브터 데이터 웨어하우스, 데이터 마트, 데이터 통합 등 다양한 응용시스템을 위한 구축에 사용됨
FTP(file transfer protocol): 대량의 파일(데이터를) 네트워크를 통해 주고받을 때 사용되는 파일 전송 서비스. 동장 방식이 단순하고 직관적이며, 서버와 클라이언트를 연결한 후 데이터 전송이 가능하며, 이때 빠른 속도로 주고받을 수 있음
Sqoop: 관계형 데이터를 효과적으로 전송하기 위해 구현된 도구.
관계형 DB의 데이터를 하둡 파일 시스템(HDFS, HIVE, HBASE)로 수집 > 하둡 메듀리스에서 변환 > 다시 관계형 DB로 내보냄
FLUME: 대용량의 로그 데이터를 효과적으로 수집
데이터 변환
*수집 데이터 저장 형태에 따라 저장 방식이 다름
관계형 데이터 베이스_mysql, oralce, db2 / 분산데이터_HDFS/ 데이터웨어하우스_네티자, 테라데이터/
NOSQL_HBASE, MongoDB
데이터 적재
데이터 적재 도구 : 플루언티트, 플럼, 스크라이브, 로그스테시
데이터 저장
파일 시스템 저장방식: Apache HDFS, 구글 GFS
데이터베이스 저장방식: Nosql(키-값, 문서저장구조, 열기반 저장구조)
분산파일시스템: HDFS(Master -slave 구조, 네임노드-데이터노드)
CAP이론 : 분산 컴퓨팅 환경을 Consistency(일관성), Availability(가용성), 지속성(Partition Tolerance) 세가지로 정의
일관성: 분산 환경에서 모든 노드가 같은 시점에 같은 데이터를 보여줌
가용성: 일부 노드가 다운되어도 다른 노드에 영향을 주지 않아야 함.
지속성: 데이터 전송 중에 일부 데이터를 손실하더라도 시스템은 정상 동작해야함.
'[컴퓨터일반]금융IT 필기준비' 카테고리의 다른 글
[컴퓨터일반]_데이터 가설검정 (0) | 2023.06.16 |
---|---|
컴퓨터일반_데이터전처리[실습] (2) | 2023.06.15 |
[컴퓨터일반]_데이터 전처리 (0) | 2023.06.13 |
컴퓨터일반_데이터베이스 (1) | 2023.05.14 |
컴퓨터일반_컴퓨터구조 (0) | 2023.05.06 |