컴퓨터일반_데이터수집

[컴퓨터일반]금융IT 필기준비

컴퓨터일반_데이터수집

bestFinanceDataAnalyist 2023. 6. 8. 21:00

안녕하세요. 금융 IT 준비생입니다. 본 카테고리는 금융 IT필기 준비를 위한 페이지이며

6월 8일 스터디를 통한 내용을 복습하고 정리하는 용도입니다.

여러 책과 블로그를 참고하였으며 문제가 있을 시 삭제하겠습니다.

데이터 수집과 전처리

데이터 수집 과정

비즈니스 도메인 정보 수집 > 분석 기획서 기반 도메인.서비스 이해 > 수집 데이터 탐색 > 기초 데이터 수집

(전문가 인터뷰) (비즈니스 현황 파악) (수집 데이터 선정)

*시스템 구축 절차

수집데이터 유형파악 > 수집 기술 결정 > 아키텍처 수립> 하드웨어 구축 > 실행환경 구축

데이터 종류

내부데이터 : 서비스 시스템(ERP, CRM, KMS, 회사 포탈) , 네트워크 및 서버 정리(방화벽, IPS, IDS 로그),

마케팅 데이터(제품 리뷰 커뮤니티, 고객 포탈)

외부데이터 : 소셜 데이터(SNS), 특정 기관 데이터, M2M데이터(machine to machine), LOD(linked open data)

	내부데이터	외부데이터
수집 주기	실시간으로 수집하여 분석	일괄 수집/일정 주기 협의
수집 경로	인터페이스 생성	인터넷
수집 대상	파일 시스템, DBMS, 센서	협약에 의한 데이터, 웹 페이지, 문서 등

정형데이터: 미리 정해진 형식/구조에 따라 저장됨. 주로 정형화된 업무/서비스에 사용되며 데이터에 대한 부분 검색, 선택, 갱신, 삭제 등 연산을 수행한다

비정형데이터: 정해진 구조가 없는 동영상 파일, 오디오 파일, 사진, 음악, 보고서, 메일 본문 등 정형화되지 않은 데이터로 연산이 불가능. 특히 SNS 이용률이 높아지면서 수많은 데이터가 쏟아지고 있음.

반정형데이터: 데이터의 구조 정보를 데이터와 함께 제공하지만, 데이터의 형식과 구조가 변경될 수 있음. 주로 XML, HTML, JSON 등이 파일 형태로 저장됨.

데이터 수집 기술

정형 데이터 : ETL, FTP, API, DBToDB, Sqoop

비정형데이터: 크롤링. RSS, OPEN API, Chukwa, Kafka

반정형데이터: Flume, Scribe, Sensing, 스트리밍

*추가 설명

ETL: 추출(extract), 변환(transform), 적재(load) 3단계로 구성되어 있으며 하나 이상의 데이터 소스로브터 데이터 웨어하우스, 데이터 마트, 데이터 통합 등 다양한 응용시스템을 위한 구축에 사용됨

FTP(file transfer protocol): 대량의 파일(데이터를) 네트워크를 통해 주고받을 때 사용되는 파일 전송 서비스. 동장 방식이 단순하고 직관적이며, 서버와 클라이언트를 연결한 후 데이터 전송이 가능하며, 이때 빠른 속도로 주고받을 수 있음

Sqoop: 관계형 데이터를 효과적으로 전송하기 위해 구현된 도구.

관계형 DB의 데이터를 하둡 파일 시스템(HDFS, HIVE, HBASE)로 수집 > 하둡 메듀리스에서 변환 > 다시 관계형 DB로 내보냄

FLUME: 대용량의 로그 데이터를 효과적으로 수집

데이터 변환

*수집 데이터 저장 형태에 따라 저장 방식이 다름

관계형 데이터 베이스_mysql, oralce, db2 / 분산데이터_HDFS/ 데이터웨어하우스_네티자, 테라데이터/

NOSQL_HBASE, MongoDB

데이터 적재

데이터 적재 도구 : 플루언티트, 플럼, 스크라이브, 로그스테시

데이터 저장

파일 시스템 저장방식: Apache HDFS, 구글 GFS

데이터베이스 저장방식: Nosql(키-값, 문서저장구조, 열기반 저장구조)

분산파일시스템: HDFS(Master -slave 구조, 네임노드-데이터노드)

CAP이론 : 분산 컴퓨팅 환경을 Consistency(일관성), Availability(가용성), 지속성(Partition Tolerance) 세가지로 정의

일관성: 분산 환경에서 모든 노드가 같은 시점에 같은 데이터를 보여줌

가용성: 일부 노드가 다운되어도 다른 노드에 영향을 주지 않아야 함.

지속성: 데이터 전송 중에 일부 데이터를 손실하더라도 시스템은 정상 동작해야함.

'[컴퓨터일반]금융IT 필기준비' 카테고리의 다른 글

[컴퓨터일반]_데이터 가설검정 (0)	2023.06.16
컴퓨터일반_데이터전처리[실습] (2)	2023.06.15
[컴퓨터일반]_데이터 전처리 (0)	2023.06.13
컴퓨터일반_데이터베이스 (1)	2023.05.14
컴퓨터일반_컴퓨터구조 (0)	2023.05.06

현재글컴퓨터일반_데이터수집

금융 IT 전문가가 될 때까지!

안녕하세요! 최고의 금융 IT 전문가가 되기 위해 정리하는 공부일기 블로그입니다. 금융, 경제 뿐만 아니라 데이터, 프로그래밍언어, ai, 웹개발, 코테, 자격증, 취준 등 다양한 공부 내용 및 활동 후기를 보여드리려고 합니다! 잘부탁드려요 ㅎㅎ

금융IT, 백준자바, 프로그래머스SQL, 코테준비, 컴퓨터일반, 객체지향, 파이썬기초문법, Ai, 성사꾼로직, 파이썬, 성사꾼, 프로그래머스코딩기초트레이닝, aidx, 코린이, 프로그래머스, 금융IT필기, 프로그래머스select, 데이터분석, doit파이썬, 금융IT준비,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

금융 IT 전문가가 될 때까지!