[데이터 분석 준전문가 ADsP] 데이터과 빅데이터 관련 기술
본문 바로가기
데이터 분석 준전문가 ADsP

[데이터 분석 준전문가 ADsP] 데이터과 빅데이터 관련 기술

by 기적의 순간들 2022. 3. 18.
728x90

1. 데이터 관련 기술

1.1 개인정보 비식별 기술

데이터셋에서 개인을 식별할 수 있는 요소의 전부 또는 일부를 삭제, 대체 등을 하는 기술을 말한다.

 

1) 데이터 마스킹

-데이터의 길이, 유형, 형식과 같은 속성을 유지한 상태로 새롭고 읽기 쉬운 데이터를 익명으로 생성하는 기술이다.

-예: 홍길동, 20세, 서울 거주, 서울대 재학 → 홍**, **세, ** 거주, **대 재학

 

2) 가명처리

-개인정보 주체의 이름을 다른 이름으로 변경하는 기술이다. 이 때, 일정한 규칙이 노출되지 않도록 주의해야 한다.

-예: 홍길동, 20세, 서울 거주, 서울대 재학  임꺽정, 19세, 서울 거주, 국내대 재학

 

3) 총계처리

-데이터의 총합 값을 보여줌으로서 개별 데이터의 값을 노출하지 않도록 하는 기술이다. 이 때, 특정 속성을 지낸 개인으로 구성된 단체의 정보를 공개하는 것은 개인 정보를 공개하는 것과 마찬가지이므로 주의해야 한다.

-예: 홍길도 190cm, 임꺽정 180cm, 김삿갓 160cm, 김사또 170cm  컴퓨터공학과 학생 키 총합 700cm, 평균 175cm

 

4) 데이터값 삭제

-데이터 공유, 개방 목적에 따라 데이터셋에 구성된 값 중에 필요 없는 값 또는 개인식별에 중요한 값을 삭제하고 개인과 관련된 날짜 정보은 연단위로 처리한다.

-예: 홍길동, 20세, 서울 거주, 서울대 재학  20세, 서울 거주 / 주민등록번호 123456-1234567  → 10년대 생, 남자

 

5) 데이터 범주화

-데이터의 값을 범주의 값으로 변환하여 숨긴다.

-예: 홍길동, 20세 → 홍씨, 20~30세

 

1.2 무결성과 레이크

1) 데이터 무결성

-데이터베이스 내의 데이터를 변경하거나 수정할 때 여러가지 제한을 두어 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장한다.

-데이터 무결성의 유형은 개체 무결성, 참조 무결성, 범위 무결성이 있다.

 

2) 데이터 레이크

-수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식(정형, 비정형)에 상관없이 데이터를 저장하는 시스템이다.

-대용량을 저장할 수 있고 쉽게 접근할 수 있다.

 

2. 빅데이터 분석 기술

2.1 하둡(Hadoop)

-여러 대의 컴퓨터를 하나로 연결하여 대용량 데이터를 처리하는 기술이다.

-분산파일 시스템(HDFS)을 통해 수 천대의 장비에 대용량 파일을 저장하는 기능을 제공하며, 맵리듀스(Map Reduce)로 HDFS에 저장된 데이터들을 SQL을 이용해 사용자의 요청을 실시간으로 처리할 수 있는 기능이 있다.

-하둡의 부족한 기능은 '하둡 에코시스템'으로 보완하여 다양한 솔루션을 제공한다.

 

2.2 아파치 스파크(Apache Spark)

-실시간 분산형 컴퓨터 플랫폼으로, 스칼라로 작성되어 있으나 자바, R, 파이썬, API를 지원한다.

-인메모리 방식으로 처리하기 때문에 하둡에 비해 처리속도가 빠르다.

 

2.3 스마트 팩토리(Smart Factory)

-공장 내 설비와 기계에 사물인터넷(IoT)이 설치되어 공정 데이터가 실시간으로 수집되고 데이터에 기반하여 의사결정을 한다. 따라서, 생산성을 극대화할 수 있다.

 

2.4 머신 러닝(Machine Learning)

-인공지능의 연구 분야 중 하나로, 인간의 학습 능력과 같은 기능을 컴퓨터에서 실현하고자 하는 기술이다.

 

2.5 딥러닝(Deep Learning)

-기계학습 기술 중 하나로, 많이 데이터를 이용해 사람처럼 스스로 학습할 수 있게 하여 인공신경망 등의 기술을 기반으로 구축한다.

728x90

댓글