인공지능 빅데이터 : AIDE 데이터 전문가 2급 자격증
인공지능과 빅데이터
빅데이터란?
빅데이터 Bigdata
- 대량의 정형, 비정형 데이터로 부터 가치를 추출하는 기술
빅데이터란?
- 대량의 모든 데이터 : 컴퓨터, 인터넷 등 디지털 환경에서 발생하는 데이터
- 데이터의 가치와 결과분석 기술 : 데이터의 관리에서 데이터를 분석하여 가치 창출하는 기술
- 빅데이터 플랫폼의 등장 : 데이터를 관리하는 하드웨어, 소프트웨어, 어플리케이션의 등장
- 대규모의 데이터 관리 기술 : 데이터를 저장, 관리, 분석하는 하드웨어, 소프트웨어, 유통, 활용 기술
대량의 데이터 발생 - 기존의 정형 데이터에서 비정형 데이터로 많은 데이터가 발생 중
2015년 기준 1분 동안 데이터 발생량
- 구글 2,000,000건 2백만 건 데이터 검색
- 유튜브 72 시간 비디오 생성
- 트위터 720,000건 72만 건의 트윗 생성
빅데이터의 특징
초기 빅데이터는 규모(Volume), 다양성(Variety), 속도(Velocity)으로 3V이였다
추후에 정확성 Veracity (4V) -> 가치 Value (5V) 가 되었다.
다양성 Variety
- 정형(Structured) 데이터 : 구조화된 데이터, 고정된 필드에 저장된 데이터(데이터베이스, 엑셀, CSV)
- 반정형(Semi-Structured)데이터 : 고정된 필드는 아니지만, 스키마를 포함, 연산불가(XML, HTML, JSON 등)
- 비정형(UnStructured)데이터 : 고정되지 않은 데이터, 연산불가, 형태없음(소셜 데이터, 영상, 음성, 이미지)
인공지능과 데이터의 상관관계
인공지능은 학습하기 좋은 데이터(라벨링)가 필요
데이터는 인공지능 학습을 위한 가공(전처리)가 필요
인공지능의 성능향상을 위하여서는 양질의 데이터가 충분히 제공되어야 한다.
데이터 라벨링이란?
데이터 라벨링 Data Labeling
인공지능 모델학습을 위한 데이터를 기계가 이해 할 수 있는 형태로 가공
데이터셋 이란?
데이터셋 Dataset
인공지능 학습을 위해 필요한 데이터를 모아놓은 자료의 집합
인공지능 데이터 개인정보 취급시 주의사항
개인정보의 경우 가명(익명)정보화를 통하여 구분할 수 없도록 처리하여야 한다.
EX)
- 이름 : 홍길동 -> 이도현(가명)
- 나이 : 39세 -> 30세 후반 (범주화)
- 전화번호 : 010-1111-1111 -> 010-0000-0000 (마스킹 처리)
- 주소 : 서울시 00로 00시 1289번지 -> 서울시 00로 00시(자세한 주소 부분삭제)
- 직업 : 모기업 마케팅 팀장 -> 마케팅 종사자
- 급여 : 900만원 -> 800 ~ 1000 (범주화)
-AIDE 2급 자격증 과정-
댓글남기기