썸네일 3과목 : 03 정형 데이터마이닝 데이터마이닝 - 기업이 보유하고 있는 일일 거래 데이터, 고객 데이터, 상품 데이터 혹은 각종 마케팅 활동에 있어서의 고객 반응 데이터 등과 이외의 외부 데이터를 포함하는 모든 사용가능한 원천 데이터를 기반으로 감춰진 지식, 기대하지 못했던 경향 또는 새로운 규칙 등을 발견하고 이를 실제 비즈니스 의사결정 등에 유용한 정보로 활용하는 일련의 작업 - 데이터마이닝 5단계 - 목적 정의 : 데이터 마이닝 도입 목적을 명확하게 함 - 데이터 준비 : 데이터 정제(Cleaning)를 통해 데이터의 품질 확보까지 포함 > 필요시 데이터 양 충분하게 확보 - 데이터 가공 : 목적 변수를 정의하고, 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있게 가공 및 준비하는 단계 > 충분한 CPU와 메모리, 디스크 ..
썸네일 3과목 : 02 통계분석 01.통계 기본 용어 1 - 모집단 : 데이터의 전체 집합 - 모수 : 모집단의 특성을 나타내는 수치들 - 모집단의 평균(𝝁), 분산(𝝈2) 같은 수치들 - 표본 : 모집단의 개체 수가 많아 전부 조사하기 힘들 때 모집단에서 추출(sampling) 한 것 - 모집단의 특성을 알기 위해 표본을 추출함 (오차 발생) => 추론(inference) - 통계량 - 표본의 특성을 나타내는 수치들 - 표본의 평균, 분산(s2) 같은 수치를 통계량(statistic)이라고 함 - 모집단에 대해 알고자하는 값을 모수라고 하고, 모수를 추론하기 위해 구하는 표본의 값들을 '통계량' 이라 함 통계량 문제 (22회) 02.통계 기초 용어 2 - 표본점 - 어떤 행위를 했을 때 나올 수 있는 값 - 주사위 굴리는 행위를 했다..
썸네일 3과목 : 01 R기초 A.그래프 Boxplot 해석 1. 중위수는 상자의 선으로 표시되며 데이터 중심의 일반적인 측도로, 관측치의 절반은 이 값보다 작거나 같고 절반은 이 값보다 크거나 같다 2. 사분위 간 범위 상자는 데이터의 중간 50%를 나타내며, 제1사분위수와 제3사분위수 값을 거리를 보여준다 3. 수염은 상자의 양쪽에서 연결되며, 특이치를 제외하고 데이터 값의 하위 25%와 상위 25%를 범위를 나타낸다 4. 상자박스는 그룹간 분포 차이를 비교할 수 있으며, 그 차이는 통계적으로 유의미함을 보일 수는 없다 5. 상자그림은 그룹 간 분포 차이를 비교할 수 있다 6. 상자그림에서 IQR은 제3사분위수 - 제1사분위수를 의미한다 - IQR(InterQuartile Range)로 표시하며 확률분포, 또는 자료값의 산포도를 ..
썸네일 2과목 : 데이터의 분석 기획 01 분석의 4가지 유형 분석 대상을 알면 OS 모르면 ID 로 암기하자 - 최적화(Optimization) : 분석 대상 및 분석 방법을 이해하고 현 문제를 최적화의 형태로 수행함 - 솔루션(Solution) : 분석 대상 알고, 분석의 방법을 모르는 경우 솔루션을 찾는 방식으로 과제 수행 - 통찰(Insight) - 분석의 대상(WHAT)을 모르고 하는 분석 방법(HOW)의 경우 분석 방향 (16회) - 분석 대상을 모르나 기존 분석 방식을 활용해 분석 (18회) - 발견(Discovery) : 분석 대상을 모르고, 분석 방법도 모르는 경우 발견을 통해 대상을 새로 선정하는 것 Insight를 찾는 객관식 (17회) 통찰, 발견을 찾는 객관식 (18회) Solution찾는 객관식 (21회) 02 목표..
썸네일 1과목 : 데이터 이해 01 정량적, 정성적 데이터 - 정량적 데이터 - 지역별 온도,풍속, 강우량과 같이 수치로 명확하게 표현되는 이것은 데이터의 양이 크게 증가하더라도 이를 관리하는 시스템에 저장, 검색, 분석하여 활용하기가 매우 용이함 - 도형, 기호, 숫자의 데이터 - 정성적 데이터 - 기상특보와 같이 언어, 문자 등으로 기술됨 - 비정형 데이터 형태로 저장, 분석에 시간과 비용이 필요함 - 받침의 여부! 정량적 - 도형, 기호, 수치로 표현 정성적 - 언어, 문자로 표현 정량적 데이터 주관식 문제로 출제 (16회) 정량 데이터의 종류가 아닌 것 찾기 (19회) - 문자는 정량 데이터 아님! 정성적 데이터에 속하는 것 찾기 (20회) - 기상특보 02 지식경영 데이터 - 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의..
썸네일 [SQLD 자격증] 1과목 | 성능 데이터 모델링, 정규화, 반정규화 설명 & 문제풀이 성능 데이터 모델링 데이터베이스의 성능 향상을 위해 분석/설계 단계부터 성능과 관련된 사항이 데이터 모델링에 반영되도록 하는 것 데이터의 증가가 빠를수록 성능 개선 비용이 증가함 설계단계부터 고려할 경우 비용 최소화가 가능함 성능 데이터 모델링 순서 데이터 모델링 시 정규화를 정확히 수행함 데이터베이스 용량을 산정함 데이터베이스에 발생하는 트랜잭션 유형을 파악함 용량과 트랜잭션의 유형에 따라 반정규화를 수행함 이력모델, PK/FK 조정, 슈퍼타입/서브타입 조정을 수행함 정규화 vs 반정규화 정규화 데이터를 분해하는 과정 데이터의 중복을 최소화하고, 유연성을 가지며, 변경을 최소화하고, 데이터가 일관될 수 있도록 하는 방법이다. 제 1~5정규화가 있지만, 주로 1~3 정규화까지 수행함 반정규화 정규화를 했..
썸네일 [SQLD 자격증] 1과목 | 관계, 식별자 ERD(Entity-Relationship Model) 하나의 엔터티는 1개 이상의 관계를 가져야함 (통계성, 코드성 엔터티 제외) 관계의 구분 : 행위에 의한 관계, 존재에 의한 관계 >> ERD에서는 두 관계를 구분없이 동일한 표기법으로 표현함 (단, 클래스다이어그램에서는 구분하여 연관관계와 의존관계로 실선과 점선의 표기법으로 다르게 표현함) 두 개의 엔터티 사이에서 관계를 도출할 때 체크하는 사항 관심있는 연관규칙 여부 정보의 조합 여부 업무기술서, 장표에 관계연결을 가능하게 하는 동사 여부 업무기술서, 장표에 관계연결에 대한 규칙 서술 여부 ERD 작성순서 엔터티 도출 & 그리기 엔터티 배치 ( 가장 중요한 엔터티를 좌측 상단에 배치, 추가 발생하는 엔터티는 우측과 하단에 배치 ) 엔터티 간의 관..
썸네일 [SQLD 자격증] 1과목 | 데이터모델의 이해, 엔터티, 속성 관계형 데이터베이스 권한 받기 데이터 구조 정의 데이터 변형 데이터 조회 DCL (Data Control Language) DDL (Data Definition Language) DML (Data Manipulation Language) GRANT : 권한 부여 CREATE : 구조 생성 INSERT : 데이터 입력 SELECT : 조회 REVOKE : 권한 회수 ALTER : 구조 변경 UPDATE : 데이터 수정 DROP : 구조 삭제 DELETE : 데이터 삭제 RENAME : 이름 변경 TRUNCATE : 테이블 초기화 데이터 모델링의 특징 추상화 : 현실세계를 일정한 형식에 맞춰 표현하기 위함 정확화 : 누구나 이해할 수 있도록 현상을 기술 단순화 : 복잡한 현실을 이해하기 쉽게 제한된 언어와 ..
썸네일 [SQLD 자격증] 2과목 | 옵티마이저 JOIN 설명 & 문제풀이 조인 문제 한 테이블 내에서 연관관계를 가진 두 컬럼 간의 조인 서로 연관된 컬럼이 없을 경우 수행하는 조인 정답 SELF JOIN >> 테이블 명과 컬럼명이 모두 일치하기 때문에 꼭, ALIAS를 써줘야한다. SELECT T1.col1 , T2.col1 FROM 테이블명 T1, 테이블명 T2 WHERE T1.col1 = T2.col1 ; CROSS JOIN 옵티마이저 조인(Optimizer Join) Nested Loop JOIN 선행 테이블(외부 테이블, Driving Table)을 먼저 조회하여 연결 대상 데이터를 찾고, 그 다음 테이블(내부 테이블)을 연결함 먼저 처리되는 데이터의 양 - 선행 테이블(외부테이블, Driving Table)의 처리범위에 따라 처리량이 결정됨 선행 테이블의 크기가 작..
썸네일 [SQLD 자격증] 2과목 | 테이블 파티션, 옵티마이저, 인덱스 설명 & 문제풀이 테이블 파티션 대용량의 테이블을 여러개의 데이터 파일에 분리하여 저장하는 것 물리적으로 분리된 데이터 파일에 저장되어 입력/수정/삭제/조회 성능이 향상되고, 독립적 관리가 가능 조회의 범위를 줄이는 효과가 잇어 성능이 향상됨 RANGE PARTITION 값의 범위를 기준으로 파티션을 나눠 저장하는 방법 ex. 매출액이 50000이상인 레코드와 미만인 레코드를 별도로 저장 LIST PARTITION 특정 값을 기준으로 분할 ex. 특정 값이 100일 때와 250일때 각각 다른 데이터파일에 저장 HASH PARTITION 데이터베이스 관리 시스템이 자체적으로 해시함수를 사용해 분할하고 관리하는 방식 옵티마이저 SQL 실행계획을 수립하고, SQL을 실행하는 데이터베이스 관리 시스템의 소프트웨어 같은 SQL문이..
썸네일 [SQLD 자격증] 2과목 | WINDOW 함수 전체 설명 & 문제풀이 WINDOW 함수 레코드(행) 사이의 관계를 쉽게 정의하기 위한 함수 ex) 매장이 위치한 지역별로 판매량 1위를 차지하는 매뉴명을 알고싶을 때 사용 SELECT WINDOW_FUNCTION ( ARGUMENTS ) OVER ( [PARTITION BY 컬럼명] [ORDER BY 컬럼명] [WINDOWING] ) FROM 테이블명 ; WINDOW_FUNCTION : 윈도우 함수 그룹 내 집계함수 : COUNT, SUM, MIN, MAX, AVG 등 그룹 내 순위(RANK) 함수 RANK : 동일한 순위에 대해 동일한 순위를 부여한다., 동일한 순위를 하나의 건수로 계산하지 않는다. DENSE_RANK : 동일한 순위에 대해 동일한 순위를 부여한다., 동일한 순위는 하나의 건수로 계산한다. ROW_NUMB..
썸네일 [SQLD 자격증] 2과목 | 계층형 조회 설명 & 문제풀이 계층형 조회 : 트리형태의 데이터에 대해 조회를 수행하는 것 문제 정답 12/11/12 계층형 조회문제는 조회를 통해 어떻게 레코드가 재배치 되는지 파악하는 것이 중요 시작점 잡기 재배치 기준 문제 정답 13/12/13 계층형 조회문제는 조회를 통해 어떻게 레코드가 재배치 되는지 파악하는 것이 중요 시작점 잡기 재배치 기준 SQLD 목차 바로가기 SQLD 과목 목차 링크 1과목 데이터 모델링의 이해 (10문항 출제) 데이터 모델링의 이해 데이터모델링의 이해, 엔터티, 속성 관계, 식별자 데이터 모델과 성능 성능 데이터 모델링, 정규화, 반정규화 설명 & 문제풀이 SQLD 2과목 SQL 기본및 활용 (40문항 출제) SQL 기본 관계형 데이터베이스 개요 및 DCL(GRANT, REVOKE) 설명 & 문제풀..