27. 데이터 전환
데이터 전환 기술
데이터 전환
개념
- 기존의 원천시스템에서 데이터를 추출(Extraction)하여 목적시스템의 DB에 적합한 형식과 내용으로 변환(Transformation)한 후, 목적시스템에 적재(Loading)하는 일련의 과정
절차
데이터 전환 계획 및 요건 정의
프로젝트 계획
프로젝트 환경 구축
As-Is 시스템 분석
To-Be 시스템 분석
데이터 전환 요건 정의
데이터 전환 설계
Logical Mapping
Code Mapping
검증 규칙 정의
전환 계획 수립
데이터 전환 개발
전환 개발환경 구축
전환 프로그램 개발
검증 프로그램 개발
데이터 전환 테스트 및 검증
전환 검증 설계
추출 검증
변환결과 검증
최종 전환 설계
전환 인프라 구축
1~N 차 전환 검증
데이터 전환
최종 전화
안정화 지원
후속단계 데이터 전환
전환 완료 보고서 작성
필요한 이유
시스템 통합
사업 요구사항 확장
조직의 합병 & 인수 또는 축소
오래되거나 더 이상 제공되지 않는 소프트웨어 교체
신기술 도입(가상화, 클라우드 등)
성능 향상 & 안정성
ETL | Extraction, Transformation, Loading
개념
다양한 소스 시스템으로부터 필요한 데이터를 추출하여 변환 작업을 거쳐 깃 시스템으로 전송 및 로딩하는 모든 과정
데이터 웨어하우스 구축 시 데이터를 운영 시스템에서 추출하여 가공(변환, 정제)한 후 데이터웨어하우스에 적재하는 모든 과정
데이터에 대해서 필터링, 정렬, 집계, 데이터 조인, 데이터 정리, 중복 제거 및 데이터 유효성 검사 등의 다양한 작업이 포함
기능
추출 | Extraction : 하나 또는 그 이상의 데이터 소스로부터 데이터 획득
변환 | Transformation : 데이터 클렌징, 형식 변환 및 표준화, 데이터 통합
적재 | Load : 변형 단계의 처리가 완료된 데이터를 목표 시스템에 적재
작업 단계
Interface : 데이터 소스로부터 데이터를 획득하기 위한 인터페이스 기술 구현
Staging : 데이터 획득 작업 수행 후, 획득된 데이터를 스테이징 테이블에 저장
Profiling : 스테이징 테이블에서 데이터 특성을 식별하고 품질 측정
cleansing : 다양한 규칙들을 활용해 프로파일링된 데이터의 보정 작업을 수행
Integration : 데이터 충돌을 해소하고, 클렌징된 데이터를 통합
Denormalizing : 운영 보고서 생성, 데이터 적재를 위해 데이터 비정규화 수행
파일 처리 기술
순차 파일 | Sequential File
입력되는 데이터들을 물리적 공간에 순서대로 기록
변동사항이 크지 않고 일괄 처리를 주로 하는 경우에 적합
저장 구조상 순차 접근이 유리한 자기 테이프를 많이 사용
장점
기록 밀도가 높아 기억 공간을 효율적으로 사용
레코드가 키 순서대로 편성되어 취급이 용이
매체 변환이 용이
순서대로 처리할 경우 처리 속도 극대화
단점
레코드를 삭제, 갱신이 용이하지 않음
순서대로 하지 않을 경우 삽입, 삭제, 갱신을 위해 전체를 복사해야 함
순서대로만 검색해야 하므로 색인의 효율이 낮음
색인 순차 파일 | Indexed Sequential File
순차 처리와 랜덤 처리가 모두 가능하도록 레코드들을 키 값 순으로 정렬하여 기록하고, 레코드의 키 항목만을 모은 색인을 구성하여 편성하는 방식
색인을 이용한 순차적인 접근 방식을 제공하여 ISAM(Index Sequential Access Method)라고도 함
레코드를 참조할 때는 색인을 탐색한 후 색인이 가리키는 주소(포인터)를 사용하여 직접 참조
일반적으로 자기 디스크에 많이 사용되며 자기 테이프에서는 사용할 수 없음
구성
기본 구역 | Prime Area
- 실제 레코드들을 기록하는 부분으로, 각 레코드는 키 값 순으로 저장
색인 구역 | Index Area
- 기본 구역에 있는 레코드들의 위치를 찾아가는 색인이 기록되는 부분
- Track Index Area, Cylinder Index Area, Master Index Area로 구성
오버플로 구역 | Overflow Area
- 기본 구역에 빈 공간이 없어서 새로운 레코드의 삽입이 불가능 할 때를 대비하여 예비적으로 확보해 둔 부분
장점
순차 처리와 랜덤 처리가 모두 가능하므로 목적에 따라 융통성 있게 처리
효율적인 검색이 가능하고 레코드의 삽입, 삭제, 갱신이 용이
단점
색인 구역과 오버플로 구역을 구성하기 위한 추가 기억 공간이 필요
파일이 정렬되어 있어야 하므로 추가, 삭제가 많으면 효율이 떨어짐
색인을 이용한 액세스를 하기 때문에 액세스 시간이 랜덤 편성 파일보다 느림
직접 파일 | Direct / Random File
데이터 레코드를 액세스할 경우 그 레코드가 보관되어 있는 주소를 직접 지정하는 방법
특정 레코드에 접근하기 위해서 디스크의 물리적 주소로 변환할 수 있는 해싱 함수를 사용
장점
접근 시간이 빠름
레코드의 추가, 삭제의 경우 파일 전체의 복사가 필요 없음
단점
데이터 레코드와 그 보관장소의 대응이 어려움
기억 공간 효율이 저하되고, 연속적, 전체적인 검색이 거의 불가능
데이터 전환 수행
계획
범위
전환 대상의 상세 내용과 데이터 형식 그리고 대상 건수 까지 파악하여 명시
필요에 따라서는 전환 제외 대상도 기록
일정
- 팀별 업무를 분장하여 팀별 역할과 납기를 기록
절차
현행(AS-Is) 시스템에서 목표(To-Be) 시스템으로 데이터 전환을 위한 단계를 구분하고 각 단계별 작업 내용과 사용되는 도구를 별도로 기록
원천 DB의 데이터는 백업 후 변환 작업 수행
전환 시 작업 내용
추출: 전환 대상 데이터의 추출 작업
정비: 추출된 데이터의 정보
전환: As-Is 데이터 추출 SAM 파일을 To-Be SAM(Target SAM) 파일로 변환
적재: To-Be SAM(Target SAM) 파일을 To-Be DB에 적재
검증: 추출, 변환, 적재 단계별로 데이터 검증
체크 리스트
데이터 전환 수행 범위 확인
사전 준비 단계
사전 준비
- 환경 구성 및 점검
- 제반 준비사항 식별 및 점검
- 수작업 업로드 데이터 & 스크립트 취합
전환 단계
현행 시스템 마감
- 현행 업무 마감
- As-Is 시스템 마감 및 시스템 Cut-Off
데이터 전환
- 수작업 업로드 이관
- 본이행 전환(추출, 변환, 적재)
- 전환 후속 작업(인덱스 생성 및 통계)
데이터 점검
- 전환 데이터 검증
- 전환 데이터 보완(후속 SQL 수행)
시스템 전환
- 조작 동기화 및 각종 시스템 연동 작업
- 시스템 최종 환경 점검 및 기동
상세 체크리스트 작성
사전 준비
운영 환경에 대한 설정 및 점검
전환 환경에 대한 사전 점검
DB 상태 점검 수행
데이터 전환
수작업 테이블 이관
데이터 추출, 변환, 적재 수행
인덱스 리빌드, 권한 재설정
데이터 점검
전환 검증 요건 항목 검증
후속 SQL 작업
데이터 검증
전환 프로그램을 실행하고 전환 결과 검증
전환 프로그램의 정상 동작을 확인
데이터 전환 계획서와 체크리스트에 따라 전환 결과 검증
전환 단계 별 전환 결과 검증
추출 후
- 현행 시스템에서 최초 원시 데이터에 대한 검증 수행
변환 후
매핑 정의서에 정의된 내용을 프로그램에 정확히 반영하였는지 확인
매핑 정의서 오류 여부 확인
매핑 프로그램 오류 여부 확인
매핑 조건과 상이한 경우의 존재 여부 확인
적재 검증
- 적재 과정에서 발생할 수 있는 오류 및 데이터 누락 및 손실 여부 확인
데이터 적재 후 검증
- 데이터 전환의 최종 단계 완료에 따른 정확성 확인
데이터 전환 완료 후 검증
- 추가 검증 과정을 통하여 데이터 전환의 정확성 검증
데이터 전환 결과 보고서 작성
데이터 전환 결과를 분석
분석 결과를 반영한 결과 보고서 작성
데이터 정제
품질 관리 대상 및 품질 지표
데이터 품질 관리 대상
데이터 값
데이터 현상적 값
데이터 구조적 값
데이터 구조
각 단계별 데이터 구조
각 조직 단위별 데이터 구조
데이터 관리 프로세스
데이터 정의 프로세스
데이터 변경 프로세스
데이터 평가 프로세스
데이터 품질 지표
정확성 : 실세계를 정확히 반영
일관성 : 동일 데이터 간 불일치 미존재
유용성 : 요구되는 데이터 충족
접근성 : 원하는 데이터를 손쉽게 이용
적시성 : 최신성 유지
보안성 : 내외부 요인으로부터 데이터 보호
데이터 품질 관리 프레임워크
| 유형 | 데이터 값 | 데이터 구조 | 데이터 관리 프로세스 |
|---|---|---|---|
| CIO / EDA개괄적 관점 | 데이터 관리 정책 | ||
| DA개념적 관점 | 표준 데이터 | 개념 데이터 모델데이터 참조 모델 | 데이터 표준 관리요구사항 관리 |
| Modeler논리적 관점 | 모델 데이터 | 논리 데이터 모델 | 데이터 모델 관리데이터 흐름 관리 |
| DBA물리적 관점 | 관리 데이터 | 물리 데이터 모델데이터베이스 | DB 관리DB 보안 관리 |
| User운용적 관점 | 업무 데이터 | 사용자 VIEW | 데이터 활용 관리 |
CIO | Chief Information Officer : 최고 정보화 임원
EDA | Enterprise Data Administrator : 전사 데이터 관리자
DA | Data Administrator : 데이터 관리 책임자
DBA | Database Administrator : 데이터베이스 관리자