DA

데이터 표준화 개념

da-dba 2023. 7. 24. 15:28

1. 단어 개념

정의

  • 사전적으로 일정한 뜻을 가지는 말의 최소 단위를 의미하며 데이터 표준을 위한 단어는 엔터티명, 속성명, 컬럼명 등을 구성하기 위한 최소의 의미 단위
  • 자주 사용되거나 2 이상의 단어가 결합하여 새로운 의미를 가지는 경우  복합어도 단어로 인정
  • 표준 단어를 근간으로 분류어, 도메인, 표준 용어 등을 생성하고 표준화 범위에 해당하는 논리적 데이터 요소와 물리적 데이터 요소를 구성하기 위해 사용

항목

설명

단어 논리명(표준단어)

 유사한 의미를 가지는 단어들 중 대표가 되는 단어

 일반적으로 자주 사용되는 단어를 표준으로 지정

 특수문자를 포함하지 않으며 띄어쓰기를 하지 않음

단어 물리의미(단어 영문명)

 단어의 첫 자리의 알파벳은 대문자로 하고 나머지 부분은 소문자로 하며, 영문 단어 간에는 띄어쓰기 함.

 단어 논리명에 대한 Full Name으로 작성

단어 물리명(단어 약어)

 통상적으로 사용되는 약어는 약어를 사용

 영문 약어 사이에 공백이나 기타 문자열을 포함하지 않음

 모음을 제외한 자음의 결합으로 가급적 4자리 이내로 정의하며 최대 8자로 정의함

동의어

 표준 단어와 동일한 의미를 가지면서 다르게 표현되는 단어를 작성(비표준으로 설정됨)

분류어

 표준 단어가 표준 도메인의 분류어인 경우, “속성분류어“에 체크

    - 속성분류어 : 용어 생성 시 제일 뒤에 붙는 단어로 실제 데이터 값의 형식(데이터 타입)이나 의미를 유추할 수 있게 구성되는 단어

설명

 사용자가 데이터의 의미를 가장 잘 이해할 수 있도록 업무 관점에서 범위와 자격 요건을 명시

 데이터 사용자가 데이터의 의미를 잘 이해할 수 있도록 관련 업무를 모르는 사용자 입장에서 기술

 

예시

단어

단어물리의미

단어물리명

동의어 (비표준)

COUNT

CNT

개수, 건수, 횟수

금액

AMOUNT

AMT

NAME

nm

성명, 호칭

수수료

FEE

FEE

TOTAL

TOT

총계, 합계

RATE

RT

비율, 요율

 

2. 도메인 개념

정의

  • 도메인은  속성의 특징을  나타낼  있도록 데이터의 성격을 분류한 것으로 코드 도메인을 제외
  • 데이터 타입과 길이를 제한
  • 물리 모델링 단계에서 DBMS 맞는 데이터 타입으로 매핑
구분 종류 내용
도메인 번호 도메인  시스템에서 동일하게 쓰이는 번호에 대해 타입과 의미, 명칭을 부여한다.
 번호 도메인 앞에 수식어가 붙을 수 있다. 인포타입은 1개 존재한다. (예: 민원접수번호, 계좌번호, 카드번호, 주민등록번호 등)
그룹 도메인  금액, 수량, 날짜 등과 같은 데이터로서 수식어가 붙어서 완전한 의미로 사용
 같은 데이터 타입을 쓰면서 길이가 틀린 경우가 많음(다양한 인포타입 존재) (예: 가입금액, 청구금액 등은 동일 금액 도메인이지만 다른 데이터 타입 사용 가능 , 숫자(15,0), 숫자(18,0)가 가능)
공통코드/
목록코드
코드 도메인  값이 정의된 코드성 정보의 경우 코드 도메인으로 관리
 동일한 인스턴스를 가지는 코드 도메인에 대해 코드 도메인 앞에 수식어를 붙여 사용가능. 인포타입은 1개 존재한다. (예: 상품권상태코드, 국가코드 등)
항목 설명
도메인 그룹  성격이 유사한 도메인들을 그룹화 해서 관리하는 관리 단위 (예 : 들면 금액, 날짜, 내용, 율 등의 도메인 그룹이 존재하며, 금액 도메인 그룹의 하위에는 금액, 가격, 세액 등의 도메인이 존재)
도메인명 • 용어에서 사용되는 데이터 성격을 나타내는 것
 용어를 명명할 때 사용
도메인영문명(물리명) • 도메인명에 부여된 영문명
데이터유형  도메인이 가지는 논리적 데이터 타입
데이터길이  도메인이 가지는 데이터 길이

도메인 예시

도메인 그룹 도메인명 도메인영문명(물리명) 데이터유형(길이)
금액 금액 AMT NUMERIC(15,3)
금액 금액 AMT BIGINT(12)
날짜 등록일시 REG_DTM VARCHAR(20)

공통코드 / 목록코드 예시

오너시스템 코드분류명 코드명 코드ID 도메인영문명(물리명) 데이터유형(길이)
고객(CST) 코드 상품구분코드 PRD028 PRD_GBN_CD VARCHAR(4)
주문(ORD) 코드 릴레이캐시백순번별지급금액 ORD625 RELAY_CAK_SEQ_BY_GIV_AMT VARCHAR(50)
통합보험 코드 상품구분코드 PRD028 PRD_GBN_CD VARCHAR(4)

3. 용어 개념

정의

  • 표준 용어는 표준 단어와 조합규칙을 이용하여 구성함으로써 완전한 의미로 사용됨
  • 표준 용어의 사용 목적에 따라 명명규칙 지정하는데 속성으로 사용된 용어  명명규칙을 준수한 대상들은 향후 표준 용어로 등록
  • 일반적으로 속성은 “(주제어)+수식어+분류어  형태로 구성

 

항목 설명
용어논리명 (표준항목명)  도메인이 용어에 맨 끝에 위치하도록 표준단어를 조합하여 명명
영어물리명 (항목영문명) • 영문명은 실제 DB에 생성될 컬럼명으로서, 표준단어의 조합에 의해 자동으로 생성
 영문명의 최대 길이는 28자로 한다. 단, 20자 이내로 작성할 것을 권장
도메인명 • 용어에서 사용되는 데이터 성격을 나타내는 도메인
 용어 생성 시 제일 뒤에 붙는 단어로 시작하는 도메인 자동 생성
데이터 유형 • 도메인이 가지는 논리적 데이터 타입
길이 및 소수점 • 도메인이 가지는 데이터 길이 및 소수점
설명 • 사용자가 데이터의 의미를 가장 잘 이해할 수 있도록 업무 관점에서 범위와 자격 요건을 명시해야 하고, 데이터 명칭만으로는 사용자에게 전달하기 어려운 기타 사항들을 전달하는 역할
 데이터 사용자가 데이터의 의미를 잘 이해할 수 있도록 관련 업무를 모르는 사용자 입장에서 기술
정의만으로 의미 전달이 어려운 경우 발생 데이터 값의 예시나 공식 등을 기술

예시

용어논리명 (표준항목명) 영어물리명 (항목영문명) 도메인명 데이터 유형(길이 및 소수점)
SMS발송요청시작일자 SMS_SND_REQ_STR_DT 일자 VARCHAR(8)
TMS연동번호 TMS_LINK_NO 번호 BIGINT(5)
VIP시나리오상태코드 VIP_SNRIO_ST_CD 코드 INTEGER(5)