데이터

천상전대 고세이저에 등장하는 메카에 대해서는 데이터스 문서를 참조하십시오.

1 일반적인 뜻

Data[1]는 라틴어 단어 Datum의 복수형인 Data에서 유래했으며 라틴어에서 Datum의 뜻은 "present/gift, that which is given, debit" 이다. 현재에서도 기본적으로는 복수형 취급을 하나 가끔 하나의 고유명사화가 되어서 단수로 취급하는 경우도 있다.

1. 이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료.
2. 관찰이나 실험, 조사로 얻은 사실이나 정보.
3. 컴퓨터가 처리할 수 있는 문자, 숫자, 소리, 그림 따위의 형태로 된 정보.

2 연구방법론에서의 용어

연구에 직간접적으로 이용되는 일체의 정보들. 어떤 연구의 결과가 얼마나 유용할지는 그 자료의 질적 적절성이 중요하다. 또한, 연구에 필요한 정보들을 수집하는 과정을 가리켜서 자료수집이라고 부른다. 자료수집에는 사례연구법(case study), 질문지법(survey), 참여관찰법(observation/participation), 면접법(interview), 실험법(experiment) 등이 있다.

자료는 크게 1차 자료와 2차 자료로 나누어볼 수 있다. 1차 자료란 연구자가 연구문제의 해결을 목적으로 현장조사(field investigation)를 통해 직접 수집한 자료를 의미한다. 장점으로는 직접적인 신뢰도와 타당도 평가가 가능하다는 것이 있지만, 단점으로는 시간과 예산이 많이 소요된다. 2차 자료란 현재 수행중인 연구목적을 위해 수집된 것은 아니지만, 어쨌든 현재 수행중인 연구목적에 도움을 줄 수 있는 모든 자료를 의미한다. 기존에 존재하는 자료이고 타인의 1차 자료에 속하기 때문에 아무래도 더 저렴하고 신속하게 수집하는 것이 장점이다. 그러나 2차 자료는 현재 수행중인 연구목적과 부합하는지, 측정과 그 척도는 적절한지, 정의는 호환이 가능한지 일일이 따져봐야 할 필요가 있다.

자료의 종류는 흔히 4가지로 구분되는데, 약간의 언어유희를 담아 LOTS라고도 부른다. lots of data 이를 각각 설명하자면 다음과 같다.

  • L-자료 : 생애 데이터. 한 대상의 통사적 정보를 알 수 있는 자료이다. 특히 특정 개인을 대상으로 한 임상 장면에서 많이 쓰인다. 생활기록부, 범죄이력, 신용정보, 졸업증명, 병력조회 등등이 이에 해당한다. 객관화된 자료이지만, 이용에 한계가 존재한다.
  • O-자료 : 관찰 데이터. 숙련된 관찰자 혹은 대상을 잘 아는 관계자, 친지 등이 제공하는 자료이다. 면접법, 참여관찰법 등을 통해 얻을 수 있다. 주변 사람들의 증언이나 CCTV 영상 자료 역시 O-자료에 속한다.
  • T-자료 : 검사 데이터. 실험적 절차를 거치거나 표준화된 검사를 통해 얻어진 데이터이다. 대중매체에서 과학자 인물들이 손에 들고 있는 도표들도 대부분 이것. 가장 객관적이고 질 좋은 자료이지만, 현실적으로 접해보기는 그다지 쉽지 않다. 게다가 자료를 확보하는 과정에서의 연구윤리 문제도 개입된다.
  • S-자료 : 자기보고 데이터. 어떤 대상에 대한 정보를 얻을 때 그 대상에게 직접 물어보아 얻은 자료이다. 당연히 사람을 대상으로 하므로, 그 분야는 심리학이나 사회학 등에 한정될 수밖에 없다. 그러나 매우 흔하게 접할 수 있는 자료로, 흔한 설문조사여론조사 등을 통해 얻어진다. 이따금 사회과학 분야의 학부 지인들이 돌리곤 하는 이상야릇한 구글독스 설문지도 S-자료를 얻기 위한 방편이다. "사람은 자신이 자신을 제일 잘 안다" 는 전제에 기초해 있으며, 사회적 선망에 의해 답변이 왜곡될 수 있다.

한편 이와 별개로 사회통계에서는 자료의 측정을 기준으로 자료를 4개로 나누니 참고하자.

현대에 들어서 기술이 발전하면서, 더 이상 기존의 분류법으로 설명하기 힘든 자료들이 속속 나타나기 시작했다. 대표적인 것으로는 뇌파(EEG) 검사결과 자료 같은 것이 있다. 그리고 같은 대상을 연구하더라도 자료의 종류에 따라 결과가 서로 다르게 나오기도 한다.[2]

3 컴퓨터 관련 용어

전산학, 컴퓨터공학에서가 아닌, 컴퓨터 사용자들이 사용하는 용어로 프로그램에 부속된 파일, 특히 사용자가 해독할 수 없는 형태의 이진 파일을 데이터라고 부른다.

보다 학술적이면서 포괄적인 의미로 컴퓨터에 의해 특정한 방법으로 처리되거나 해석될 목적으로 순서를 가지고 나열된 기호(Symbol)가 모여있는 것을 뜻한다.

데이터는 수치화된 크기/규모(Magnitude), 갯수(Quantity), 문자, 또는 컴퓨터에 의해 해석되어 처리되거나 다른 기계, 다른 컴퓨터를 제어할 수 있는 명령어를 나타내는 심볼 등을 뜻하며, 보통 자기 저장매체(플로피디스크, 하드디스크, 카세트 테이프, 오픈릴 테이프, DAT, OMR카드 등), 메모리 저장매체(RAM, ROM, 플래시 메모리, SSD 등), 광학 저장매체(CD, DVD, 블루레이, OCR카드, 펀치카드 등), 기계적 저장매체 등에 저장되며 전기 신호의 형태로 전송될 수 있다. Datum 은 특정 장소에 저장된 단일 값을 뜻한다.

디지털 데이터에서는, 디지털 시스템이기 때문에 당연히 최소 정보 구분 단위가 비트(Bit)이지만, 실제로는 효율성과 편의성을 위해 입출력을 위한 최소 크기는 비트 8개의 모임인 바이트(Byte)나, CPU가 한 번에 처리할 수 있는 워드(Word) 단위가 된다.

프로그램은 컴퓨터가 해석하여 실행할 수 있는 명령을 나타내는 심볼 데이터의 모임이다. 근본적으로 컴퓨터라는 기계는 데이터의 형태로 표현된 일련의 명령어에 따라 동작하도록 설계되었다. (여기에 혁혁한 공을 세운 사람이 바로 앨런 튜링이다.) 사실상 프로그램에서 실행이 되는 명령어(= 코드)와 직접 실행이 되지 않는 부분이 저장되는 형태나 방식이 완전히 동일하다. 따라서 다른 기계나 컴퓨터를 제어할 때, 정보를 통신하는 방법이 하드웨어적으로 한 가지만 존재해도, 직접 실행되는 부분과 부가적인 부분이 동일하게 표현되기 때문에, 이론상으로는 문제 없이 이것들을 제어하는 프로그램을 만들 수 있다.

프로그래밍에서 컴퓨터가 실행하는 명령어 부분을 Text 라고 부르고, 프로그램이 참조하는 숫자 값, 이진 값, 또는 문자 값, 변수 등이 저장되는 부분을 Data 라고 구분하기도 한다. 어셈블리어유닉스에서 이와 같이 구분하는 것을 볼 수 있다.

사실 데이터와 데이터가 아닌 것의 경계는 명확하지 않다. Python 같은 인터프리터를 예로 들면, 사용자가 직접 입력하거나 디스크에 미리 입력된 일련의 Python 명령어 모음은 인터프리터 자체의 입장에서는 입력받은 데이터이다. 확장자가 *.py 인 디스크에 저장된 Python 프로그램 파일은 그 자체로 디스크에 기록된, 텍스트로 이루어진 데이터 파일이다.

이러한 모호함은 프로그램을 데이터로 취급하는 메타 프로그래밍에서도 발견된다. 컴파일러를 사용하는 많은 언어에서 컴파일 시점에 코드를 데이터로 취급하여 최적화를 수행하고, 인터프리터로 동작하는 LISP은 아예 "Code is data, data is code." 라는 기본 설계 이념이 존재하며, 소스 코드 수준에서부터 코드와 데이터가 동일하게 표기된다. 여기에 코드를 데이터로 취급하는 매크로라는 강력한 메타 프로그래밍 도구를 제공한다. 그 밖에 프로그래밍에서 사용하는 링커, 디버거 등도 프로그램 코드를 데이터로 취급한다.

공학자나 개발자가 아닌 일반 컴퓨터 사용자가 사용하는 프로그램 중에 데이터와 데이터가 아닌 것의 경계가 모호한 대표적인 프로그램으로 컴퓨터 바이러스를 진단하여 치료하는 안티 바이러스가 있다. 안티 바이러스의 입장에서는 자기 자신을 포함한 모든 다른 프로그램이 진단 대상이 되는 데이터이다. 심지어 메모리 안에 로딩되어 실행중인 프로그램도 안티바이러스 한테는 데이터로 취급된다.

4 스마트폰 데이터

스마트폰으로 인터넷을 이용할 때 나가는 요금을 간단히 데이터라고 말하는 경우가 많다. 이 경우 보통 데이터가 나간다고 표현한다.

여담이지만 스마트폰으로 문서를 볼 때 문서가 전부 로딩 되었다면 다음 문서로 가기 전 까지 데이터를 꺼도 현재 문서는 문제없이 읽을 수 있다. 그러나 애석하게도 우리가 흔히 사용하는 것은 데이터라고 하지만, 이에 대한 종류는 매우 다양한 편이다. 세부 기술 내용은 아래의 문서들을 참조.

5 스타 트렉의 등장 인물

데이터(스타 트렉) 문서 참조.

6 관련 문서

  1. 데이터 혹은 데이타 등으로 불리는데, 옛날에는 데이타로 많이 표기했고 외래어 표기법으로는 데이타가 맞으나 현재는 데이터가 대세. 국립국어원표준국어대사전에는 데이로 표기했다.
  2. 가장 대표적인 것이 바로 S-자료와 T-자료의 불일치이다. 예를 들어, 많은 노인들은 대체로 자신이 성공적인 노년기를 보내고 있다고 굳게 믿지만, 막상 실험이나 검사를 해 보면 안타까울 정도로 여건이 좋지 않은 분들이 굉장히 많다. 이에 대해서는 성공적 노화 문서도 함께 참고.