번역기

(기계번역에서 넘어옴)

飜譯機
Translator

250px
존나 → 존 나 → John I
하지만 구글 번역기에서 번역하면 이렇게 나온다.[1]

1 기계 번역(Machine Translation)

컴퓨터가 주체가 되어 언어를 번역해 주는 프로그램. 사람이 번역하는 것을 컴퓨터가 보조하는 경우는 CAT(Computer-assisted translation)라고 한다.
참고로 일본쪽 번역기를 사용하면 해외 아이피(IP)를 막아둔 사이트도 거뜬하게 들어갈 수 있다. 기계번역 분야는 인공지능과도 관련이 깊다. 번역은 인공지능의 목표 중 하나였으며 지금까지 연구되는 주제이기도 하다.

한국어 위키백과의 일본 오타쿠 문화 관련 콘텐츠의 대부분도 일본어 위키백과에 있는 내용을 네이버 번역기에 돌려 포풍복붙한 형식인데, 이러면 저작권에도 위반된다고 한다. 저작물 본래의 저작권과는 별개로, 기계 번역을 통한 번역에도 저작권이 따로 들어가기 때문. 그렇게 따지면 니코니코 대백과의 내용 + 온갖 곳에서 가져 온 이미지가 널려 있는 이 곳, 나무위키도 저작권에서 자유롭지 못할 것이다

아직은 번역 수준이 어색해서 오역이 많지만 시간이 흐른다면 외국어를 배울 필요 없이 어느 나라 사람이건 간에 번역기를 통해 자유로이 대화하는 날이 올 것이다.

1.1 오역

컴퓨터 프로그램의 특성상 번역을 100% 완벽하게 할 수는 없기에 오역이 나올 수밖에 없다. 어떤 사람들은 현재의 번역기들을 「오역기」라고 비꼬아 부르기도 한다.

특히 구글 번역기로 일본어 번역을 하면 후반에 갈수록 번역이 안 되어 있다거나,[2] 충격과 공포의 단어가 나오기도 한다.[3]
대표적인 번역기의 작품으로 必要韓紙를 들 수 있다. 必要韓紙와 비슷한 예로는 , 팥고물, 뽕나무, 나막신, 진한개,[4] 징계나무, 이슬악어, 코스타리카의 압박, 한다는…, 간다, 짜응, 너님 등이 있다. 저는 출발새끼입니다[5]
또한 번역 성능은 차치하고서라도 동형이의어의 처리 문제도 있다. 특히 동형이의어가 많은 한국어에서 이 문제가 잘 나타난다. 예를 들어 「인도로 가다」라는 문장만 제시되면 그 문장의 '인도'가 사람이 다니는 길(人道)을 의미하는지 아니면 남아시아의 나라 중 하나인 인도(India, 印度)를 의미하는지 알 수 없다. 모든 번역기는 오역 앞에서 설설 길 것

또한 일반명사에서 따온 고유명사[6]의 경우 이것이 일반명사인지 고유명사인지 번역기는 알길이 없기 때문에 단어 뜻 그대로 번역하는 경우가 있다. 그래서 외국 회사의 홈페이지를 통째로 번역기로 돌린다면 내용을 이해하는 데 언어적 센스가 필요하다.

기계 번역의 특성상 번역 대상이 되는 언어간의 유사성에 영향을 크게 받는다. 어순같고 한자 단어를 공유하는 한일 번역은 80~90% 정도의 번역을 보이고 영어와 프랑스어 같은 경우도 상당한 번역율을 보인다.[7] 어순이나 문법상의 차이가 큰 한영 번역 같은 경우 종종 무슨 내용이진 알기 어려울 정도로 번역율이 떨어진다. 중국어의 경우도 어순이 다른 데다가 중국어의 의차와 음차를 뒤섞은 무자비한 현지화 표기까지 존재한다.[8]

번역기의 사용은 사실 대부분의 일본 오타쿠 계열 서브컬처를 선호하는 이들이 선호하는 방법으로, 이들은 일본 문화에는 관심이 있지만 일본어는 배우려는 의지가 없는 경우가 많다. 당장 '必要韓紙'라는 희대의 유행어를 만든 사람도 코에이 대항해시대 시리즈의 골수 유저지 않은가.(…) 이렇게 된 건 90년대 후반 문화개방 이후 오덕 계열 콘텐츠가 한국어로 정식 출판되는 경우가 많아져서 일본어를 굳이 안 배워도 덕질을 영위하는데 크게 지장이 없어졌기 때문이다. 그 이전부터 덕질을 하던 올드 오타쿠들은 일본어를 필히 배워야 했기 때문에 덕질을 위해 일본어를 배운 사례가 많았다. 번역기를 바탕으로 한 기계번역은 위에서 언급된 대로 완벽하지 못하기 때문에 글을 잘못 이해할 위험도 높다. JLPT N3 정도면 라이트 노벨 정도는 모르는 단어 찾아가며 읽을 정도가 되니, 일본어를 배우는 것이 좋다. 못 읽겠던데

알타비스타의 바벨피쉬는 충격과 공포를 선사했다. 알타비스타 만담기라고 부를 정도였다. 한동안 바벨피쉬를 이용한 개그가 유행한 적이 있다. 참고로 2013년 현재 위 짤과 같은 'How are you?'를 넣으면 '어떻게 지내세요'라고 정상적으로 번역한다.

유명한 번역기의 오역으로, Time flies like an arrow 를 오역한 "시간 파리는 화살을 좋아한다." 가 있다.

심지어는 日本날책으로 번역하기도 한다!

1.2 기계 번역기의 올바른 사용법

왈도체

기계 번역기는 개발 단계에서 기본적으로 '신문'과 같은 정형화된 문장을 기반으로 개발된다. 그렇기 때문에 맞춤법, 띄어쓰기, 문장부호(마침표, 물음표)들을 제대로 붙이고, 오타신조어도 고쳐서 표준적인 문장을 사용하면 번역률이 훨씬 나아지는 경우가 많다. 사실 위쪽의 必要韓紙같은 예도 「필요한지」로 제대로 맞춤법에 맞게 쓰면 번역 제대로 된다. 그리고 서로 다른 여러 개의 문장은 문장부호를 이용해 확실히 구분해줘야 한다.

줄임말은 가급적 풀어서 쓰는 것이 좋다. 또 우리말에서는 주어가 생략되는 경우가 많은데 생략하지 말고 써야 한다. (특히 영어와 같이 생략이 적은 언어로 번역하는 경우) 고유명사가 엉뚱하게 번역되는 경우가 있는데, 이럴 때는 A씨, B사, C단체 등의 단어로 치환해서 문장을 작성하면 정상적으로 번역되기도 한다.

짧은 문장 즉 아프거나 위치를 묻거나 주문하거나 하는 수준에서만 사용하는 것이 좋다.

1.3 번역기를 사용해선 안 되는 예

너무나 당연한 얘기지만, 번역기는 어디까지나 참고용으로, 외국어를 거의 알아들을 수 없을 정도이거나 외국어를 전혀 못 하는데 외국어로 보낼 수밖에 없을 상황에나 번역기를 사용한 문장을 사용하는 것이 바람직하다. 위에서도 언급하듯, 맞춤법 등을 제대로 지켜주지 않으면 심각한 수준의 오역된 문장이 나올 수 있으며, 설령 모든 요소를 완벽하게 갖춘 문장이라고 해도 번역기는 그 문장에 대한 완벽한 번역문을 제공해줄 수 없다. 다시 말해서, 번역기를 사용한 문장을 어디 공적인 데에 가서 쓰려고 하면 제대로 엿먹을 수 있다는 뜻이다. 따라서 다음과 같은 경우에는 번역기를 사용하면 모두의 웃음거리가 될 수 있다.

donga_com_20120820_225937.jpg
凉拌苦菊에서 凉拌은 무침, 苦菊는 루꼴라라는 뜻인데 凉를 추위, 苦를 쓰라림으로 번역한 듯 하다.

translate_server_error.jpg
대륙의 기상 시리즈 중 하나기도 하다.

파일:Fuck-the-duck-until-exploded.jpg
직역하면 '오리가 폭발할때까지 섹스하기'[9]수간?
중국의 번역기가 干자를 모조리 Fuck으로 번역해 버려서[10]이와 비슷한 일들이 생기는 것. (예시: 干菜类(마른 채소)→Fuck Vegetables채소 X까)

20131018000542_0.jpg
하지만 중국만 비웃을 건 아니다. 한식 메뉴판에도 이렇게 번역기를 엉뚱하게 돌린 사례는 얼마든지 있다.
생고기는 왜 raw meat가 아닌 lifestyle meat일까

파일:Translation-fail-2.jpg
아래 번역된 영어를 번역하자면, '남자 화장실은 당신을 오른쪽 계단에 매장합니다~'(...) 러시아식 번역

파일:20160916 203544.jpg
위는 일본의 사례다.

  • 숙제(…)
선생님께서 당신의 숙제가 번역기를 돌린 문장이란 것을 모를 것 같은가? 몇 가지 문법 상의 오류가 있는 문장과 번역기를 돌린 문장은 여러 면에서 차이가 난다. 먼저 기본적인 문장의 구조부터 어긋나는 경우가 생기며[11], 번역기가 동음이의어를 착각해버려 상황과는 전혀 어울리지 않는 단어가 갑자기 튀어나오기도 한다. 즉 안 하느니만 못한 엉터리 숙제를 제출하게 되므로 애초에 숙제는 스스로 하자. 어차피 시험 보면 다 뽀록나게 되어 있다. 가볍게 끝난다면 그냥 선생님한테 크게 혼나는 것으로 끝나겠지만, 학년이 올라갈수록 점점 자신한테 미치는 영향이 치명적이 되며, 대학교에서 이딴 짓하면 그냥 망했어요. 상위버전으로 보고서를 번역기를 써서 제출해 내면? 애초에 그 정도 됐으면 번역기를 쓰는 게 멍청한 짓이라는 것을 알겠지. 일부 경우 선생이 번역기 쓰라고 하는 경우도 있다. 십중팔구 선생이 귀찮을 경우….
일부 답변자들은 지식iN에서 활동할 때 번역해달라는 질문이 올라오면 곧바로 번역기를 돌려서 그걸 답변으로 올려 버리는데, 이 행위는 질문자뿐만 아니라 다른 답변자들한테도 폐를 끼치는 행위다. 일단 질문자는 제대로 된 답변을 기대하고 질문을 올린 것인데, 누군가가 말도 안 되는 문장을 가지고 온 주제에 뻔뻔하게 채택해달라고 하면 매우 불쾌하며 만약 질문자가 답변이 번역기인 줄 모른다면 상황은 더 심각해진다. 번역기를 사용한 문장을 어디에 써먹을지 모르기 때문이다. 예를 들어 전문적인 글이나 보고서를 작성하는 상황이었더라면 바로 아웃이 되는 거다. 물론 그 정도되는 질문자가 그걸 못 알아보겠냐마는 또한, 번역기를 사용하지 않은 제대로 된 번역가 답변자가 지식iN에는 널려 있다. 번역기를 써서 답변한다면 그들에게 제대로 된 답변을 할 기회도, 채택받을 확률도 앗아가는 것이 된다. 그러므로 지식iN에서 번역기를 써서 답변을 다는 것은 아무 성의도 없는 내공냠냠성 답변이랑 하나도 다를 바가 없다. 단 자신이 번역하지 않고 타인에게 부탁하는 거 자체도 문제가 된다. 너무 어려운 영어나 해석하기 뭣한 상황은 상관없지만 자신이 숙제를 안 하고 다른 사람들이 숙제하는 것과 다름없으므로.

1.4 유명한 번역기

1.4.1 알타비스타

바벨피쉬문서 참조. 구글번역 이전에 세계적으로 유명한 번역 서비스였다. 엉터리같긴하지만 그래도 인구어간 번역은 언어간의 구조적 유사성을 감안하면 그럭저럭 쓸만했었다고.

1.4.2 Google 번역

구글에서 제작한 구글 번역 문서 참조.

1.4.3 한미르 번역기

파란(포털)과 통합되기전 부터, 한국 웹상에서 최초로 한↔일번역 서비스를 실시했다는데 의의가 있다. 지금은 사라진지 오래.

1.4.4 네이버 번역기

네이버에서 제작한 네이버 번역기 문서 참조. 한↔일 번역서비스의 경우 초기부터 주력이었으며, 인조이재팬은 이를 커뮤니티에 적용해본 시도.

1.4.5 S 번역기

삼성전자에서 제작한 S 번역기 문서 참조. S 번역기를 제작한 회사는 구글 번역기를 만든 회사와 동일한 회사다.

1.4.6 빙 번역기

번역계 만악의 근원.

마이크로소프트에서 제작했다. 2013년 7월 현재 43개 언어를 지원한다. 기술문서 번역에서는 구글보다 좋은 결과를 보여준다. 이유는 방대한 MSDN 번역자료가 있기 때문이다.
트위터페이스북의 번역 기능이 바로 이 번역기 기반이다.
1440422666179.jpg
빙 번역기도 가끔 엉뚱한 오역을 범한다. 대표적으로는 프란치스코트위터에 'War never again! Never again war!'라고 쓴 것을 '결코 다시 전쟁! 결코 다시 전쟁!'이라고 출력하는 등의 사례가 있다. 교황님께서 십자군 전쟁을 원하신다! 2015년 12월 번역 결과도 그대로다.[12]

파일:BingBB.jpg
판사님 저는 웃지 않았습니다
그리고 初音ミク(하츠네 미쿠)가 이명박으로 변역된 적이 있다(...). 지금은 올바르게 수정되었다만, 저 단어 단독적으로 사용하면 정상으로 보이지만, 특수문자나 다른 수식어와 함께 사용하면 여전히 이명박으로 나온다.
더불어 도 특수문자와 수식어랑 같이 사용하면 박근혜로 나온다.(..)
2016년 현재 아직도 저러니 확인해보자(...). '初音ミク♥ヘ'
그리고 yi를 치면 이순신이 나온다.(...)

1.4.7 한 ↔ 일 전문 번역기

한때 NTransTalk로 대체되었다가 현재는 NTransTalk가 네이버 번역기로 흡수된것 같다.

야후 JAPAN에서 서비스하는 번역기로, 크로스랭귀지의 번역 엔진을 사용하는 서비스다.
한 ↔ 일/일 ↔ 한 모두 가능하며 번역 품질이 꽤나 좋다. 다만 유저 인터페이스가 일본어이기에 일본어에 익숙하지 않으면 사용에 난점이 있으며, 또한 2015년 겨울 이후부터는 야후 JAPAN 회원 계정이 있어야지만 세부 설정 기능을 사용할 수 있게 되었다.
번역 품질에 관련해서 독특한 부분을 한 가지 언급하자면, 띄어쓰기에 관련해서 상당히 철저하게 띄어쓰기가 이루어진 결과를 출력하도록 되어 있는 것이 특징. 다만 이것이 좀 지나쳐져 과잉 교정이 발생되는 일도 많아서, 붙여쓰기를 해야 자연스러운 단어나 문장이 될 수 있는 부분에 대해서도 일괄적으로 띄어쓰기를 적용한 결과를 출력하는 경향을 보였다. 이 때문에 가독성을 위한 배려라는 점에서는 훌륭하지만 그와는 별개로 기본적인 문장 구성에 있어서 기계 번역을 거친 티가 무언가 부자연스러움을 줄 정도로 확 나는 결과가 출력되는 일이 많았었던 편. 또한 꽤 철저하게 띄어쓰기가 이루어진다고는 하지만 역시 완전하지는 않은 편이기도 해서, 띄어쓰기를 해야 자연스러운 단어나 문장이 될 수 있는 부분에 붙여쓰기를 적용한 결과를 출력할 때도 역시 있었다.
라쿠텐포털 사이트인 인포시크에서 서비스하는 번역기로, 야후 JAPAN에서 서비스하는 번역기인 야후 JAPAN 번역과 마찬가지로 크로스랭귀지의 번역 엔진을 사용하는 서비스다.
한 ↔ 일/일 ↔ 한 모두 가능하며, 같은 회사의 번역 엔진을 사용하고 있기 때문에 번역 품질은 야후 JAPAN 번역과 크게 다르지 않다. 유저 인터페이스가 일본어이기에 일본어에 익숙하지 않으면 사용에 난점이 있다는 것도 동일. 띄어쓰기에 관련해서 상당히 철저하게 띄어쓰기가 이루어진 결과를 출력하도록 되어 있지만 그것이 좀 지나쳐져 과잉 교정이 발생되는 일 역시 많다는 것도 동일하다.
다만 자잘한 차이점도 있기는 한데, 대표적으로 회원 계정이 없이도 세부 설정 기능을 사용할 수 있다는 점을 들 수 있다. TLS 프로토콜을 사용하는 웹사이트(웹사이트 주소http가 아닌 https로 시작되는 곳들)는 번역이 불가능하다는 점도 야후 JAPAN 번역과는 다른 부분.
EZTrans 계열에 비해 번역 품질이 상대적으로 떨어진다.

1.5 번역 평가 방법론

1.5.1 필요성

번역기를 만들어 놓고 번역이 잘되는지 만족하는 것에 끝나지 않고 얼마나 번역이 잘 되는지에 대한 수치적 데이터가 필요하기 때문이다. 번역 알고리즘끼리 성능을 비교할 때 사용된다. 구글이 잘하냐 네이버가 잘하냐 빙이 잘하냐

1.5.2 사람이 직접 평가

가장 정확도가 높은 번역으로 실제로 얼마나 제대로 번역했는지 인간이 직접 평가하는 방법이다. 번역 문장을 직접 읽고 사용하는 주체는 결국 사람이므로 기계 번역의 목적에 가장 알맞은 평가 방법이라고도 할 수 있다. 대체로 번역의 대상인 문장과 이 문장을 번역한 문장을 보여준 다음, 번역된 문장이 번역의 대상이 된 문장을 얼마나 잘 번역했는지 5택하는 설문조사를 사용한다.
단점으로는 인간 자원은 많은 비용이 든다는 점과 평가 시간이 오래 소모된다는 점, 그리고 사람마다 평가하는 기준이 다르다는 점, 평가를 할 때마다 평가를 진행하는 사람들의 집단이 동일해야 한다는 점 등이 있다. 일부러 틀리게 설문을 제출하는 경우를 제외한다면...

1.5.3 자동 평가 방법

사람이 직접 평가하는 방법의 단점(돈, 시간, 객관성 등)을 보완하기 위해 컴퓨터가 번역의 정확성을 평가하기 위해 만든 알고리즘
사람이 번역한 문장(들)을 기준으로 하여 기계 번역한 문장을 평가한다. 사람이 번역한 문장이 100% 정답이라고 할 수 없는 경우가 많기 때문에 보통 여러 개의 기준을 두고 평가한다.

1.6 기타

한때 인터넷에 외계어가 유행할 무렵에 외계어 번역기[13]라는 것도 존재했다.

1.7 관련 문서

1.8 컴퓨터 보조 번역

CAT

번역기가 주체가 아니라 사람이 주체가 되고, 컴퓨터가 보조해주는 프로그램. 해당 문서 참조.

2 컴퓨터 용어

어떤 프로그래밍 언어로 쓰인 소스코드를 실행 가능한 프로그램으로 변환하는 프로그램. 언어 종류에 따라 컴파일러[15]도, 인터프리터[16]도 의미할 수 있다.
  1. 하지만 구글 번역기에서도 저렇게 나오던 시절이 있었다.
  2. 이건 오역과는 상관없는 문제다.
  3. 예를 들어 미도리바시역은 그냥 녹색 다리(...)역으로 나온다.
  4. "이 녀석"을 뜻하는 こいつ를 번역했을 때.
  5. 한글이 안 써진 한 웃대 유저가 번역기로 한글을 쓰다가 나온 웃대의 유행어. 다만 일부러 출발이라고 했을 가능성이 높다.
  6. 대표적인 예시로 영어권 회사명 등이 있다. 애플(Apple), 밸브(Valve), 윈도우(Windows) 등.
  7. 다만 위의 예시처럼 10% 정도의 오역도 전체 의미를 뒤바꿔 버릴 수 있어 주의가 필요하다. 뒤집어 말하면 문장의 10% 이상 오역으로 채워진다는 이야기다.
  8. 과거 엠파스가 한·중 웹번역을 서비스한 적도 있으나 번역률이 극악했다.
  9. 사실 문법조차 안 맞는게, 여기서 exploded는 it explodes가 되어야 맞다.
  10. 干자는 중국에서 Fuck이라는 뜻의 은어로 쓰이기 때문이다.
  11. 이는 한국어와 영어처럼, 문장의 기본 어순이 완전히 다른 언어 사이에서 자주 일어나는 현상이다.
  12. 참고로 구글 번역의 결과는 '전쟁 결코 다시! 다시는 전쟁!'(...)
  13. 번역기라기 보다는 변환기 수준. 유행이 지나간 지금은 사이트 폐쇄.
  14. 팬덤에서 덕수형 전용 번역기라는 타이틀(?)을 달고 있다.
  15. C, C++ 등.
  16. BASIC, 파이선같은 것.