OCR

컴퓨터 관련 정보

OCR 프로그램 중 가장 성능이 좋다고 알려진 ABBYY FineReader 11. 개인용은 30만원 정도.^[1]

OCR (optical character recognition). 한국어로 풀자면 광학식 문자 판독. ~~타이핑알바들의 주적~~

보통 컴퓨터가 이진법(0/1) 데이터를 폰트를 통해 인간이 인식할 수 있는 형태로 글자를 보여준다면, OCR 은 그 반대로 인간이 종이위에 써 놓은 글씨를 인지하여 텍스트 데이터로 치환한다. 보통은 스캐너로 읽어들인 이미지 파일을 분석하여 텍스트나 워드 파일로 결과물을 내놓는다. Adobe Acrobat도 OCR 기능이 있다.

이미 존재하는 (한글과 영문)폰트와 대조하는 식으로 이미지를 인식하므로, 적어도 300dpi 이상의 해상도에 필기체보단 정자로 또박또박 잘 쓴 글씨가 인식률이 더 높다. 물론 이전에 프린터로 인쇄했던 폰트라면 가장 잘 인식 된다.

나라별로 은근히 인식률이 차이가 있다. 그냥 한줄로 쭈죽 쓰는 영어 및 서유럽 언어가 가장 연구가 진행되어 있어서 인식률이 매우 뛰어나다. 어지간한 영문서는 99.5% 제대로 인식된다고 보면 된다. 휘갈겨쓴 필기체의 인식률도 뛰어난 편이다. 반면 한글, 한자, 가나 같은 문자는 모양이 복잡하기도 하고 연구투자도 서양에 비해 미진한 편이기 때문에 더 높은 해상도로 스캔하거나 하지 않으면 오자율이 상당하다. 손으로 쓴 한글이 특수문자로 변환되는 건 아주 흔하다. 특히, 표나 그림이 들어간 문서의 경우 인식률이 최악으로 달리게 된다. 또한 한글의 경우 모양이 비슷한 글자가 있어서 결과물이 야민정음으로 나오는 경우도 있다(...) 실생활에 쓰이는 문서(이력서나 공문서)가 소설책같이 글자만 있는 것은 아니므로 안그래도 떨어지는 인식률이 바닥을 달리게 된다. 우리나라의 오래된 행정문서들이 수백년 역사를 가진 미국에서 진행중인 작업보다 느리게 디지털화 되고 있는 이유이기도 하다.

그중에서도 한자는 특히 인식률이 시궁창. 그 특성상 모양이 복잡하고 비슷하게 생긴 글자도 많아서(土士, 間閒, 鳥烏, 梧悟, 人入 , 流硫, 扁篇, 日本曰本 등) 잘못 인식되는 경우가 허다하다. #

그래도 예전에 비해 인식률이 많이 올라간 상황이다. 물론 100% 믿지는 말 것. 원본 이미지는 보관하는 게 신상에 좋다.

네이버랩(네이버는 서비스 종료했다)이나 기타 회사에서 웹을 통해 OCR 프로그램/서비스를 제공하고 있는데, 아무리 그래도 신뢰도 높은 고가의 프로그램/장비들보단 기능이 떨어지는편이다.

대한민국 여권에 영문 이름을 적어 넣을 때도 1차적으로 OCR을 사용하는 것으로 보인다. KIM이 KTM으로 잘못 적히거나 PARK이 RARK으로 잘못 적히는 문제는 OCR이 아니라면 일어날 수 없는 문제이다. OCR을 뜬 뒤 직원이 글자가 잘못 인식된 것을 미처 발견하지 못하고 여권을 발급하면 저렇게 된다.

모바일용 구글 번역에서는 OCR을 이용한 번역을 지원한다. 인식률은 매우 괜찮은 수준. ~~근데 웃긴건 한자 투성이 일본어를 한글보다 잘 인식한다~~ ~~그거야 당연히 일본어 사용도를 생각하면...~~

우체국에서도 OCR을 이용해 주소를 판독한다고 한다. 89년도 부터 도입이 시작됐던 모양. 지금은 손글씨도 어느정도 인식 가능하다고 하는데 추가바람

최근 OCR 앱이 나오면서 스마트폰으로 사진을 찍고, 바로 문서로 변환할 수 있게 되었다. 영어 원서는 어느 앱이나 인식률이 높다. 한글은 'TextGrabber + Translator'의 성능이 괜찮다. FineReader를 만든 ABBYY에서 만든 앱으로 가격은 11,000원이다. 몇 년 전 OCR을 생각하면 훌륭하지만, 오타가 많아서 손으로 일일이 수정해야 하는 것은 변함없다. 라틴어나 독일어, 베트남어 등 악센트가 있는 언어는 'Office Lens'를 추천한다. 마이크로소프트에서 만들어 무료로 배포하는 앱으로, 악센트 인식률이 훌륭하다.

↑ ABBYY FineReader 12로 2016년 수능특강 물리2를 스캔한 모습 파일:ABBYY수능특강.png 그러나 이처럼 한글과 수식이 섞인 문서를 인식하려고 하면 어김없이 깨지는 모습을 보인다. 사실 인식 후 문서의 양식을 유지해준다거나 이미지 밑에 문자를 숨겨서 검색만 가능하게 해준다거나 하는 부가기능이 유용한거지 인식기능이 엄청나게 차이나지는 않는다.

[1] ABBYY FineReader 12로 2016년 수능특강 물리2를 스캔한 모습 파일:ABBYY수능특강.png 그러나 이처럼 한글과 수식이 섞인 문서를 인식하려고 하면 어김없이 깨지는 모습을 보인다. 사실 인식 후 문서의 양식을 유지해준다거나 이미지 밑에 문자를 숨겨서 검색만 가능하게 해준다거나 하는 부가기능이 유용한거지 인식기능이 엄청나게 차이나지는 않는다.

[1]