티스토리 뷰

비싸고 느리며 만족스럽지 못한 인식률이 걸림돌이었던 OCR 솔루션들

기술용어로서의
OCR(Optical Character Recognition)은 '광학식 문자 인식'라고 풀어쓴다. 문자 인식 기계로서 OCR은 Optical Character Reader의 줄임말로 '광학식 문자 판독기'라고 부른다. 일반적으로 문서를 이미지 스캐너로 읽어 텍스트로 변환시키는 기술 또는 기기를 전반적으로 일컬어 부르는 용어다.

OCR은 주로 인쇄된 종이에 쓰인 글자 인식에 활용되는데, 이를 활용하여 번역이나 TTS(Text To Speech), 텍스트 마이닝(검색) 등에 사용되기도 한다. 핵심기술은 패턴인식인데, 얼마나 인쇄된 폰트를 잘 인식하느냐는 것이 품질의 관건이다.

OCR의 역사는 우리의 생각보다 길다. 이미 문자 인식에 대한 특허는 1929년에 나왔다. 연구소나 기업 등에서 대형 컴퓨터를 통하여 수행되던 것이 PC와 이미지 스캐너의 보급으로 우리 가까이 사용되기 시작한 것은 이미 20년이 넘었다.

해외에서 먼저 연구가 시작된 OCR 기술은 영어인식을 위주로 개발되었으며, 우리나라에는 90년대 초반에 한글 문자 인식 소프트웨어가 실험실 수준으로 개발되어 일반에 소개되었었다. 연산처리 능력이 뛰어난 워크스테이션급에서 동작되던 것들이 개인용 컴퓨터의 처리 능력이 업그레이드 되면서 PC용 OCR들이 시장에 속속 나타나던 것이 90년대 중반이었다.


OCR은 광학 스캐너가 필수적이다. 불과 10여년 전만 하더라도 이미지 스캐너는 상당히 고가의 IT 기기였다. OCR 소프트웨어 역시 아주 고가에 판매되었다. 하지만 기술의 발전으로 개인용 및 사무용 프린터가 양산되고 스캐너와 복사 기능이 합쳐진 복합기의 등장으로 스캐너는 많이 저렴해졌다. 그렇지만 여전히 OCR 소프트웨어는 비싼 편이다.

OCR 솔루션의 성공 가능성은 스스로에게 달려있다. 초창기 OCR 솔루션들은 폰트의 종류나 크기, 인쇄용지 재질 등 제약된 조건을 만족해야만 하며 인식률이 낮았다. 인식에 소요되는 시간도 상당히 길었다. A4 한 페이지를 인식하는데 2~3 분씩 걸리던 시절도 있었다.

시간이 걸리는 것은 인식 속도의 문제이므로 프로세서 성능의 향상으로 더 빨라질 수 있지만, 문자를 인식하는 패턴 인식 기술은 그야말로 핵심기술의 보유와 발전으로만 가능하다. OCR 소프트웨어가 고가이면서 솔루션 벤더가 한정된 이유이기도 하다. 패턴 인식과 인식 속도는 기술의 영역에서도 난이도가 높다.

러시아 ABBYY(애비[각주:1])사가 만든 한글 OCR 솔루션, FineReader(파인리더)

국내에도 몇몇 종류의 한글 OCR 솔루션들이 오래전부터 시장에 공급되고 있었고 현재도 판매되고 있다. 이들은 한글이라는 언어의 특수성 때문에 해외 솔루션에 비해 한글 인식면에서 조금 더 장점이 있는 것으로 소개되는 제품들이며, 복합기 제품의 번들 형태로 제공되는 경우가 많다. 하지만 OCR 소프트웨어에 대한 일반인의 관심은 많이 떨어진다. 전문적인 활용도가 떨어지며, 인식률 등이 사용자의 만족도를 채워주지 못하기 때문이다.


현재 인터넷을 통해 한글을 인식할 수 있는 OCR 솔루션을 찾다보면 가장 눈에 많이 띄는 제품이 바로 ABBYY FineReader 제품이다. ABBYY는 러시아 모스크바에 본사를 둔 세계적인 문자 인식 및 언어 변환 솔루션 전문업체다. ABBYY는 2010년 한국에 진출했는데, FineReader 10으로 한글화된 첫 제품을 출시했고, 올 11월에는 업그레이드된 FineReader 11을 발표했다.

ABBYY사의 FineReader는 ADRT®(Adaptive Document Recognition Technology, 적응형 문서 인식 기술)이라는 자체 기술을 통해 페이지 단위가 아닌 전체 단위로 문서를 분석하고 처리할 수 있다. 이 기술을 이용하면 서식과 하이퍼링크, 이메일 주소, 머리글, 바닥글, 이미지, 표 캡션, 페이지 번호, 각주 등 원본 구조가 그대로 유지된다고 설명하고 있다. 실제 사용해 보면 이 기술로 인해 거의 원본 그대로로 변환할 수 있다.

다국어 처리 전문 기업답게 FineReader 11은 영어, 한국어, 중국어, 일본어 등을 비롯하여 전세계 189개국 언어를 자동으로 탐지한다. 189개국어라면 웬만한 지구상의 문자는 대부분 인식이 가능하다고 볼 수 있다. ABBYY사가 OCR 외에도 데이터 캡처와 언어처리를 전문으로 하는 기업이기에 가능한 일이다.

FineReader는 현재 버전 11이 나와 있으며, 개인용 Professional Edtion과 기업용인 Corporate Edtion으로 구분된다. 기업용 버전에는 명함 리더를 통해 종이 명함을 전자 연락처로 변환하는 기능을 포함하고 있다. 그 외에도 동시 사용자 등 네트워크 기능을 지원하는 것 같다.


FineReader 11의 주요 기능은 처음 구동시키면 바로 알 수 있다. 프로그램을 동작시키면 바로 (빠른) 작업 메뉴를 만날 수 있는데, 여기에는 다섯 가지 작업 유형을 보기 쉽게 나열해 놨다. 스캐너로 읽은 이미지를 Word로 변환하는 기능, 이미 존재하는 이미지나 PDF파일을 Word로 변환, 검색 가능한 PDF로 스캔, 사진을 Microsoft Word로 변환, 일반 이미지 스캔 및 저장하는 기능으로 크게 구분할 수 있다. 가장 일반적인 기능이 바로 스캐닝을 통한 텍스트 변환(Word)일 것이다.

- 직관적인 인터페이스와 뛰어난 문자 인식률

 

FineReader 11의 사용자 인터페이스(UI)는 직관적이어서 이해하기 쉽다. 빠른 작업 각각의 의미만 이해한다면 나머지는 쉽게 처리할 수 있는 수준이다. 스캐너를 일반적인 권장 설정에 두고 스캔만 하면 그 다음부터는 자연스럽게 진행된다. 물론 복합기나 전용 스캐너 연결이 되어 있어야만 작업이 가능하다. 프로그램을 설치할 기기는 반드시 스캐너가 없어도 되지만 가능하면 스캐너가 연결된 컴퓨터 사용을 권장한다. 정품키 등록을 할 때 컴퓨터의 정보가 기록되는 것으로 보이기 때문에 컴퓨터 변경은 번거로울 것으로 보인다.

버전 11부터는 더 빠른 스캐닝을 위해 흑백 모드를 별도 지원한다. 빠르게 글자만을 추출해 내고 싶을 때는 흑백 모드는 컬러에 비해 약 30% 정도 빠르게 처리가 가능하다. 일반적인 문서인식의 경우 300dpi의 회색조 환경에서 가장 스캔이 잘 된다. 작은 글자의 경우 해상도를 600dpi 이상으로 높이면 효과가 있다.

이미지는 페이지 방향 검색과 맞붙은 페이지를 분할해주는 기능도 되는데, 책의 경우 인식시킬 페이지를 스캔하는 방향[각주:2]이 달라 각각 홀수 페이지와 짝수 페이지가 반대로 스캔되는데 이를 자동으로 방향을 맞춰주는 기능과 두 페이지가 한번에 스캔되면 자동으로 나눠주는 기능이 된다.


이미지 영역은 그대로 남겨두고 글자는 별도 녹색 박스로 구분하여 인식에 들어간다. 그림에 보듯이 본문 내용 외에도 페이지, 하단 주석 또는 바닥글도 별도 인식한다. 변환된 텍스트 문서는 원본의 프레임을 거의 유지한채 결과를 보여주게 된다. 이 기술이 ABBYY가 자랑하는 ADRT라는 기능이다.

만일 FineReader가 인식한 글자와 이미지 영역이 원본과 다르다면 사용자가 별도 지정을 통해 이미지 영역과 텍스트 영역을 지정할 수 있다. 영역을 새로이 지정하고 나서 다시 인식시키면 더 정교한 인식 결과를 얻을 수 있다. 그러나 일반적인 문서라면 별도 수동 작업을 거치지 않아도 대부분 쉽게 이미지 영역과 텍스트 영역으로 구분할 것이다.

이미지 편집 메뉴에 들어가면 기울기 보정 기능이 있어 두껍거나 디지털 사진으로 된 텍스트의 이미지 왜곡을 수정할 수도 있으며, 사진 보정, 사다리꼴 왜곡 수정, 회전, 분할, 자르기, 반전 등 웬만한 이미지 편집 기능도 모두 제공된다. 좀 더 정교한 변환 처리를 위해서는 이미지 편집을 적극 활용하면 좋을 것 같다.


스캐닝이 끝나면 바로 내장된 사전을 이용한 문자 인식 과정으로 넘어간다. 이때는 단순히 글자뿐만 아니라 전체 문서의 구조를 분석한 다음 이미지와 텍스트, 표, 캡션, 주석, 머리글 등으로 구분하여 문서의 구조를 그대로 표현해 준다. 왼쪽은 이미지, 오른쪽은 문서 인식 및 텍스트 변환 페이지로 구분되어 보다 쉽게 이해할 수 있는 상태가 된다.

텍스트로 변환된 페이지는 인식된 글자와 함께 하늘색으로 표시된 불확실한 문자 강조 및 맞춤법 오류를 표시해준다. 그러나 불확실한 문자로 표시되어도 대부분 정확하게 인식한 것들이다. 공백과 특수 문자 등도 불확실한 문자로 표시되는데, 좀 더 정확한 교정을 위해 검증을 실행시키면 인식한 문자를 교정할 수 있다. 하지만 거의 손볼 정도가 없을 수준으로 인식이 되어 있다.


 

대부분의 불확실한 문자는 무시 처리할 정도로 인식률은 상당히 뛰어났다. ABBYY는 FineReader 11의 영어 인식률은 99.8%, 한글은 국내외에서 가장 인식률이 높은 96%라고 자랑하고 있는데, 실제 사용해봐도 과장된 표현은 아닌 것 같다. 몇몇 문서를 인식시켜봐도 영어는 거의 손댈 필요가 없을 정도로 인식률이 높았고, 한글도 상당히 만족스러운 품질을 보여줬다.

스캐닝한 문서를 Word로 바로 보내봤다. 교정을 볼 필요가 없을 정도로 인식률은 뛰어났다. ABBYY사에 따르면 한글화 작업을 시작한지 2년 정도되었다고 한다. 한국진출과 함께 시작된 것 같다.

 

(예제1)


* 첨부한 문서는 일체 수정을 거치지 않고 바로 문자 인식 결과 그대로를 Word로 저장한 것이다.


실제 높은 문자 인식률을 확인하기 위해 NIPA(정보통신산업진흥원)에서 계간으로 발간하는 Mobile Trend Magazine 가을호의 기사 섹션 하나를 인식시켜 보았다. 이미지와 도표, 글자가 섞여있는데, 도표의 경우 선이 아닌 바탕색으로 구분한 것을 제대로 인식하지 못한 것을 제외하면 글자 인식률은 아주 높게 나왔다. 띄어쓰기를 제외하고는 나무랄데 없을 수준의 결과를 보여줬다.

회색조가 아닌 컬러로 일간신문 한 코너를 변환해 봤다. 이미지 영역 일부를 문자 영역으로 인식하여 이를 재조정만 했고 바로 변환시켜 보았다. 결과는 상당히 놀라웠다. 일부 띄워쓰기는 맞지 않았지만 틀린 글자는 몇 개만 나왔다. 모두 간단한 수준의 오자들이었는데, 예를들면 담벼락의 '락'자가 '릭'자로 잘못 인식되었을 정도가 전부다. 글자를 조금만 더 크게 처리했더라면 인식률은 높아졌을 것이다.

 


(예제2)


* 2011년 11월 25일자 영남일보 Weekly 4u의 여행 섹션을 스캐닝한 결과다. 문자 인식 결과 그대로 보정없이 Word로 저장한 것이다.


OCR 솔루션은 언어의 변환율이 상당히 중요하다. 한글이든 영어든 원하는 언어의 변환 정확도가 제품 만족도로 직결될 중요한 요소인데, FineReader 11은 기대 이상의 결과를 보여줬다. 리뷰 전에 걱정되었던 한글 인식 부분은 예전에 경험해 보았던 OCR 수준을 확실히 뛰어 넘었다.

- 다양한 포맷의 문서로 저장 가능한 FineReader 11

 

스캔된 페이지들은 Word 외에도 다양한 문서 포맷으로 저장이 가능하다. 구 Word 버전(Word 97부터 2003버전까지), Excel, PowerPoint는 물론 PDF파일과 OpenOffice.org의 Writer 문서로도 저장이 가능하다. PDF와도 유사한 DjVu(데자뷰) 포맷으로의 저장도 지원한다.

일반적인 텍스트 문서 외에도 HTML로의 변환도 지원되며, 전자책 포맷인 EPUB와 FB2로의 변환은 최근 인기를 끌고있는 전자책 출판에 영향을 받은 것 같다. 시중에 판매되는 전자책 리더는 대부분 EPUB와 FB2 포맷을 지원하기 때문에 FineReader 11을 더욱 유용하게 활용할 수 있게 되었다.

문서 보내기 대상에는 PC에 설치된 Word, Excel, PowerPoint, PDF Reader와 웹브라우저 외에도 가장 인기있는 전자책 리더인 Kindle로 보내기도 지원한다. Kindle을 구매하면 Amazon의 Kindle.com에 계정을 만들 수 있는데, FineReader 11로 만든 전자책 파일을 자신의 Kindle 계정으로 보낼 수 있다. Kindle 사용자는 이렇게 변환된 전자책을 Kindle에서도 읽을 수 있게 된다. 다만 손쉽게 Kindle 계정으로 보내기 위해서는 FineReader 11이 설치된 컴퓨터에 아웃룩 메일 보내기가 가능해야 한다.

Kindle로의 전자책 보내기는 아직 우리나라에서는 큰 의미가 없어 보인다. 제품은 아직 정식으로 수입 판매되고 있지 않으며, 이는 한글 전자책 콘텐츠가 부족하기 때문인 것 같다. 국내 전자책 업체들과 제휴를 통해 더 많은 기기 지원이 따른다면 좋을 것 같다.

- PDF 파일과 디지털 이미지도 변환 가능

 


PDF를 Word 파일로 변환하기를 원하는 사용자라면 FineReader 11은 나름 괜찮은 솔루션이 될 수 있다.[각주:3] 높은 문자 인식률을 기반으로 도표와 이미지를 포함한 복잡한 문서도 거의 그대로 변환이 가능하기 때문이다. 편집할 필요가 있는 PDF 문서의 경우 FineReader 11을 이용한다면 부담이 많이 줄어들 것이다.

FineReader 11에 포함된 기능 중에 여행을 자주 다니며 사진 찍기를 즐기는 사람에게 반가운 기능이 하나 있다. 바로 디지털 사진을 Word로 변환하는 기능이다. 디지털 사진을 텍스트로 변환하는 기능을 가지고 있는데, 나름대로 유용하다.

 

취미 생활 혹은 자녀와 함께 문화 답사라도 나가는 부모라면 문화재나 유적지에 대한 설명이 적혀있는 안내판(혹은 안내문) 사진 촬영 경험이 있을 것이다. 나중에 확인할 요량으로 적혀 있는 내용을 디지털 카메라로 촬영해서 남기는 경우가 많다.

자녀가 답사한 곳에 대한 내용을 적기 위해 집에 돌아와 컴퓨터에 앉아 사진에 촬영된 안내문을 확대해서 직접 보면서 글로 옮기는 경우가 종종 있다. 이때 사진만 있으면 FineReader 11은 글자만을 추출해 줄 수 있다. 필요한 경우 이미지 편집을 통해 보정하고 나서 인식시키면 더 나은 품질을 기대할 수 있다. 인식률이 뛰어나고 한글, 영어, 중국어 등을 자동으로 인식하여 충분한 품질의 결과를 내놓는다.

(예제3)

* 사진의 안내문은 소수서원의 선비촌 안 전시물 중 하나였으며, Word 파일은 스캔 후 전혀 보정을 하지 않은 상태다.



해당 포스트의 FineReader 11에 대한 리뷰는 모든 기능을 소개하지 않았다. OCR 솔루션을 자주 사용하지 않는 비전문가의 입장에서 봤을 때, 눈에 띄고 흥미로운 것만을 위주로 소개하였다. 제품은 ABBYY사 홈페이지를 직접 방문하면 시험용 버전을 받아 사용해 볼 수 있다. 본사 홈페이지에서도 가능하고 한국 총판 업체 다운로드 페이지도 괜찮다.

시험버전 다운로드 : http://www.retia.co.kr/download  


개인용 Professional Edition은 400MB나 되는 큰 프로그램이다. 약간의 인내심을 가지고 다운로드 받아야 한다. 실제 본 리뷰의 내용에 공감할 수 있는지는 실제 OCR 프로그램을 동작시켜 결과를 보면 알 수 있을 것이다. 15일간 50번 이라는 제약이 있긴 하지만 제품을 체험하는데는 충분할 것으로 생각된다.

다시 보게 되는 한글 OCR 솔루션, ABBYY FineReader 11

개인적으로 OCR 솔루션에 대한 부정적인 인식은 오랫동안 지속되었었다. 무엇보다 비싼 가격에 놀랐었다. 이미 10여년 전에 PC용 제품 하나가 100만원에 육박했던 기억이 있다. 회사에서 종이 문서를 디지털화 하기 위한 프로젝트로 고가의 스캐너 장비와 함께 OCR 솔루션을 사용해본 적이 있었는데, 당시 한글 인식률이 90% 이하 수준[각주:4]에 머물러 있었고, 인식 속도가 엄청 느렸었다. 이미지는 아예 포기해서 별도 스캐닝 작업으로 붙여 넣었던 기억이 있다.

당시 OCR 솔루션은 일반 기업에 보편화되지 않았었고, 개발단계에 있는 제품들이 상용화되는 수준이었으며, 공급사가 한정되어 선택을 할 수 있는 여지도 거의 없었다. 어쩔 수 없이 글을 입력하는 작업에 비해 작업량을 줄일 수 있다는 판단으로 사용했었는데 한 장을 스캐닝하면 몇 분 정도는 오자와 띄어쓰기를 교정하는 작업이 따랐다. 그래도 많은 도움이 되었지만 분명 효율성이 떨어졌고, 가격은 부담스러웠던 것이 사실이었다.

이처럼 OCR에 대해 별로 좋지 않았던 기억이 남아 있었기 때문에, 그 동안 몇몇 스캐너 또는 복합기를 구입할 때마다 번들로 따라 다녔던 OCR 솔루션들은 크게 관심이 없었다. 사용상의 제한이 걸린 OCR 프로그램들은 흥미로 몇 번 스캐닝한 것들이 대부분이었다. 사용해보면 여전히 나아진 것이 없었고, 비싼 금액을 주고 살만한 가치가 없었다는 판단이 바로 내려졌기 때문이다.

그렇게 한동안 잊고 있었던 OCR 솔루션을 리뷰라는 기회로 갑자기 써보면서 그 사이에 엄청난 발전이 있었음을 알게 되었다. 그것도 국내 기업이 아닌 러시아 기업이 만든 솔루션이라는 점에서 더욱 놀라지 않을 수 없었다. 한글화 2년만의 수준이라고는 믿기 어려운 수준으로 제품이 출시되었다. 

예전에 비해 더 빨라진 컴퓨팅 환경에 복합기(스캐너)의 성능도 좋아졌고 저렴해졌다. 솔루션의 가격도 여전히 개인이 구입하기엔 다소 부담이 있는 것은 사실이지만, 그래도 많이 저렴해졌다.

OCR을 이용해서 문자 인식이 필요한 경우라면 FineReader 11은 추천할만한 솔루션이라고 할 수 있겠다. 특히 한글 인식률은 상당히 마음에 든다.

* ABBYY의 OCR 솔루션은 국내 '레티아'라는 업체가 독점 공급하고 있다. 레티아는 모바일 기기의 필기 문자 인식 전문 기업인 디오텍의 OCR 사업부에서 분사한 자회사다. 리뷰 제품인 FineReader 11 Professional Edition은 37만원, Corporate Edition은 75만원에 판매되고 있다. 홈페이지를 방문해 보니 ABBYY사는 FineReader 11 외에도 PDF 변환 소프트웨어, 사전, Mac용 제품, 스마트폰용 명함 인식기 App 등도 판매하고 있다.

* 12월 31일까지 타사 OCR솔루션 사용자를 위한 40% 할인 행사를 하고 있다. 37만원 Professional Edition 제품을 22만 2천원에 구입할 수 있다. http://shop.retia.co.kr/goods/content.asp?guid=1893&cate=0

* 리뷰와 테스트를 위해 ABBYY사는 본인에게 FineReader 11 Professional Edition 1 copy를 무상 제공하였다. 

* 리뷰 제의를 할 때 ABBYY사 담당자는 제품의 단점도 가감없이 적어 달라고 주문했지만, 약 10일간의 시험 테스트에서 소프트웨어가 약간 무겁다는 느낌 외에는 특별히 지적할만한 단점이 없어 글로 옮기지 못했다. 향후 문제점이 발견될 경우 현재 포스트에 추가하도록 하겠다.
  1. ABBYY는 러시아 현지에서 '어비'로 읽는 것 같은데, 국내 보도자료에는 모두 '애비'로 표현하여 리뷰에도 '애비'로 통일시켰다. [본문으로]
  2. 페이지를 번갈아 스캐닝하면 각각 상하가 바뀌어 스캐닝된다. [본문으로]
  3. ABBYY는 PDF 변환을 전문으로 처리하는 Transformer 3라는 제품을 가지고 있다. [본문으로]
  4. 해당 업체 솔루션은 90% 이상을 확신했으나 그 이하였다. [본문으로]
반응형
댓글