본문 바로가기
Technology/by Lab

그림(.jpg, .gif, .bmp ,png), PDF파일을 문자(.txt), 한글(.hwp), 워드(.doc)로 변환하기(구글 OCR 사용법)

by 밝은생각쟁이 2013. 5. 10.
728x90
반응형

일단, 한국에서는 네이버가 지원하고 있다.

네이버랩 OCR : http://lab.naver.com/ocr/

CLOVA OCR(거의 유로인듯함) - 2024년 2월 8일 기준
https://www.ncloud.com/product/aiService/ocr

 

이미지 문자 인식 (OCR, Optical Character Recognition)은 스캐닝한 이미지 문서에 포함된 한글, 영문, 숫자
폰트를 편집 가능한 텍스트로 변환하고 저장할 수 있게 해 주는 서비스 입니다.

 

하지만 오타도 많고 jpg 파일만 지원하고 있어 제약이 많다.

그러나 한글 지원에는 탁월하고 무료니 사용해볼만함.

 

폭풍 검색 중에 Google Docs에도 문자 인식 기능이 있다는 것을 알았다.

 

광학 문자 인식에 대한 요약

광학 문자 인식(Optical Character Recognition(OCR))을 사용하면 자동화된 컴퓨터 알고리즘을 사용하여 텍스트가 있는 이미지를 텍스트 문서로 변환할 수 있습니다. 이미지는 개별적으로 처리(.jpg, .png, .gif 파일)되거나 여러 페이지의 PDF 문서로(.pdf) 처리될 수 있습니다. 다음은 OCR에 적합한 몇 가지 파일 유형입니다.

  • 평판 스캐너를 사용하여 얻은 이미지 또는 PDF 파일
  • 디지털 카메라나 휴대전화로 찍은 사진

Google 드라이브에서 OCR 사용

Google 드라이브에서는 업로드된 이미지나 PDF 파일을 가져오고 파일을 스캔하고 컴퓨터 알고리즘을 사용하여 파일을 Google 문서로 변환합니다.

최상의 결과를 얻으려면 이미지나 PDF 파일이 다음과 같은 특정 요구사항을 충족해야 합니다.

  • 해상도: 고해상도 파일이 가장 적합합니다. 일반적으로 문서 텍스트의 각 줄이 10픽셀(높이) 이상이어야 합니다.
  • 방향: 가로 방향으로 왼쪽에서 오른쪽으로 된 텍스트가 포함된 문서만 인식합니다. 실수로 문서를 다른 방향으로 스캔하거나 캡처한 경우 프로그램을 사용하여 이미지를 보정하거나 수정하여 회전한 다음 Google 드라이브에 업로드하세요.
  • 언어, 글꼴 및 문자 집합: Google의 OCR 엔진은 다양한 문자 집합을 지원하지만 비라틴 문자 집합에 대한 지원은 아직 실험 단계입니다. 드롭다운 메뉴에서 문서의 언어를 선택할 수 있습니다. 파일에 Arial 및 Times New Roman과 같은 일반적인 글꼴이 포함되어 있으면 더 좋은 결과를 얻을 수 있습니다.
  • 이미지 품질: 밝고 명암 대비가 분명한 선명한 이미지에서 가장 효과가 좋습니다. 모션 블러 또는 카메라 초점 불량은 감지된 텍스트의 품질을 떨어뜨립니다.

파일 크기 제한

이미지(.jpg, .gif, .png) 및 PDF 파일(.pdf)의 최대 크기는 2MB입니다. 추출할 텍스트를 검색할 때 처음 10장만 확인합니다.

텍스트 형식 유지

Google은 문서를 처리할 때 굵게 및 기울임꼴 텍스트, 글꼴 크기 및 유형, 줄바꿈과 같은 기본 텍스트 형식을 유지하고자 합니다. 하지만 이러한 요소를 감지하는 것은 쉽지 않으며 때로는 실패할 때도 있습니다. 글머리기호 및 번호 매기기, 표, 텍스트 열, 각주 또는 미주와 같은 기타 텍스트 형식 및 구성 요소는 삭제될 수 있습니다.

OCR은 Google 드라이브에 업로드할 때보다 더 오래 걸릴 수 있습니다. 이미지 파일(.jpg, .gif, .png)은 최대 30초, PDF 파일(.pdf)은 최대 1분이 걸릴 수 있습니다.

 

지원 언어 : Russian, Chinese, Danish, Dutch, French, German, Korean, Italian, Indonesian, Greek, Korean others.(러시아어, 인도네시아어, 이탈리아어, 한국어, 독일어, 프랑스어, 네덜란드어, 덴마크어, 중국어, 그리스어, 한국어 등) 총 37개국 언어

 

출처 : http://support.google.com/drive/bin/answer.py?hl=ko&answer=176692 

 

 

<Google OCR 사용 방법>

http://drive.google.com - 드라이브에 파일을 올린다.

"pc용 드라이브 다운로드"를 해서 드라이브 설치해서 동기화 시켜도 좋지만,

나는 급하므로, 화살표 모양을 클릭하여 개별 파일 업로드,

 

PDF 혹은 이미지 파일에 체크를 한 후 더보기- 연결 프로그램- Google 문서도구 를 클릭하면.

끝이다. !!

 

 

 

이것은 PDF 파일의 첫 부분,  

 

변환 결과는 짜잔~

 

60 InsideGNSS MARCH/APRIL 2013 www.insidegnss.com

T

he navigation message is an essential part of the navigation signals transmitted by GNSS sat- ellites. The various message for- mats provide user equipment with all the data needed to compute position-veloc- ity-time (PVT) solutions, to aid various receiver tasks, and to improve position- ing accuracy.

Table 1 summarizes the typical con- tent of a GNSS data message.

In some cases, the traditional naviga- tion content is extended to include other data providing additional services. For example the I/NAV message of Galileo will provide search and rescue (SAR) emergency terminals with return link data generated by the rescue centers and transmitted to the Galileo Mission Control Center.

WORKING PAPERS

Assessing GNSS Data Message Performance A New Approach

MARCO ANGHILERI, MATTEO PAONNI, DIANA FONTANELLA, BERND EISSFELLER UNIVERSITY FAF MUNICH, GERMANY

Peformance analysis of GNSS signal properties and components is well defined in the technical literature. Terms such as code tracking noise, multipath error envelopes, and S-curve bias, to name a few, are commonly accepted and widely used by scientists. However, the performance of GNSS data messages has yet to be fully assessed and compared. This article proposes well- defined “figures of merit” that can be used to better evaluate current and future GNSS system performance and presents sample analyses to demonstrate the authors’ methodology.

The articles by M. Paonni et alia and M. Anghileri et alia (2010) cited in the Additional Resources, focused on two aspects that are well-known and com- monly used in the literature to assess the message performance, namely, the robustness against transmission errors and the time required to retrieve a given set of data from the GNSS signal. The work presented here completes those analyses by extending, redefining, or adding some figures of merit.

 

 

아 진짜 훌륭하다.

문자 인식만 기대했는데, 폰트, 색깔 까지도 배려한, 이 변환은, !!!!

 

정말 감동이다 ㅜㅜㅜ

 

자주 이용할듯,

 

사랑합니다 구글, ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

 

728x90
반응형