OCR이 입혀져 있는 PDF 파일은 텍스트를 추출하는 방법이 쉽습니다. 하지만 JPG 그림 스캔본으로 제작된 PDF는 OCR이 입혀져 있지 않죠.
예전에는 JPG/PNG 그림이나 OCR 없는 PDF 파일들은 구글 드라이브에 올려서 텍스트를 추출하는 것이 가장 효율적이었는데, 홈페이지에서 텍스트를 추출해주는 서비스들도 있다는 것을 알게 되었습니다.
개인정보가 중요하지 않은 경우라면 이런 OCR 추출 홈페이지를 이용하는 방법이 좀 더 편리할 것입니다.

 

PDF, JPG 그림에서 텍스트 추출 방법. 인터넷 OCR 무료 서비스

 

테스트해보고 싶은데 샘플 파일이 없다면 위의 썸네일 그림파일을 파일로 첨부할테니 받아서 사용해 보시고,

 

20220127-02.png
0.01MB

 

OCR 없는 PDF 샘플 파일 / OCR 입혀진 PDF 샘플 파일을 다운로드받고 싶다면 아래의 글을 참고하세요. (무료입니다.).

PDF 샘플 파일 다운로드(무료). 저작권 없음. PDF Sample Free

 

PDF 샘플 파일이 준비됐다면 텍스트 추출해주는 사이트로 들어가 봅시다.

https://www.onlineocr.net/ko/

 

PDF, JPG 그림에서 텍스트 추출 방법. 인터넷 OCR 무료 서비스

▲ 홈페이지 인터페이스 중에서 가장 주의가 필요한 부분은 "2단계 - 언어 및 출력 형식 선택" 항목입니다. 언어를 정확하게 선택해야 결과물이 좋게 나오거든요.

 

PDF, JPG 그림에서 텍스트 추출 방법. 인터넷 OCR 무료 서비스

▲ 출력 언어를 한글로 설정해서 그런지, 영어는 변환 실패한 부분이 있습니다. 폰트를 바꾸거나 문서의 DPI(해상도)를 올리면 성공률이 더 높아질 것입니다.

 

회원가입을 하지 않으면 15페이지 이상의 PDF 파일은 변환할 수 없는 한계점이 있습니다. PDF 편집 프로그램으로 15장씩 분할해서 시도하면 되지 않을까요? 무료 PDF 편집 프로그램 추천은 광고에 많이 나올 겁입니다.

반응형