pdf 텍스트 추출
pdf는 여러가지 용도로 사용이 되곤 하는데요.
인터넷에서 제품의 설명서 같은 종류가
pdf로 되어있는 경우가 많습니다.
pdf는 문서를 저장을 하는 경우에
이미지 형태로 저장이 되곤 하는데요.
설명서나 안내문 같은 텍스트가 적혀있는 형태라도
이미지로 저장이 되기 때문에
쉽게 텍스트만 추출하기가 번거로울때가 있습니다.
pdf 문서는 텍스트만 있는게 아니라 여러가지 그래프나 표가
그려져 있는 형태가 많기 때문에 텍스트 문서로 변환을 하게되면
문서가 깨지는 경우가 생길때가 있습니다.
텍스트만 따로 추출을 하는 방법을 알아보겠습니다.
먼저 pdf파일을 읽어보기 위해서는 pdf리더 프로그램이 필요할텐데요.
어도비 리더나 pdf관련 프로그램으로 실행을 해주시면 됩니다.
이후에는 텍스트에 드래그가 된다면
복사를 해서 메모장이나 한글문서에 붙여넣어주시면 됩니다.
텍스트가 드래그가 안된다면 다른 방법을 사용을 해야되는데요.
알pdf라는 프로그램을 통해서 사용을 해볼수가 있습니다.
상단 메뉴의 텍스트로 선택을 하시면 되고요.
페이지 범위와 저장경로를 지정해주신 이후에 저장해보시면 됩니다.
파일용량이 큰 경우라도 상관없이 텍스트 문서로 저장이 가능합니다.