목차▾
PDF 텍스트 추출이란?
PDF 텍스트 추출은 PDF 파일 안의 글자를 뽑아내어 텍스트(.txt)로 변환하거나 다른 문서에 복사·붙여넣기 할 수 있게 만드는 기능입니다. 워드·한글로 만든 문서, 웹 페이지를 인쇄해 저장한 PDF 등 텍스트 레이어가 있는 PDF는 100% 원본 그대로 추출됩니다.
moamoang의 PDF 텍스트 추출은 브라우저에서 완전 로컬로 동작합니다. pdf.js 라이브러리로 사용자 컴퓨터 안에서만 추출이 이루어지고, 파일이 서버로 전송되지 않습니다.
사용 흐름
- 드래그·드롭 또는 클릭으로 PDF 파일을 선택합니다.
- 텍스트 추출 시작 버튼 클릭 → 페이지별로 순차 추출
- 추출된 전체 텍스트가 표시됩니다 (페이지 구분자 포함).
- 📋 복사 또는 ⬇ .txt 저장 버튼으로 활용
완전 로컬 처리 vs 서버 업로드
대부분의 무료 PDF 텍스트 추출 사이트는 파일을 제3자 서버에 업로드해서 처리합니다. 몇 초짜리 처리를 위해 파일이 남의 서버에 잠시 저장되는 구조.
- 계약서·이력서·연구 자료 등 민감 문서가 서버에 전송됨
- 서비스 정책에 따라 몇 분~몇 시간 보관
- 회사·기관 보안 정책으로 외부 업로드 금지된 환경에서 사용 불가
로컬 처리(moamoang) 이점
✓ 파일이 브라우저 메모리에서만 처리됨
✓ 네트워크 호출 0회 (개발자 도구 Network 탭 확인 가능)
✓ 첫 로드 후엔 인터넷 끊어도 추출 가능
✓ 원본 텍스트 유니코드 그대로 유지
텍스트 PDF vs 스캔 PDF
| 종류 | 특징 | 추출 |
|---|---|---|
| 텍스트 기반 PDF | 워드·한글·구글 문서에서 PDF 저장, 웹 페이지 인쇄 → PDF | ✓ 100% |
| 스캔 이미지 PDF | 종이 문서 스캔, 카메라 촬영 후 PDF 변환 | ✗ OCR 필요 |
| 혼합 PDF | 일부 페이지 스캔, 일부 텍스트 | △ 부분 |
우리 도구는 스캔 페이지를 자동 감지해서 해당 페이지 번호를 알려주고, 텍스트가 있는 페이지에서만 추출합니다. 스캔본 전체라면 OCR(광학 문자 인식) 도구가 필요하다고 안내합니다.
추출 가능/불가능 항목
| 항목 | 가능 | 비고 |
|---|---|---|
| 일반 텍스트 (한글·영문·숫자) | ✓ | 원본 유니코드 그대로 |
| 특수 문자·이모지 | ✓ | 텍스트 레이어에 있으면 OK |
| 단락·줄바꿈 | △ | 좌표 기반 근사, 완벽하지 않음 |
| 서식 (색·글꼴·크기) | ✗ | 순수 텍스트만 |
| 표 구조 | ✗ | 셀 경계 없이 나열 |
| 이미지 | ✗ | 텍스트 추출 도구 |
| 스캔 이미지 텍스트 | ✗ | OCR 별도 필요 |
실전 사용 시나리오 8가지
- 보고서·논문 인용문 추출 — PDF에서 필요한 구절 복사해 다른 문서에 인용
- 이력서·자소서 재활용 — 예전 PDF 이력서를 텍스트로 뽑아 새 양식에 붙여넣기
- 계약서·약관 텍스트 검색 — 텍스트로 뽑아 워드에서 검색·강조·주석
- 번역기 입력 — PDF 전체를 텍스트로 뽑아 DeepL·구글 번역에 붙여넣기
- AI에 요약 요청 — ChatGPT·Claude에 텍스트를 던져 요약·질문
- .txt 아카이빙 — 용량 큰 PDF를 텍스트만 .txt로 보관
- 노트 앱으로 이관 — Notion·Obsidian·에버노트에 텍스트로 붙여넣기
- 문서 검색 인덱싱 — 여러 PDF 텍스트를 뽑아 검색 가능한 아카이브 구축
자주 발생하는 문제 6가지
- 텍스트가 안 뽑힘 — 스캔 이미지 PDF일 가능성. OCR 도구 필요
- 줄바꿈이 이상함 — PDF는 단락 정보가 없어 좌표 기반 추정. 문단이 뭉치거나 엉킬 수 있음
- 표가 나열됨 — 표 구조는 유지되지 않고 셀 내용이 일렬로 나열
- 암호 걸린 PDF — 열리지 않음. 사전에 암호 해제 후 업로드
- 글꼴 임베딩 문제 — 일부 오래된 PDF는 글꼴 정보가 깨져 문자가 잘못 추출될 수 있음
- 서식·색상 소실 — 정상. 순수 텍스트만 추출하는 도구
자주 묻는 질문
Q. PDF 텍스트 추출 사용법은?
PDF 파일을 업로드 → "텍스트 추출 시작" 클릭 → 추출된 텍스트가 표시됨. 복사 또는 .txt 저장. 페이지 구분자 (`[페이지 N]`)가 자동 삽입됩니다.
Q. 서버에 파일이 저장되나요?
아니요. 완전 로컬 처리입니다. 파일은 브라우저 메모리 안에서만 처리되며, 서버로 전송·저장되지 않습니다.
Q. 스캔 PDF에서도 추출 가능한가요?
불가능합니다. 스캔본은 텍스트 레이어 없이 이미지만 있어서 OCR(광학 문자 인식)이 필요합니다. 우리 도구는 스캔 페이지를 자동 감지해서 안내만 표시하고, OCR은 지원하지 않습니다.
Q. 표는 추출되나요?
표 구조(행·열·병합)는 유지되지 않고, 셀 내용이 일렬로 나열됩니다. PDF는 애초에 표 구조 정보를 갖고 있지 않기 때문. 정확한 표 추출이 필요하면 별도 PDF → Excel 도구가 필요합니다.
Q. 서식(색·글꼴)이 사라져요.
정상입니다. 순수 텍스트만 추출하는 도구이므로 서식·색·글꼴은 유지되지 않습니다. 서식까지 유지하려면 PDF → Word 변환 도구 사용.
Q. 한글도 잘 추출되나요?
네. 한글·영문·숫자·특수문자 모두 유니코드 그대로 추출됩니다. 단 오래된 PDF에서 글꼴 임베딩이 깨진 경우 예외적으로 잘못 추출될 수 있습니다.
Q. 암호 걸린 PDF도 되나요?
안 됩니다. 열리지 않으니 먼저 암호 해제 후 업로드하세요.
Q. 몇 페이지까지 처리 가능?
페이지 수 제한은 없으며 브라우저 메모리에 달려있습니다. 100페이지 이상은 처리 시간이 길어질 수 있으니 데스크톱을 권장합니다.
본 도구는 Mozilla의 오픈소스 라이브러리 pdf.js를 사용하여 브라우저 안에서만 PDF 텍스트를 추출합니다. 파일이 서버로 전송되지 않으므로 개인정보가 보호되며, 회원가입·워터마크·크기 제한 없이 무료로 사용할 수 있습니다. 스캔 이미지 PDF의 OCR은 지원하지 않습니다.