텍스트 분석을 하려고 파일을 모아보면 이런 고민에 빠질 때가 있습니다.
"PDF 파일도 있고, 워드 문서도 있고, 이미지에서 추출한 글도 있는데,
이걸 일일이 정리하려면 시간이 너무 오래 걸린다…"
이런 문제를 깔끔하게 해결해주는 오픈소스 툴이 등장했습니다.
바로 Microsoft
가 만든 경량 Python 라이브러리, MarkItDown
입니다.
MarkItDown은 다양한 파일 포맷을 Markdown(.md)
형태로 변환해주는 경량 Python 라이브러리입니다.
텍스트를 단순 추출하는 것이 아니라,
같은 문서의 구조와 의미까지 최대한 보존해서 변환해주는 게 핵심입니다.
이 도구는 특히 LLM(Large Language Models) 이나 텍스트 분석 파이프라인에 넘기기 위해 가볍고 표준화된 입력 데이터가 필요한 경우에 매우 유용합니다.
MarkItDown은 다음과 같은 다양한 포맷을 지원합니다:
심지어 하나의 ZIP 파일에 들어 있는 다양한 파일들도 자동으로 반복해서 변환할 수 있다고 합니다. 👍
MarkItDown은 문서, 이미지, 오디오, 웹페이지 등 거의 모든 자료를 Markdown 포맷으로 표준화해서 정리하는 최고의 경량 툴입니다.
특히 AI 기반 데이터 처리나 텍스트 분석 준비 작업을 하는 사람이라면 반드시 눈여겨볼 만한 유틸리티입니다.
@nullvuild