microsoft

markitdown

by microsoft

ファイルやOffice文書を構造を保ってMarkdown化し、LLM連携用のMCPサーバーを提供するPythonツール。

GitHubで見る

主な機能

ファイル変換

PDF、PowerPoint、Word、Excel、画像(EXIF・OCR)、音声(EXIF・音声文字起こし)、HTML、CSV/JSON/XML、ZIP、YouTube URL、EPUB等の各種ファイルをMarkdownに変換します。出力はLLMやテキスト解析向けの構造を保持したMarkdown形式です。

プラグイン拡張

サードパーティ製プラグインをサポートしており、インストール済みプラグインの一覧表示や有効化オプションが利用可能です。開発用のサンプルプラグインも提供されています。

API連携

MCP(Model Context Protocol)サーバーを通じてLLMアプリケーションと統合でき、Python向けのMarkItDownクラスなどのプログラム的な利用APIが提供されています。

ファイル操作

コマンドラインツールとしてファイルを直接指定してMarkdownに変換でき、出力ファイル指定(-o)やパイプ入力にも対応します。CLI経由で標準出力へリダイレクトする利用方法が記載されています。

外部サービス連携

Azure Document Intelligenceなどの外部ドキュメント解析サービスと連携して変換を行う機能が提供されています。YouTubeの字幕取得や音声文字起こし用のオプション依存関係も用意されています。

使用例

📄ドキュメント変換

このPDFをMarkdownに変換して、章ごとに見出しを付けた形式で出力して。重要な箇所を3つ抜き出してほしい。

MCPを通じてPDFやWord、PowerPoint等をMarkdownに変換し、見出し・リスト・表などの文書構造を保持した形で出力できるため、LLMにそのまま渡して要約や解析が行えます。

🖼️画像のOCRとメタデータ抽出

この画像をOCRして本文をMarkdownで出力し、EXIFメタデータ(撮影日時・カメラ情報など)も一覧で教えてください。

画像ファイルからOCRテキストとEXIFメタデータを抽出してMarkdownで返せるので、画像内情報をLLMに解析させたりドキュメント化できます。

🎧音声の文字起こし

この音声ファイル(mp3)を文字起こしして、発言者分けとタイムスタンプ付きでMarkdownにして下さい。

音声ファイルの転写(speech transcription)とEXIF情報を取得し、タイムスタンプや発言者区別を含むMarkdown出力を生成して、対話要約や内容検索に利用できます。

📦バッチ変換(ZIPなど)

このZIPをアップロードしました。中にある全ファイルを順番にMarkdownに変換して、ファイル名ごとにセクションを作ってまとめてください。

ZIPやフォルダ内の複数ファイルを順に処理してそれぞれをMarkdown化し、ファイルごとのセクション分けされた出力を作成することで、大量ドキュメントの一括解析ワークフローに組み込めます。

🔌プラグイン/外部サービス連携

Azure Document Intelligenceを使ってこの複雑なPDFを高精度でMarkdown化して、その後要点を3つにまとめてください。

MCPはプラグインやAzure Document Intelligenceなど外部バックエンドを利用して高品質な変換を行い、その結果をLLMワークフローに渡して追加解析や要約を実行できます。

導入方法

詳細なインストール方法はGitHubリポジトリのREADMEを参照してください。

レビュー・評価

-
0件のレビュー
5
0
4
0
3
0
2
0
1
0
読み込み中...