MarkItDown MCP:一鍵轉換 pdf-word-ppt-html 等文檔爲 MarkDown 格式

簡單介紹

markitdown-mcp 包提供了一個輕量級的 STDIO 和 SSE MCP 服務器,用於調用 MarkItDown。

它公開了一個工具: convert_to_markdown(uri) ,其中 uri 可以是任何 http: 、 https: 、 file: 或 data: URI 。

Installation 安裝

如遇到安裝失敗的問題,請查看下 python 版本是否和我的一致。

pip3 install markitdown-mcp

Usage 用法

本機直接運行

STDIO

直接運行 MCP 服務器,在控制檯執行下面的命令:

markitdown-mcp

SSE

若使用 SSE 形式,運行 MCP 服務器,請使用以下命令:

markitdown-mcp --sse --host 127.0.0.1 --port 3001

以 cherry stuidio 爲例:

以 cherry stuidio 爲例

在 Docker 中運行

要在 Docker 中運行 markitdown-mcp ,請使用提供的 Dockerfile 構建 Docker 鏡像:

docker build -t markitdown-mcp:latest .

And run it using: 然後運行它:

docker run -it --rm markitdown-mcp:latest

對於遠程 URI,這已經足夠了。

如果是要訪問本地文件,需要將本地目錄掛載到容器中。例如,如果您想訪問 /home/user/data 中的文件,可以運行:

docker run -it --rm -v /home/user/data:/workdir markitdown-mcp:latest

掛載完成後,data 下的所有文件都可以在容器中的 /workdir 下訪問。

在 大模型裏面應用

配置一下 MCP Server 就好了啊。

多個 MCP Server 配置:

{
  "mcpServers":{
    "git":{
      "timeout":60,
      "command":"uvx",
      "args":[
        "mcp-server-git"
      ],
      "transportType":"stdio"
    },
    "GitHub":{
      "autoApprove":[
        "create_repository",
        "create_or_update_file"
      ],
      "disabled":false,
      "timeout":60,
      "command":"npx",
      "args":[
        "-y",
        "@modelcontextprotocol/server-github"
      ],
      "env":{
        "GITHUB_PERSONAL_ACCESS_TOKEN":"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"
      },
      "transportType":"stdio"
    },
    "edgeone-pages-mcp-server":{
      "autoApprove":[
        "deploy-html"
      ],
      "timeout":60,
      "command":"npx",
      "args":[
        "edgeone-pages-mcp"
      ],
      "transportType":"stdio"
    },
        "markitdown":{
          "command":"docker",
          "args":[
            "run",
            "--rm",
            "-i",
            "markitdown-mcp:latest"
          ]
        }
}
}

以 Cline 爲例:

單個 MCP Server 配置:

{
  "mcpServers": {
    "markitdown": {
      "command": "docker",
      "args": [
        "run",
        "--rm",
        "-i",
        "markitdown-mcp:latest"
      ]
    }
  }
}

以 Trae 爲例:

實戰演示

將一篇文章轉換爲 MarkDown 的形式:

將 https://baijiahao.baidu.com/s?id=1830327320808340472轉換爲markdown

將一份 PDF 文檔轉換爲 markdown 的格式:

副業探索小分隊.pdf 轉換爲markdown 的格式

注意事項

該服務器不支持身份驗證,並以運行它的用戶的權限運行。因此,在 SSE 模式下運行時,建議將服務器綁定到 localhost (默認值)。

一點感想

雖然目前這樣使用 MCP 可以幫我們辦很多事,但是呢,速度慢了不少,我爲什麼不直接用工具呢。這是最近使用這些工具越來越讓我困惑的地方。現在的各大廠商只是上線了一個 MCP Server 的 demo 版本?

參考文章

https://github.com/microsoft/markitdown/tree/main/packages/markitdown-mcp

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/psbKMaD73ctjTzFSLY7Y9A