教程
信息差
资源
软件工具
技术笔记
AIGC
视频
Search
1
使用AI实现高精度钢琴曲转谱Piano Transcription简明使用教程
37,794 阅读
2
使用ESP8266Wifi模块制作Wifi杀手
37,467 阅读
3
unravel 让图片唱歌详细教程 Real Time Image Animation 项目
27,386 阅读
4
佳能相机刷Magic Lantern魔灯固件
23,501 阅读
5
战地3 正版账号免费分享!
16,213 阅读
教程
信息差
资源
软件工具
技术笔记
AIGC
视频
Search
标签搜索
python
前端
环境搭建
空镜素材
Ubuntu
markdown
神器
黑苹果
编码
技巧
Git
数据库
开发
下载工具
Youtube
CDN
PDF
OST
电影原声带
音乐
易小灯塔
累计撰写
176
篇文章
累计收到
44
条评论
首页
栏目
教程
信息差
资源
软件工具
技术笔记
AIGC
视频
页面
搜索到
1
篇与
的结果
2024-10-12
MinerU 0.8.0 环境一键包 使用教程 (更新WebUI)
介绍最近发现了一款工具大语言语料处理神器-MinerU, 非常适合在RAG等应用场景中使用, 开源免费MinerU其中的一个功能是将 PDF 转化为 markdown 格式的工具, 对PDF文档提取的效果目前是市面上效果比较好的, 最新的版本还支持了PDF中表格的识别MinerU 官方仓库: https://github.com/opendatalab/MinerU装环境相对麻烦, 为此我制作了Windows系统的环境一键包, 下面就介绍下环境一键包的使用(在Windows11正常运行, 其他系统未测, 如有问题, 可以留言)下载地址MinerU环境一键包下载地址 链接: https://pan.quark.cn/s/ab68ea646a8c{cloud title="MinerU环境一键包" type="default" url="https://pan.quark.cn/s/ab68ea646a8c" password=""/}搞不定环境的可以用这个 里面有使用说明文档下载后解压即可使用之前需要安装里面的cuda, 安装cuda的教程自行百度, 如果已经安装请忽略如果之前安装有cuda这个报错的, 可以卸载之前的cuda, 安装里边的cuda11.8版本使用解压后即可运行点击运行gradio版.bat 运行gradio网页版 和 https://www.modelscope.cn/studios/OpenDataLab/MinerU 功能一样点击运行web版.bat 运行web网页版功能和 https://opendatalab.com/OpenSourceTools/Extractor/PDF 一样文件说明目录python为嵌入版的环境, 已经安装了所有依赖想深入使用, 可以配合官方说明文档使用, 下面是一些简要说明magic-pdf.json为配置文件, 使用的方式和官方一样small_ocr.pdf 为测试用pdf文件app.py 为gradio网页在线版 和 https://www.modelscope.cn/studios/OpenDataLab/MinerU 功能一样运行方式, 在MinerU目录右键启动cmd, 或者启动cmd切换到MinerU目录, 运行下列命令./python/python.exe app.pydemo.py 为官方运行示例运行方式, 在MinerU目录右键启动cmd, 或者启动cmd切换到MinerU目录, 运行下列命令./python/python.exe demo.py 如果要对Python环境里边的包进行操作的, 将原有的pip install xxx换成./python/python.exe -m pip install xxx就可以了扩展使用命令行使用官方的命令使用magic-pdf -p {some_pdf} -o {some_output_dir} -m auto在MinerU目录右键启动cmd, 或者启动cmd切换到MinerU目录, 运行下列命令./python/Scripts/magic-pdf.exe -p {some_pdf} -o {some_output_dir} -m auto例如./python/Scripts/magic-pdf.exe -p small_ocr.pdf或者路径填magic-pdf.exe所在的绝对路径, 例如G:/MinerU/python/Scripts/magic-pdf.exe -p small_ocr.pdf开发使用在pycharm里环境变量填python/python.exe所在目录更新版本更新命令./python/python.exe -m pip install --upgrade magic-pdf更新后需修改文件python/Lib/site-packages/magic_pdf/libs/config_reader.py把13-14行红框替换为如下代码# 获取当前目录 current_dir = os.getcwd() print("当前目录为: ", current_dir) # 定义配置文件名常量 CONFIG_FILE_NAME = os.path.join(current_dir, "magic-pdf.json") print("配置路径为: ", CONFIG_FILE_NAME)在69行最用红框处插入如下代码models_dir = os.path.join(current_dir, models_dir) print(f"模型目录为: {models_dir}")这样路径才不会报错
2024年10月12日
59 阅读
1 评论
0 点赞