[应用开发] 将PPT转换为MD语言文本 - PPTX2MD
Github上面一个很简单的项目,把PPTX格式的文件转换成MD语言(可以用txt或者其他任何文本输出),没有用到大模型,不过感觉可以在这个基础上接上大模型做进一步的开发。
原项目地址 https://github.com/ssine/pptx2md
这个趋势应该还是有的,因为Markdown是一种非常轻量化的结构语言,而PPT通常也是以同样的结构来制作的,两者的切换可以让更多用户用markdown语言的习惯进行PPT写作。作为一个写了十几年PPT的牛马,虽然这个模式仍然存在一些漏洞(比如图片,图表,表格等插件的处理),但整理来讲,确实是大大提升了写作效率,而且可以清晰检查自己的前后逻辑是否有漏洞。
Colab上跑通的代码,本地运行可以自行修改
#安装库,本地一次性安装就可以
!pip install pptx2md
!pip install python-pptx
!apt-get update
!apt-get install -y pandoc
# 清空当前目录下存储的历史文件
!rm -rf /content/*
# 上传 PPTX 文件
from google.colab import files
uploaded = files.upload()
# 识别上传的文件名
pptx_files = {file_name: file for file_name, file in uploaded.items() if file_name.endswith('.pptx')}
if not pptx_files:
print("没有找到 PPTX 文件,请上传 PPTX 文件。") #执行报错检查
else:
# 假设只上传了一个 PPTX 文件,取第一个文件
pptx_file_name = next(iter(pptx_files))
print(f"上传的 PPTX 文件名: {pptx_file_name}")
# 执行 pptx2md 脚本,转换 PPTX 文件到 Markdown
!pptx2md {pptx_file_name}
# 确保 out.md 文件存在
!ls -l | grep out.md
# 将 Markdown 文件转换为 TXT 格式
!pandoc out.md -o output.txt
# 下载 TXT 格式的文件
files.download('output.txt')
由于之前我们的PPT通常不是用现有框架做的(我之前比较喜欢白板,然后自己拉标题,正文),所以识别度并不是很好,如果在ppt现有框架内写作的会相对好一些(比如在预设的标题,正文框里面填写)。这个之后可以进一步去做优化。
准备接上智谱的API试试总结能力