长生：【开源】aiauto_v0.1

作者：长生

- description: 从0开始，自动化生成科幻小说，并转成带图和字幕的视频；
- type: 工程代码
- author: Khronos
- version: 0.1
- time: 2023-12-21 20:26:51
- 开源：无任何限制的开源，随便用

背景

漫剧《大妖老师》是可以长时间观看的图文视频，解决了“长时间看小说伤眼睛"和"听有声小说容易睡着"的缺点，使得阅读小说成本更低，体验更佳，扩大了受众。
对其进行技术拆解，且由于不想进行重复工作环节，所以尝试跑通自动化流程；
1. 小说生成——语音合成——字幕生成——图像生成——视频合成

结论

一、基本描述

跑通流程：小说生成——语音合成——字幕生成——图像生成——视频合成：

小说生成：使用openai的api“gpt-4-0613”模型prompt生成小说开篇，并续写至2000字左右；

Role: 科幻小说作家
续写提示词：

{
        "role": "user",
        "content": "写得非常不错，借鉴点评内容，继续编写小说内容。\n   ## OutputFormat:\n{\n    \"分析\":\"\",\n    \"正文\":\"\",\n    \"点评\":\"\",\n    \"询问用户\":\"\",\n}"
}

结尾提示词：

  {
      "role": "user",
      "content": "写得非常不错，如果没有明确的向读者透露科幻设定，则透露科幻设定，并且命名一个小说名。\n   ## OutputFormat:\n{\n    \"分析\":\"\",\n    \"正文\":\"\",\n    \"点评\":\"\",\n    \"小说名称\":\"\",\n}"
  }

语音合成：使用pyttsx3开源库进行文本到语音的生成；
字幕生成：使用开源whisper进行语音到文字识别（可输出每个词的开始与结束时间），并处理成字幕；
图像生成：使用openai的api“gpt-4-0613”模型prompt，进行“字幕文件“的分段，以及生成dall-e-3 prompt，并调用dall-e-3 api接口，生成对应图片；
1. Role: 小说字幕分镜师用于获取字幕进行分镜、dall-e-3 prompt、以及当前分镜的开始时间；
视频合成：将图片、音频、字幕，合成视频。

二、优点

自动化：跑通了从0开始生成科幻图文视频；
小说开篇出品率还行：40%良品率——40次抽取约有5篇优秀，11篇良好的文章；
配字幕：提高阅读体验；
便宜：除去小说内容筛选时间成本，一个视频的生成约5.8元rmb-10.06元rmb；
无版权纠纷；

三、缺点

dall-e-3 prompt 生成图片质量不高；
续写空洞：对于好的设定没有具体事物本身的描写，更多是用描述词“他们解决了这个问题”等话术来推进剧情，从而显得空洞；
语音不像真人；
字幕中文字未完全与小说文稿对齐；
整个过程速度慢，大量可并发环节使用的是循环调用，
1. 小说生成，图像生成，均可并发。

四、优化方向

跟随开源算法与api能力，更改流程与更新算法，缝合创造新的更优质视频；
图像生成环节采用更好的模型；
优化续写；
采用语音克隆，声音更拟人；
字幕与文稿强制对齐；
并发处理任务；

五、技巧

有问题，多问chatGPT；
视频合成使用的moivepy并不怎么友好，GPT给的报错问题回复，幻觉很多，需要结合传统搜索多实践。

代码

aiauto_v0.1.zip

安装与运行

安装conda并激活python环境后，设置gpt-api及其token；
运行main.py文件，缺哪个包安装哪个；相关python包如下

whisper
pyttsx3
moviepy
tiktoken
shutil
torch
cuda

软件
1. 安装imagemagick，字幕放在图片时用的，官网下载https://imagemagick.org/
2. 安装后，function.py 代码中更新安装位置；
```
config.change_settings({"IMAGEMAGICK_BINARY": r"D:\ImageMagick-7.1.1-Q16-HDRI\magick.exe"})
```

效果

微界之梦

[Processed]《微界之梦》_novel.txt

共振之灵

[Processed]《共振之灵》_novel.txt

形状的召唤

[Processed]形状的召唤_novel.txt

智息之城【负面案例-空洞】

[Processed]智息之城_novel.txt