komga-creater/docs/plans/2026-02-28-manga-generator-validation-design.md
2026-03-03 17:59:27 +08:00

210 lines
5.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 漫画生成工具可行性验证设计
## 项目概述
### 目标
验证从小说文本到漫画分镜图片提示词的端到端AI处理流程可行性。
### 核心问题
1. 整个流程输入→AI编辑→AI分镜→输出能否顺畅执行
2. AI生成的内容质量是否足够用于图片生成
## 验证方案选择
### 方案纯Dify工作流选择此方案
**理由**
- 最快实现验证30分钟内可搭建完成
- 完全利用现有工具Dify + DeepSeek API
- 无需编码专注于核心AI能力测试
## 详细设计
### 系统架构
```
用户输入(短段落小说文本)
[Dify工作流]
├── [编辑节点] DeepSeek-R1
│ └── 润色增强叙述文本
└── [分镜节点] DeepSeek-R1
└── 生成Markdown格式分镜提示词
用户复制提示词到图片生成平台
```
### 组件说明
#### 1. 输入处理
- **格式**短段落小说文本300-1000字
- **来源**:用户从七猫小说等平台复制粘贴
- **预处理**直接交给AI编辑节点
#### 2. AI编辑节点
- **模型**DeepSeek-R1
- **温度**0.7
- **任务**:润色和增强小说文本描述
- **输出要求**
- 保持原有情节和人物设定
- 增强场景描述、角色动作和情感表达
- 让文本更具画面感和戏剧张力
- 长度控制在原文本的1.2-1.5倍
#### 3. AI分镜节点
- **模型**DeepSeek-R1
- **温度**0.6
- **任务**:将叙述文本转换为分镜提示词
- **输出格式**Markdown结构
```
# 分镜分析
## 场景概览
[整体场景描述]
## 分镜详情
### 分镜1[标题]
**场景描述:** [详细视觉描述]
**角色动作:** [主要角色动作]
**情感氛围:** [情感色彩]
**图片提示词:** [用于图片生成的提示词]
### 分镜2[标题]
...
## 风格建议
[推荐图片生成风格]
```
### Dify工作流配置
#### 技术栈
- **平台**Dify本地自部署
- **AI模型**DeepSeek-R1
- **格式**JSON DSL
#### 关键配置
1. **编辑节点提示词**
```
你是一个专业的小说编辑。你的任务是将用户提供的小说段落进行润色和增强,使其更适合转换为视觉分镜。
要求:
1. 保持原有情节和人物设定不变
2. 增强场景描述、角色动作和情感表达
3. 让文本更具画面感和戏剧张力
4. 输出保持中文长度控制在原文本的1.2-1.5倍
```
2. **分镜节点提示词**
```
你是一个专业的漫画分镜师。请将叙述文本转换为3-5个分镜描述每个分镜包含视觉元素和图片生成提示词。
输出格式要求Markdown
[格式规范见上文]
注意:图片提示词要具体、详细,包含构图、灯光、风格等要素。
```
## 验证方法
### 成功标准
1. ✅ **流程顺畅**:输入→编辑→分镜→输出能完整执行
2. ✅ **输出质量**
- 编辑节点输出增强画面感
- 分镜节点输出符合Markdown格式
- 图片提示词具体、可生成
### 测试用例
#### 测试用例1基础场景
```text
输入:
李阳推开厚重的木门,月光透过窗户洒在地板上。他看到父亲坐在书桌前,手里拿着一封信。房间里弥漫着淡淡的墨香,父亲的背影显得格外孤独。
预期验证:
1. 编辑节点输出更丰富的视觉描述
2. 分镜节点生成3-5个分镜
3. 图片提示词包含具体构图和风格
```
#### 测试用例2动作场景
```text
输入:
王雪快速穿过拥挤的街道,雨水打湿了她的头发。她回头看了一眼,追赶者的影子在路灯下拉长。心跳加速,她躲进了小巷的阴影中。
预期验证:
1. 编辑节点增强动作节奏感
2. 分镜节点体现动态构图
3. 提示词包含光影和氛围描述
```
### 验证步骤
1. **环境准备**
- 确保Dify本地部署正常
- 配置DeepSeek-R1模型访问
- 导入提供的JSON DSL工作流
2. **功能测试**
- 使用测试用例1运行工作流
- 检查各节点输出格式
- 验证Markdown结构完整性
3. **质量评估**
- 人工评估编辑文本质量(是否增强画面感)
- 检查分镜合理性(场景转换是否自然)
- 评估图片提示词可用性(是否足够具体)
4. **性能测试**
- 记录流程执行时间
- 测试并发处理能力(可选)
## 风险与缓解
### 技术风险
1. **模型输出不稳定**
- 缓解:调整温度参数,优化提示词
2. **Dify工作流配置复杂**
- 缓解使用提供的DSL模板分步测试
3. **Markdown格式不规范**
- 缓解:在提示词中明确格式要求,添加示例
### 业务风险
1. **输出质量不足**
- 缓解:准备多个测试用例,调整提示词迭代
2. **流程时间过长**
- 缓解设定时间阈值如3分钟内完成
## 后续计划
### 验证成功后的扩展
1. **添加预处理**:文本分段、清理功能
2. **增加后处理**:提示词格式美化、批量导出
3. **集成图片生成**直接调用Stable Diffusion等API
4. **用户界面**开发简单Web界面
### 验证失败的处理
1. **分析瓶颈**识别是AI能力问题还是流程设计问题
2. **调整方案**考虑混合方案Dify+自定义代码)
3. **简化目标**:先验证单一步骤(如仅分镜生成)
## 决策记录
### 关键决策
1. **选择纯Dify方案**:快速验证优先
2. **使用Markdown输出**:便于用户复制使用
3. **聚焦短段落输入**:降低验证复杂度
4. **使用DeepSeek-R1**:推理优化适合多步骤分析
### 约束条件
1. **工具限制**必须使用Dify + DeepSeek API
2. **时间目标**快速验证1-2天内完成
3. **输出要求**:生成可用的图片提示词,而非实际图片
---
**创建时间**2026-02-28
**更新记录**
- 2026-02-28初始设计创建