210 lines
5.9 KiB
Markdown
210 lines
5.9 KiB
Markdown
# 漫画生成工具可行性验证设计
|
||
|
||
## 项目概述
|
||
|
||
### 目标
|
||
验证从小说文本到漫画分镜图片提示词的端到端AI处理流程可行性。
|
||
|
||
### 核心问题
|
||
1. 整个流程(输入→AI编辑→AI分镜→输出)能否顺畅执行?
|
||
2. AI生成的内容质量是否足够用于图片生成?
|
||
|
||
## 验证方案选择
|
||
|
||
### 方案:纯Dify工作流(选择此方案)
|
||
|
||
**理由**:
|
||
- 最快实现验证(30分钟内可搭建完成)
|
||
- 完全利用现有工具(Dify + DeepSeek API)
|
||
- 无需编码,专注于核心AI能力测试
|
||
|
||
## 详细设计
|
||
|
||
### 系统架构
|
||
```
|
||
用户输入(短段落小说文本)
|
||
↓
|
||
[Dify工作流]
|
||
├── [编辑节点] DeepSeek-R1
|
||
│ └── 润色增强叙述文本
|
||
└── [分镜节点] DeepSeek-R1
|
||
└── 生成Markdown格式分镜提示词
|
||
↓
|
||
用户复制提示词到图片生成平台
|
||
```
|
||
|
||
### 组件说明
|
||
|
||
#### 1. 输入处理
|
||
- **格式**:短段落小说文本(300-1000字)
|
||
- **来源**:用户从七猫小说等平台复制粘贴
|
||
- **预处理**:无,直接交给AI编辑节点
|
||
|
||
#### 2. AI编辑节点
|
||
- **模型**:DeepSeek-R1
|
||
- **温度**:0.7
|
||
- **任务**:润色和增强小说文本描述
|
||
- **输出要求**:
|
||
- 保持原有情节和人物设定
|
||
- 增强场景描述、角色动作和情感表达
|
||
- 让文本更具画面感和戏剧张力
|
||
- 长度控制在原文本的1.2-1.5倍
|
||
|
||
#### 3. AI分镜节点
|
||
- **模型**:DeepSeek-R1
|
||
- **温度**:0.6
|
||
- **任务**:将叙述文本转换为分镜提示词
|
||
- **输出格式**:Markdown结构
|
||
```
|
||
# 分镜分析
|
||
|
||
## 场景概览
|
||
[整体场景描述]
|
||
|
||
## 分镜详情
|
||
|
||
### 分镜1:[标题]
|
||
**场景描述:** [详细视觉描述]
|
||
**角色动作:** [主要角色动作]
|
||
**情感氛围:** [情感色彩]
|
||
**图片提示词:** [用于图片生成的提示词]
|
||
|
||
### 分镜2:[标题]
|
||
...
|
||
|
||
## 风格建议
|
||
[推荐图片生成风格]
|
||
```
|
||
|
||
### Dify工作流配置
|
||
|
||
#### 技术栈
|
||
- **平台**:Dify(本地自部署)
|
||
- **AI模型**:DeepSeek-R1
|
||
- **格式**:JSON DSL
|
||
|
||
#### 关键配置
|
||
1. **编辑节点提示词**:
|
||
```
|
||
你是一个专业的小说编辑。你的任务是将用户提供的小说段落进行润色和增强,使其更适合转换为视觉分镜。
|
||
|
||
要求:
|
||
1. 保持原有情节和人物设定不变
|
||
2. 增强场景描述、角色动作和情感表达
|
||
3. 让文本更具画面感和戏剧张力
|
||
4. 输出保持中文,长度控制在原文本的1.2-1.5倍
|
||
```
|
||
|
||
2. **分镜节点提示词**:
|
||
```
|
||
你是一个专业的漫画分镜师。请将叙述文本转换为3-5个分镜描述,每个分镜包含视觉元素和图片生成提示词。
|
||
|
||
输出格式要求(Markdown):
|
||
[格式规范见上文]
|
||
|
||
注意:图片提示词要具体、详细,包含构图、灯光、风格等要素。
|
||
```
|
||
|
||
## 验证方法
|
||
|
||
### 成功标准
|
||
1. ✅ **流程顺畅**:输入→编辑→分镜→输出能完整执行
|
||
2. ✅ **输出质量**:
|
||
- 编辑节点输出增强画面感
|
||
- 分镜节点输出符合Markdown格式
|
||
- 图片提示词具体、可生成
|
||
|
||
### 测试用例
|
||
|
||
#### 测试用例1:基础场景
|
||
```text
|
||
输入:
|
||
李阳推开厚重的木门,月光透过窗户洒在地板上。他看到父亲坐在书桌前,手里拿着一封信。房间里弥漫着淡淡的墨香,父亲的背影显得格外孤独。
|
||
|
||
预期验证:
|
||
1. 编辑节点输出更丰富的视觉描述
|
||
2. 分镜节点生成3-5个分镜
|
||
3. 图片提示词包含具体构图和风格
|
||
```
|
||
|
||
#### 测试用例2:动作场景
|
||
```text
|
||
输入:
|
||
王雪快速穿过拥挤的街道,雨水打湿了她的头发。她回头看了一眼,追赶者的影子在路灯下拉长。心跳加速,她躲进了小巷的阴影中。
|
||
|
||
预期验证:
|
||
1. 编辑节点增强动作节奏感
|
||
2. 分镜节点体现动态构图
|
||
3. 提示词包含光影和氛围描述
|
||
```
|
||
|
||
### 验证步骤
|
||
1. **环境准备**:
|
||
- 确保Dify本地部署正常
|
||
- 配置DeepSeek-R1模型访问
|
||
- 导入提供的JSON DSL工作流
|
||
|
||
2. **功能测试**:
|
||
- 使用测试用例1运行工作流
|
||
- 检查各节点输出格式
|
||
- 验证Markdown结构完整性
|
||
|
||
3. **质量评估**:
|
||
- 人工评估编辑文本质量(是否增强画面感)
|
||
- 检查分镜合理性(场景转换是否自然)
|
||
- 评估图片提示词可用性(是否足够具体)
|
||
|
||
4. **性能测试**:
|
||
- 记录流程执行时间
|
||
- 测试并发处理能力(可选)
|
||
|
||
## 风险与缓解
|
||
|
||
### 技术风险
|
||
1. **模型输出不稳定**
|
||
- 缓解:调整温度参数,优化提示词
|
||
|
||
2. **Dify工作流配置复杂**
|
||
- 缓解:使用提供的DSL模板,分步测试
|
||
|
||
3. **Markdown格式不规范**
|
||
- 缓解:在提示词中明确格式要求,添加示例
|
||
|
||
### 业务风险
|
||
1. **输出质量不足**
|
||
- 缓解:准备多个测试用例,调整提示词迭代
|
||
|
||
2. **流程时间过长**
|
||
- 缓解:设定时间阈值(如3分钟内完成)
|
||
|
||
## 后续计划
|
||
|
||
### 验证成功后的扩展
|
||
1. **添加预处理**:文本分段、清理功能
|
||
2. **增加后处理**:提示词格式美化、批量导出
|
||
3. **集成图片生成**:直接调用Stable Diffusion等API
|
||
4. **用户界面**:开发简单Web界面
|
||
|
||
### 验证失败的处理
|
||
1. **分析瓶颈**:识别是AI能力问题还是流程设计问题
|
||
2. **调整方案**:考虑混合方案(Dify+自定义代码)
|
||
3. **简化目标**:先验证单一步骤(如仅分镜生成)
|
||
|
||
## 决策记录
|
||
|
||
### 关键决策
|
||
1. **选择纯Dify方案**:快速验证优先
|
||
2. **使用Markdown输出**:便于用户复制使用
|
||
3. **聚焦短段落输入**:降低验证复杂度
|
||
4. **使用DeepSeek-R1**:推理优化适合多步骤分析
|
||
|
||
### 约束条件
|
||
1. **工具限制**:必须使用Dify + DeepSeek API
|
||
2. **时间目标**:快速验证(1-2天内完成)
|
||
3. **输出要求**:生成可用的图片提示词,而非实际图片
|
||
|
||
---
|
||
|
||
**创建时间**:2026-02-28
|
||
**更新记录**:
|
||
- 2026-02-28:初始设计创建 |