komga-creater/docs/plans/2026-02-28-manga-generator-validation-design.md

# 漫画生成工具可行性验证设计

## 项目概述

### 目标
验证从小说文本到漫画分镜图片提示词的端到端AI处理流程可行性。

### 核心问题
1. 整个流程（输入→AI编辑→AI分镜→输出）能否顺畅执行？
2. AI生成的内容质量是否足够用于图片生成？

## 验证方案选择

### 方案：纯Dify工作流（选择此方案）

**理由**：
- 最快实现验证（30分钟内可搭建完成）
- 完全利用现有工具（Dify + DeepSeek API）
- 无需编码，专注于核心AI能力测试

## 详细设计

### 系统架构
```
用户输入（短段落小说文本）
    ↓
[Dify工作流]
    ├── [编辑节点] DeepSeek-R1
    │     └── 润色增强叙述文本
    └── [分镜节点] DeepSeek-R1
          └── 生成Markdown格式分镜提示词
    ↓
用户复制提示词到图片生成平台
```

### 组件说明

#### 1. 输入处理
- **格式**：短段落小说文本（300-1000字）
- **来源**：用户从七猫小说等平台复制粘贴
- **预处理**：无，直接交给AI编辑节点

#### 2. AI编辑节点
- **模型**：DeepSeek-R1
- **温度**：0.7
- **任务**：润色和增强小说文本描述
- **输出要求**：
  - 保持原有情节和人物设定
  - 增强场景描述、角色动作和情感表达
  - 让文本更具画面感和戏剧张力
  - 长度控制在原文本的1.2-1.5倍

#### 3. AI分镜节点
- **模型**：DeepSeek-R1
- **温度**：0.6
- **任务**：将叙述文本转换为分镜提示词
- **输出格式**：Markdown结构
  ```
  # 分镜分析

  ## 场景概览
  [整体场景描述]

  ## 分镜详情

  ### 分镜1：[标题]
  **场景描述：** [详细视觉描述]
  **角色动作：** [主要角色动作]
  **情感氛围：** [情感色彩]
  **图片提示词：** [用于图片生成的提示词]

  ### 分镜2：[标题]
  ...

  ## 风格建议
  [推荐图片生成风格]
  ```

### Dify工作流配置

#### 技术栈
- **平台**：Dify（本地自部署）
- **AI模型**：DeepSeek-R1
- **格式**：JSON DSL

#### 关键配置
1. **编辑节点提示词**：
   ```
   你是一个专业的小说编辑。你的任务是将用户提供的小说段落进行润色和增强，使其更适合转换为视觉分镜。

   要求：
   1. 保持原有情节和人物设定不变
   2. 增强场景描述、角色动作和情感表达
   3. 让文本更具画面感和戏剧张力
   4. 输出保持中文，长度控制在原文本的1.2-1.5倍
   ```

2. **分镜节点提示词**：
   ```
   你是一个专业的漫画分镜师。请将叙述文本转换为3-5个分镜描述，每个分镜包含视觉元素和图片生成提示词。

   输出格式要求（Markdown）：
   [格式规范见上文]

   注意：图片提示词要具体、详细，包含构图、灯光、风格等要素。
   ```

## 验证方法

### 成功标准
1. ✅ **流程顺畅**：输入→编辑→分镜→输出能完整执行
2. ✅ **输出质量**：
   - 编辑节点输出增强画面感
   - 分镜节点输出符合Markdown格式
   - 图片提示词具体、可生成

### 测试用例

#### 测试用例1：基础场景
```text
输入：
李阳推开厚重的木门，月光透过窗户洒在地板上。他看到父亲坐在书桌前，手里拿着一封信。房间里弥漫着淡淡的墨香，父亲的背影显得格外孤独。

预期验证：
1. 编辑节点输出更丰富的视觉描述
2. 分镜节点生成3-5个分镜
3. 图片提示词包含具体构图和风格
```

#### 测试用例2：动作场景
```text
输入：
王雪快速穿过拥挤的街道，雨水打湿了她的头发。她回头看了一眼，追赶者的影子在路灯下拉长。心跳加速，她躲进了小巷的阴影中。

预期验证：
1. 编辑节点增强动作节奏感
2. 分镜节点体现动态构图
3. 提示词包含光影和氛围描述
```

### 验证步骤
1. **环境准备**：
   - 确保Dify本地部署正常
   - 配置DeepSeek-R1模型访问
   - 导入提供的JSON DSL工作流

2. **功能测试**：
   - 使用测试用例1运行工作流
   - 检查各节点输出格式
   - 验证Markdown结构完整性

3. **质量评估**：
   - 人工评估编辑文本质量（是否增强画面感）
   - 检查分镜合理性（场景转换是否自然）
   - 评估图片提示词可用性（是否足够具体）

4. **性能测试**：
   - 记录流程执行时间
   - 测试并发处理能力（可选）

## 风险与缓解

### 技术风险
1. **模型输出不稳定**
   - 缓解：调整温度参数，优化提示词

2. **Dify工作流配置复杂**
   - 缓解：使用提供的DSL模板，分步测试

3. **Markdown格式不规范**
   - 缓解：在提示词中明确格式要求，添加示例

### 业务风险
1. **输出质量不足**
   - 缓解：准备多个测试用例，调整提示词迭代

2. **流程时间过长**
   - 缓解：设定时间阈值（如3分钟内完成）

## 后续计划

### 验证成功后的扩展
1. **添加预处理**：文本分段、清理功能
2. **增加后处理**：提示词格式美化、批量导出
3. **集成图片生成**：直接调用Stable Diffusion等API
4. **用户界面**：开发简单Web界面

### 验证失败的处理
1. **分析瓶颈**：识别是AI能力问题还是流程设计问题
2. **调整方案**：考虑混合方案（Dify+自定义代码）
3. **简化目标**：先验证单一步骤（如仅分镜生成）

## 决策记录

### 关键决策
1. **选择纯Dify方案**：快速验证优先
2. **使用Markdown输出**：便于用户复制使用
3. **聚焦短段落输入**：降低验证复杂度
4. **使用DeepSeek-R1**：推理优化适合多步骤分析

### 约束条件
1. **工具限制**：必须使用Dify + DeepSeek API
2. **时间目标**：快速验证（1-2天内完成）
3. **输出要求**：生成可用的图片提示词，而非实际图片

---

**创建时间**：2026-02-28
**更新记录**：
- 2026-02-28：初始设计创建