sdaduanbilei/komga-creater

Fork 0

sdaduanbilei 77ad0e528f init: add workflow and script draft assets

2026-03-03 17:59:27 +08:00

5.9 KiB

Raw Permalink Blame History

漫画生成工具可行性验证设计

项目概述

目标

验证从小说文本到漫画分镜图片提示词的端到端AI处理流程可行性。

核心问题

整个流程（输入→AI编辑→AI分镜→输出）能否顺畅执行？
AI生成的内容质量是否足够用于图片生成？

验证方案选择

方案：纯Dify工作流（选择此方案）

理由：

最快实现验证（30分钟内可搭建完成）
完全利用现有工具（Dify + DeepSeek API）
无需编码，专注于核心AI能力测试

详细设计

系统架构

用户输入（短段落小说文本）
    ↓
[Dify工作流]
    ├── [编辑节点] DeepSeek-R1
    │     └── 润色增强叙述文本
    └── [分镜节点] DeepSeek-R1
          └── 生成Markdown格式分镜提示词
    ↓
用户复制提示词到图片生成平台

组件说明

1. 输入处理

格式：短段落小说文本（300-1000字）
来源：用户从七猫小说等平台复制粘贴
预处理：无，直接交给AI编辑节点

2. AI编辑节点

模型：DeepSeek-R1
温度：0.7
任务：润色和增强小说文本描述
输出要求：
- 保持原有情节和人物设定
- 增强场景描述、角色动作和情感表达
- 让文本更具画面感和戏剧张力
- 长度控制在原文本的1.2-1.5倍

3. AI分镜节点

模型：DeepSeek-R1
温度：0.6
任务：将叙述文本转换为分镜提示词

输出格式：Markdown结构

# 分镜分析

## 场景概览
[整体场景描述]

## 分镜详情

### 分镜1：[标题]
**场景描述：** [详细视觉描述]
**角色动作：** [主要角色动作]
**情感氛围：** [情感色彩]
**图片提示词：** [用于图片生成的提示词]

### 分镜2：[标题]
...

## 风格建议
[推荐图片生成风格]

Dify工作流配置

技术栈

平台：Dify（本地自部署）
AI模型：DeepSeek-R1
格式：JSON DSL

关键配置

编辑节点提示词：

你是一个专业的小说编辑。你的任务是将用户提供的小说段落进行润色和增强，使其更适合转换为视觉分镜。

要求：
1. 保持原有情节和人物设定不变
2. 增强场景描述、角色动作和情感表达
3. 让文本更具画面感和戏剧张力
4. 输出保持中文，长度控制在原文本的1.2-1.5倍

分镜节点提示词：

你是一个专业的漫画分镜师。请将叙述文本转换为3-5个分镜描述，每个分镜包含视觉元素和图片生成提示词。

输出格式要求（Markdown）：
[格式规范见上文]

注意：图片提示词要具体、详细，包含构图、灯光、风格等要素。

验证方法

成功标准

✅ 流程顺畅：输入→编辑→分镜→输出能完整执行
✅ 输出质量：
- 编辑节点输出增强画面感
- 分镜节点输出符合Markdown格式
- 图片提示词具体、可生成

测试用例

测试用例1：基础场景

输入：
李阳推开厚重的木门，月光透过窗户洒在地板上。他看到父亲坐在书桌前，手里拿着一封信。房间里弥漫着淡淡的墨香，父亲的背影显得格外孤独。

预期验证：
1. 编辑节点输出更丰富的视觉描述
2. 分镜节点生成3-5个分镜
3. 图片提示词包含具体构图和风格

测试用例2：动作场景

输入：
王雪快速穿过拥挤的街道，雨水打湿了她的头发。她回头看了一眼，追赶者的影子在路灯下拉长。心跳加速，她躲进了小巷的阴影中。

预期验证：
1. 编辑节点增强动作节奏感
2. 分镜节点体现动态构图
3. 提示词包含光影和氛围描述

验证步骤

环境准备：
- 确保Dify本地部署正常
- 配置DeepSeek-R1模型访问
- 导入提供的JSON DSL工作流
功能测试：
- 使用测试用例1运行工作流
- 检查各节点输出格式
- 验证Markdown结构完整性
质量评估：
- 人工评估编辑文本质量（是否增强画面感）
- 检查分镜合理性（场景转换是否自然）
- 评估图片提示词可用性（是否足够具体）
性能测试：
- 记录流程执行时间
- 测试并发处理能力（可选）

风险与缓解

技术风险

模型输出不稳定
- 缓解：调整温度参数，优化提示词
Dify工作流配置复杂
- 缓解：使用提供的DSL模板，分步测试
Markdown格式不规范
- 缓解：在提示词中明确格式要求，添加示例

业务风险

输出质量不足
- 缓解：准备多个测试用例，调整提示词迭代
流程时间过长
- 缓解：设定时间阈值（如3分钟内完成）

后续计划

验证成功后的扩展

添加预处理：文本分段、清理功能
增加后处理：提示词格式美化、批量导出
集成图片生成：直接调用Stable Diffusion等API
用户界面：开发简单Web界面

验证失败的处理

分析瓶颈：识别是AI能力问题还是流程设计问题
调整方案：考虑混合方案（Dify+自定义代码）
简化目标：先验证单一步骤（如仅分镜生成）

决策记录

关键决策

选择纯Dify方案：快速验证优先
使用Markdown输出：便于用户复制使用
聚焦短段落输入：降低验证复杂度
使用DeepSeek-R1：推理优化适合多步骤分析

约束条件

工具限制：必须使用Dify + DeepSeek API
时间目标：快速验证（1-2天内完成）
输出要求：生成可用的图片提示词，而非实际图片

创建时间：2026-02-28
更新记录：

2026-02-28：初始设计创建

5.9 KiB Raw Permalink Blame History Unescape Escape

漫画生成工具可行性验证设计

项目概述

目标

核心问题

验证方案选择

方案：纯Dify工作流（选择此方案）

详细设计

系统架构

组件说明

1. 输入处理

2. AI编辑节点

3. AI分镜节点

Dify工作流配置

技术栈

关键配置

验证方法

成功标准

测试用例

测试用例1：基础场景

测试用例2：动作场景

验证步骤

风险与缓解

技术风险

业务风险

后续计划

验证成功后的扩展

验证失败的处理

决策记录

关键决策

约束条件

5.9 KiB

Raw Permalink Blame History