5.9 KiB
5.9 KiB
漫画生成工具可行性验证设计
项目概述
目标
验证从小说文本到漫画分镜图片提示词的端到端AI处理流程可行性。
核心问题
- 整个流程(输入→AI编辑→AI分镜→输出)能否顺畅执行?
- AI生成的内容质量是否足够用于图片生成?
验证方案选择
方案:纯Dify工作流(选择此方案)
理由:
- 最快实现验证(30分钟内可搭建完成)
- 完全利用现有工具(Dify + DeepSeek API)
- 无需编码,专注于核心AI能力测试
详细设计
系统架构
用户输入(短段落小说文本)
↓
[Dify工作流]
├── [编辑节点] DeepSeek-R1
│ └── 润色增强叙述文本
└── [分镜节点] DeepSeek-R1
└── 生成Markdown格式分镜提示词
↓
用户复制提示词到图片生成平台
组件说明
1. 输入处理
- 格式:短段落小说文本(300-1000字)
- 来源:用户从七猫小说等平台复制粘贴
- 预处理:无,直接交给AI编辑节点
2. AI编辑节点
- 模型:DeepSeek-R1
- 温度:0.7
- 任务:润色和增强小说文本描述
- 输出要求:
- 保持原有情节和人物设定
- 增强场景描述、角色动作和情感表达
- 让文本更具画面感和戏剧张力
- 长度控制在原文本的1.2-1.5倍
3. AI分镜节点
- 模型:DeepSeek-R1
- 温度:0.6
- 任务:将叙述文本转换为分镜提示词
- 输出格式:Markdown结构
# 分镜分析 ## 场景概览 [整体场景描述] ## 分镜详情 ### 分镜1:[标题] **场景描述:** [详细视觉描述] **角色动作:** [主要角色动作] **情感氛围:** [情感色彩] **图片提示词:** [用于图片生成的提示词] ### 分镜2:[标题] ... ## 风格建议 [推荐图片生成风格]
Dify工作流配置
技术栈
- 平台:Dify(本地自部署)
- AI模型:DeepSeek-R1
- 格式:JSON DSL
关键配置
-
编辑节点提示词:
你是一个专业的小说编辑。你的任务是将用户提供的小说段落进行润色和增强,使其更适合转换为视觉分镜。 要求: 1. 保持原有情节和人物设定不变 2. 增强场景描述、角色动作和情感表达 3. 让文本更具画面感和戏剧张力 4. 输出保持中文,长度控制在原文本的1.2-1.5倍 -
分镜节点提示词:
你是一个专业的漫画分镜师。请将叙述文本转换为3-5个分镜描述,每个分镜包含视觉元素和图片生成提示词。 输出格式要求(Markdown): [格式规范见上文] 注意:图片提示词要具体、详细,包含构图、灯光、风格等要素。
验证方法
成功标准
- ✅ 流程顺畅:输入→编辑→分镜→输出能完整执行
- ✅ 输出质量:
- 编辑节点输出增强画面感
- 分镜节点输出符合Markdown格式
- 图片提示词具体、可生成
测试用例
测试用例1:基础场景
输入:
李阳推开厚重的木门,月光透过窗户洒在地板上。他看到父亲坐在书桌前,手里拿着一封信。房间里弥漫着淡淡的墨香,父亲的背影显得格外孤独。
预期验证:
1. 编辑节点输出更丰富的视觉描述
2. 分镜节点生成3-5个分镜
3. 图片提示词包含具体构图和风格
测试用例2:动作场景
输入:
王雪快速穿过拥挤的街道,雨水打湿了她的头发。她回头看了一眼,追赶者的影子在路灯下拉长。心跳加速,她躲进了小巷的阴影中。
预期验证:
1. 编辑节点增强动作节奏感
2. 分镜节点体现动态构图
3. 提示词包含光影和氛围描述
验证步骤
-
环境准备:
- 确保Dify本地部署正常
- 配置DeepSeek-R1模型访问
- 导入提供的JSON DSL工作流
-
功能测试:
- 使用测试用例1运行工作流
- 检查各节点输出格式
- 验证Markdown结构完整性
-
质量评估:
- 人工评估编辑文本质量(是否增强画面感)
- 检查分镜合理性(场景转换是否自然)
- 评估图片提示词可用性(是否足够具体)
-
性能测试:
- 记录流程执行时间
- 测试并发处理能力(可选)
风险与缓解
技术风险
-
模型输出不稳定
- 缓解:调整温度参数,优化提示词
-
Dify工作流配置复杂
- 缓解:使用提供的DSL模板,分步测试
-
Markdown格式不规范
- 缓解:在提示词中明确格式要求,添加示例
业务风险
-
输出质量不足
- 缓解:准备多个测试用例,调整提示词迭代
-
流程时间过长
- 缓解:设定时间阈值(如3分钟内完成)
后续计划
验证成功后的扩展
- 添加预处理:文本分段、清理功能
- 增加后处理:提示词格式美化、批量导出
- 集成图片生成:直接调用Stable Diffusion等API
- 用户界面:开发简单Web界面
验证失败的处理
- 分析瓶颈:识别是AI能力问题还是流程设计问题
- 调整方案:考虑混合方案(Dify+自定义代码)
- 简化目标:先验证单一步骤(如仅分镜生成)
决策记录
关键决策
- 选择纯Dify方案:快速验证优先
- 使用Markdown输出:便于用户复制使用
- 聚焦短段落输入:降低验证复杂度
- 使用DeepSeek-R1:推理优化适合多步骤分析
约束条件
- 工具限制:必须使用Dify + DeepSeek API
- 时间目标:快速验证(1-2天内完成)
- 输出要求:生成可用的图片提示词,而非实际图片
创建时间:2026-02-28
更新记录:
- 2026-02-28:初始设计创建