komga-creater/docs/plans/2026-02-28-manga-generator-validation-design.md
2026-03-03 17:59:27 +08:00

5.9 KiB
Raw Blame History

漫画生成工具可行性验证设计

项目概述

目标

验证从小说文本到漫画分镜图片提示词的端到端AI处理流程可行性。

核心问题

  1. 整个流程输入→AI编辑→AI分镜→输出能否顺畅执行
  2. AI生成的内容质量是否足够用于图片生成

验证方案选择

方案纯Dify工作流选择此方案

理由

  • 最快实现验证30分钟内可搭建完成
  • 完全利用现有工具Dify + DeepSeek API
  • 无需编码专注于核心AI能力测试

详细设计

系统架构

用户输入(短段落小说文本)
    ↓
[Dify工作流]
    ├── [编辑节点] DeepSeek-R1
    │     └── 润色增强叙述文本
    └── [分镜节点] DeepSeek-R1
          └── 生成Markdown格式分镜提示词
    ↓
用户复制提示词到图片生成平台

组件说明

1. 输入处理

  • 格式短段落小说文本300-1000字
  • 来源:用户从七猫小说等平台复制粘贴
  • 预处理直接交给AI编辑节点

2. AI编辑节点

  • 模型DeepSeek-R1
  • 温度0.7
  • 任务:润色和增强小说文本描述
  • 输出要求
    • 保持原有情节和人物设定
    • 增强场景描述、角色动作和情感表达
    • 让文本更具画面感和戏剧张力
    • 长度控制在原文本的1.2-1.5倍

3. AI分镜节点

  • 模型DeepSeek-R1
  • 温度0.6
  • 任务:将叙述文本转换为分镜提示词
  • 输出格式Markdown结构
    # 分镜分析
    
    ## 场景概览
    [整体场景描述]
    
    ## 分镜详情
    
    ### 分镜1[标题]
    **场景描述:** [详细视觉描述]
    **角色动作:** [主要角色动作]
    **情感氛围:** [情感色彩]
    **图片提示词:** [用于图片生成的提示词]
    
    ### 分镜2[标题]
    ...
    
    ## 风格建议
    [推荐图片生成风格]
    

Dify工作流配置

技术栈

  • 平台Dify本地自部署
  • AI模型DeepSeek-R1
  • 格式JSON DSL

关键配置

  1. 编辑节点提示词

    你是一个专业的小说编辑。你的任务是将用户提供的小说段落进行润色和增强,使其更适合转换为视觉分镜。
    
    要求:
    1. 保持原有情节和人物设定不变
    2. 增强场景描述、角色动作和情感表达
    3. 让文本更具画面感和戏剧张力
    4. 输出保持中文长度控制在原文本的1.2-1.5倍
    
  2. 分镜节点提示词

    你是一个专业的漫画分镜师。请将叙述文本转换为3-5个分镜描述每个分镜包含视觉元素和图片生成提示词。
    
    输出格式要求Markdown
    [格式规范见上文]
    
    注意:图片提示词要具体、详细,包含构图、灯光、风格等要素。
    

验证方法

成功标准

  1. 流程顺畅:输入→编辑→分镜→输出能完整执行
  2. 输出质量
    • 编辑节点输出增强画面感
    • 分镜节点输出符合Markdown格式
    • 图片提示词具体、可生成

测试用例

测试用例1基础场景

输入:
李阳推开厚重的木门,月光透过窗户洒在地板上。他看到父亲坐在书桌前,手里拿着一封信。房间里弥漫着淡淡的墨香,父亲的背影显得格外孤独。

预期验证:
1. 编辑节点输出更丰富的视觉描述
2. 分镜节点生成3-5个分镜
3. 图片提示词包含具体构图和风格

测试用例2动作场景

输入:
王雪快速穿过拥挤的街道,雨水打湿了她的头发。她回头看了一眼,追赶者的影子在路灯下拉长。心跳加速,她躲进了小巷的阴影中。

预期验证:
1. 编辑节点增强动作节奏感
2. 分镜节点体现动态构图
3. 提示词包含光影和氛围描述

验证步骤

  1. 环境准备

    • 确保Dify本地部署正常
    • 配置DeepSeek-R1模型访问
    • 导入提供的JSON DSL工作流
  2. 功能测试

    • 使用测试用例1运行工作流
    • 检查各节点输出格式
    • 验证Markdown结构完整性
  3. 质量评估

    • 人工评估编辑文本质量(是否增强画面感)
    • 检查分镜合理性(场景转换是否自然)
    • 评估图片提示词可用性(是否足够具体)
  4. 性能测试

    • 记录流程执行时间
    • 测试并发处理能力(可选)

风险与缓解

技术风险

  1. 模型输出不稳定

    • 缓解:调整温度参数,优化提示词
  2. Dify工作流配置复杂

    • 缓解使用提供的DSL模板分步测试
  3. Markdown格式不规范

    • 缓解:在提示词中明确格式要求,添加示例

业务风险

  1. 输出质量不足

    • 缓解:准备多个测试用例,调整提示词迭代
  2. 流程时间过长

    • 缓解设定时间阈值如3分钟内完成

后续计划

验证成功后的扩展

  1. 添加预处理:文本分段、清理功能
  2. 增加后处理:提示词格式美化、批量导出
  3. 集成图片生成直接调用Stable Diffusion等API
  4. 用户界面开发简单Web界面

验证失败的处理

  1. 分析瓶颈识别是AI能力问题还是流程设计问题
  2. 调整方案考虑混合方案Dify+自定义代码)
  3. 简化目标:先验证单一步骤(如仅分镜生成)

决策记录

关键决策

  1. 选择纯Dify方案:快速验证优先
  2. 使用Markdown输出:便于用户复制使用
  3. 聚焦短段落输入:降低验证复杂度
  4. 使用DeepSeek-R1:推理优化适合多步骤分析

约束条件

  1. 工具限制必须使用Dify + DeepSeek API
  2. 时间目标快速验证1-2天内完成
  3. 输出要求:生成可用的图片提示词,而非实际图片

创建时间2026-02-28
更新记录

  • 2026-02-28初始设计创建