Rasa Siddhanta - Part 4

भाग ३ से आगे

Table of Contents

रस−सिद्धान्तम् : वैदिक सौन्दर्यशास्त्र और नाट्यशास्त्रीय रसविज्ञान

भाग ४ : ComfyUI / SkyReels आदि द्वारा वास्तविक कृत्रिमबुद्धि चलचित्र का निर्माण

यह चतुर्थ भाग तृतीय भाग में वर्णित रस−सिद्धान्त आधारित scriptwriting software को वास्तविक AI चलचित्र-निर्माण की दिशा में ले जाता है। यहाँ लक्ष्य केवल prompt लिखकर छोटे video clip बनाना नहीं है। लक्ष्य है — कथा, पात्र, रस, दृश्य, ध्वनि, संवाद, continuity, editing और final rendering को एक अनुशासित local AI film pipeline में बदलना, विशेषतः Z890aiTop + dual RTX5090 + 256GB RAM जैसे workstation पर।

१. चतुर्थ भाग की भूमिका

AI video generation का क्षेत्र अभी तीव्र परिवर्तन में है। आज कोई model ५ से १० seconds का अच्छा clip बनाता है, कल कोई model frame control या video extension दे देता है, और परसों कोई नया version multi-subject reference या talking-avatar जोड़ देता है। इसलिए स्थायी प्रणाली किसी एक model पर नहीं बनानी चाहिए। स्थायी प्रणाली workflow पर बननी चाहिए।

इस लेख का मुख्य लक्ष्य है — ऐसे workflow की रचना करना जिसमें scriptwriting software से निकला हुआ rasa-aware scene data ComfyUI, SkyReels, image generation, video generation, voice conversion, sound design, editing और final export तक क्रमशः पहुँचे।

सिद्धान्त यह है :

AI model उपकरण है; चलचित्र का चित्त script, पात्र, रस और continuity से आता है।

२. मूल प्रतिज्ञा : Clip नहीं, चलचित्र

सामान्य AI video प्रयोग में लोग prompt देते हैं, model clip बनाता है, और कुछ क्षण के लिए विस्मय होता है। पर film production में यही पर्याप्त नहीं। Film में पात्र repeat होना चाहिए, costume बदलना नहीं चाहिए, मुखमुद्रा स्थिर रहनी चाहिए, भाषा और आवाज़ character से जुड़ी रहनी चाहिए, camera continuity होनी चाहिए, और scene-to-scene rasa progression टूटनी नहीं चाहिए।

इसलिए इस प्रणाली में clip-generation को चार कठोर नियमों में बाँधा जाएगा।

नियम अर्थ व्यावहारिक परिणाम
Character Lock पात्र का चेहरा, देह, वस्त्र, वाणी और भावधर्म स्थिर रहे हर पात्र के लिए reference images, voice profile और character bible बनेगा
Rasa Lock scene का प्रधान रस और स्थायीभाव generation में सुरक्षित रहे prompt, lighting, gesture और sound उसी रस से नियंत्रित होंगे
Continuity Lock पिछले clip का frame, lighting और भाव अगले clip से जुड़ें start/end frames, keyframes और reference videos का उपयोग होगा
Edit Lock हर generated clip final film में उपयोगी length, motion और cut-point दे shot-list और editing-map पहले बनेगा, generation बाद में होगा

३. Hardware आधार : Z890aiTop + dual RTX5090 + 256GB RAM

Z890aiTop + dual RTX5090 + 256GB RAM जैसी machine consumer-level hardware में अत्यन्त शक्तिशाली local AI film studio बन सकती है, पर इसे सही ढंग से उपयोग करना होगा। दो RTX5090 GPUs को अपने-आप 64GB unified VRAM नहीं माना जा सकता। व्यवहार में प्रत्येक GPU 32GB VRAM वाला स्वतंत्र compute device है। अतः system design में GPU विभाजन स्पष्ट होना चाहिए।

३.१ Hardware का उपयोग-विभाजन

घटक उपयोग सावधानी
GPU 0 : RTX5090 32GB ComfyUI image/video workflow, image generation, upscale, control workflow display load कम रखें; heavy generation के समय browser/video playback न चलाएँ
GPU 1 : RTX5090 32GB SkyReels, video extension, batch inference, alternate generation queue long job के समय temperature और VRAM देखना आवश्यक
CPU : high-end Intel preprocessing, ffmpeg, indexing, audio, file management, light inference CPU thermal throttling से बचें
RAM : 256GB corpus cache, embeddings, frame cache, video frames, multiple Python envs RAMDISK का उपयोग temporary frames के लिए किया जा सकता है
SSD / RAMDISK model cache, generated frames, temp videos भारी write-load को RAMDISK या dedicated SSD पर रखें
UPS / power long generation jobs अचानक shutdown से model/download/output corrupt हो सकता है

३.२ GPU उपयोग की सही नीति

Dual GPU का उपयोग तीन रूपों में किया जा सकता है।

उपयोग-रूप कैसे चलेगा कब उपयोग करें
Independent Jobs GPU 0 पर ComfyUI, GPU 1 पर SkyReels या दूसरा process सबसे सरल और स्थिर विधि
Batch Split shot list को दो queues में बाँटकर दोनों GPUs पर अलग-अलग चलाना कई छोटे clips generate करने में उपयोगी
True Multi-GPU torchrun, distributed inference, model-specific parallelism केवल तब जब model और environment सचमुच support करें

सामान्य नियम यह होना चाहिए कि पहले independent GPU jobs से production pipeline बनायी जाए। True multi-GPU inference को बाद में test किया जाए, क्योंकि Windows में कई libraries distributed backend के कारण बाधा देती हैं। WSL2 या Linux environment इस काम में अधिक उपयुक्त हो सकता है।

४. Operating Environment नीति

इस project में environment discipline अत्यन्त आवश्यक है। एक ही Python environment में ComfyUI, SkyReels, audio tools, RVC, ffmpeg wrappers और experimental packages ठूँसने से dependency-conflict होगा। इसलिए अलग-अलग conda environments बनें।

४.१ Environment Map

environment name मुख्य उपयोग टिप्पणी
comfy_env ComfyUI, custom nodes, image/video workflows stable रखें; बार-बार packages न तोड़ें
skyreels_v2_env SkyReels V2 generation model requirements के अनुसार अलग रखें
skyreels_v3_env SkyReels V3 / V2V / audio-guided tests V2 से dependency अलग हो सकती है
audio_env voice cleanup, RVC, TTS, audio DSP video env से अलग रखें
edit_env ffmpeg automation, subtitles, metadata, QC lightweight environment
rag_env script corpus, embeddings, local LLM bridge writing software से जुड़ा environment

४.२ Folder Layout

AI_Film_Studio/
  00_Admin/
    hardware_notes/
    environment_notes/
    license_notes/
  01_Scripts/
    rasa_json/
    screenplay_exports/
    scene_metadata/
  02_Characters/
    character_bibles/
    face_references/
    costume_references/
    voice_profiles/
  03_ComfyUI/
    workflows/
    inputs/
    outputs/
    approved_outputs/
  04_SkyReels/
    prompts/
    input_images/
    input_videos/
    generated_clips/
    extended_clips/
  05_Audio/
    raw_voice/
    cleaned_voice/
    converted_voice/
    music_motifs/
    final_mix/
  06_Edit/
    shot_timeline/
    temp_frames/
    proxy_files/
    final_renders/
  07_QC/
    continuity_reports/
    rasabhasa_reports/
    audience_notes/

५. Model Strategy

एक ही model से पूरा film बनाना अभी व्यावहारिक नहीं है। Pipeline में अनेक models लगेंगे। प्रत्येक का कार्य स्पष्ट होगा।

५.१ Model और कार्य-विभाजन

tool/model family मुख्य कार्य production भूमिका
ComfyUI workflows image generation, reference frame, control, upscale, inpaint, style consistency shot preparation और frame refinement
SkyReels V2 text-to-video, image-to-video, long/extension workflows मुख्य moving clip generation
SkyReels V3 reference-to-video, video-to-video, audio-guided/talking avatar possibilities advanced continuity और dialogue-driven clips
image upscalers frame/detail enhancement low-res output को production-quality की ओर ले जाना
face/identity tools character face consistency close-up shots और actor identity lock
voice tools TTS, voice conversion, cleanup character voice pipeline
ffmpeg cut, join, encode, deflicker, audio merge, subtitles final assembly backbone

५.२ Model Selection Rules

requirement preferred method reason
पात्र का first look ComfyUI still image workflow still में identity fix करना सरल है
short motion test image-to-video reference image से character drift कम होता है
long movement video extension / diffusion forcing workflow clip-to-clip continuity सम्भव होती है
dialogue close-up talking avatar / audio-guided workflow lip movement और expression sync सम्भव
large crowd/war split shot strategy single prompt में chaos अधिक होगा
final polish upscale + colour grade + edit generated clip directly final न मानें

६. Script से AI Clip तक : सम्पूर्ण Pipeline

Scriptwriting software से निकला हुआ हर scene सीधे prompt में नहीं बदलना चाहिए। पहले scene को shot units में तोड़ना होगा। फिर हर shot के लिए reference, prompt, motion, sound और editing note बनेगा।

६.१ Macro Pipeline

क्रम input process output
screenplay scene scene metadata पढ़ना rasa-aware scene card
scene card shot breakdown shot list
character data reference image selection character-locked visual prompt
rasa data lighting, gesture, camera, sound mapping rasa prompt pack
still generation ComfyUI workflow approved keyframe
video generation SkyReels I2V/T2V/V2V raw clip
clip diagnosis continuity, identity, rasa, motion test accept/retry/rewrite decision
postprocess upscale, frame repair, colour, deflicker polished clip
audio voice, ambience, music, silence synced sound layer
१० editing ffmpeg/NLE assembly scene render
११ review sahṛdaya and rasabhasa test revision notes

६.२ Scene-to-Shot Breakdown

एक scene कई shots में टूटेगा। प्रत्येक shot का अपना rasa function होगा।

shot type कार्य example
Establishing Shot देशकाल और उद्दीपन विभाव स्थापित करना वन, सन्ध्या, मंद अग्नि
Character Entry आलम्बन विभाव को दृश्य में लाना नायक चुपचाप प्रवेश करता है
Reaction Shot अनुभाव पकड़ना गुरू का मौन, नायक की आँखें
Motion Shot बाहरी action नायक शस्त्र भूमि पर रखता है
Dialogue Shot वाणी-अनुभाव “मैं भयभीत था…”
Residue Shot scene का भावफल अग्नि की लौ स्थिर हो जाती है

७. Character Bible और Visual Lock

AI film production की सबसे बड़ी समस्या character consistency है। एक clip में चेहरा अच्छा बनता है, दूसरे में बदल जाता है। इसलिए character bible अत्यन्त कठोर होनी चाहिए।

७.१ Character Visual Bible

field अर्थ उपयोग
face_reference_set ५–२० approved images identity control
body_type ऊँचाई, देहबनावट, आयु full-body shots
costume_base मुख्य वस्त्र, रंग, अलंकार continuity
costume_variants युद्ध, सभा, वन, यात्रा आदि variant scene-specific output
hair_beard केश, दाढ़ी, जटा, मुकुट identity stability
expression_range allowed expressions rasabhasa और overacting से बचाव
gesture_signature विशिष्ट हाथ/देह मुद्रा character recognition
forbidden_features क्या कभी न बदले hallucination control

७.२ Character Reference Workflow

चरण कार्य output
textual character description प्रारम्भिक visual prompt
ComfyUI still generation ५०–१०० variants
manual selection ५–१० approved faces
costume lock base costume sheet
expression sheet शान्त, करुण, वीर, रौद्र आदि expressions
video motion test २–३ second clips
final character pack reusable reference folder

७.३ Character Drift Detection

drift type पहचान correction
face drift चेहरा previous reference से अलग stronger reference, image-to-video, inpaint
costume drift वस्त्र बदल गया costume prompt + negative prompt + reference
age drift पात्र बूढ़ा/युवा दिखा age lock phrase और approved image
emotion drift अनावश्यक smile/anger expression constraints
culture drift modern/foreign costume आ गया costume vocabulary और avoid list

८. Rasa-Aware Prompting

AI prompt में “cinematic, beautiful, dramatic” लिखना पर्याप्त नहीं। Prompt को विभाव, अनुभाव और रस के आधार पर बनना चाहिए।

८.१ Prompt निर्माण क्रम

क्रम source data prompt content
scene primary rasa primary rasa declaration
sthayi bhava emotional foundation
alambana vibhava characters and objects
uddipana vibhava place, time, weather, light
anubhava face, body, gesture, voice
camera shot size, lens feel, motion
motion what changes during clip
avoid list rasabhasa and hallucination control

८.२ Rasa Prompt Template

Primary Rasa: {primary_rasa}
Sthayi Bhava: {sthayi_bhava}
Scene Function: {scene_function}
Alambana Vibhava: {characters_and_objects}
Uddipana Vibhava: {place_time_light_weather_sound}
Visible Anubhava: {face_body_gesture}
Motion During Clip: {motion_description}
Camera: {shot_size_camera_movement}
Lighting and Colour: {lighting_colour_design}
Continuity: {previous_clip_residue}
Avoid: {rasabhasa_avoid_list}

८.३ Example Prompt : वीर से शान्त की ओर

Primary Rasa: Veera moving toward Shanta.
Sthayi Bhava: Utsaha disciplined by inner calm.
Scene Function: The warrior accepts duty without shouting or pride.
Alambana Vibhava: A young ancient Indian warrior and his silent guru.
Uddipana Vibhava: Forest hermitage at dusk, dim sacred fire, distant conch, still trees.
Visible Anubhava: Warrior stands upright, eyes steady, restrained breath, hands controlled.
Motion During Clip: He slowly lowers his weapon to the ground and bows without collapsing.
Camera: Medium shot, slow inward movement, no sudden cuts.
Lighting and Colour: Soft dusk blue with warm fire glow on the face.
Continuity: Previous scene ended in defeat and shame; this shot begins with silence.
Avoid: melodrama, shouting, modern costume, glamour lighting, excessive tears, superhero pose.

९. ComfyUI Workflow

ComfyUI इस system में still image generation, reference frame preparation, inpainting, upscaling, control workflows और image-to-video preconditioning का मुख्य studio होगा। इसका graph/node आधारित स्वरूप creative experimentation के लिए उपयुक्त है।

९.१ ComfyUI का production उपयोग

उपयोग workflow type output
character reference text-to-image + face selection approved character images
costume sheet image grid workflow costume variants
keyframe generation scene prompt + reference first frame / last frame
inpainting defective face/object repair corrected frame
upscaling detail enhancement high-res still/frame
control workflow pose/depth/edge/image reference controlled composition
prompt testing many variants prompt score database

९.२ ComfyUI Output Approval

हर generated image उपयोगी नहीं। Approval के लिए तालिका बनानी चाहिए।

test प्रश्न निर्णय
identity पात्र वही है? accept/retry
costume वस्त्र सही है? accept/inpaint/retry
rasa भाव सही है? accept/rewrite prompt
lighting दृश्य-रस से मेल है? accept/colour adjust
composition shot usable है? accept/crop/regenerate
cultural accuracy वस्तु/वस्त्र असंगत तो नहीं? accept/fix

९.३ ComfyUI Workflow Naming

workflows/
  character_face_base_v01.json
  character_costume_sheet_v01.json
  scene_keyframe_veera_forest_v01.json
  scene_inpaint_face_repair_v01.json
  upscale_film_frame_v01.json
  control_pose_reference_v01.json

१०. SkyReels Workflow

SkyReels को मुख्य video generation और video extension engine की तरह प्रयोग किया जा सकता है। पर यह भूलना नहीं चाहिए कि long video generation का अर्थ सीधे २ घंटे की film बनाना नहीं है। Production में practical approach shot-by-shot या segment-by-segment होगी।

१०.१ SkyReels उपयोग-विभाजन

mode input उपयोग
Text-to-Video prompt only establishing shots, environment, non-critical clips
Image-to-Video approved keyframe + prompt character-controlled motion
Video-to-Video rough/proxy video + prompt motion refinement, style transfer, continuity
Video Extension previous clip end frame/video longer sequence continuity
Audio-guided / Talking workflow voice/audio + reference dialogue close-up और talking character

१०.२ SkyReels Shot Generation Rules

rule कारण implementation
पहले still keyframe बनायें identity control अधिक स्थिर ComfyUI approved image से I2V
clip छोटा रखें छोटे clips में QC सरल ४–६ second units से शुरू करें
end frame बचायें next clip continuity last frame को next input बनायें
seed और parameters log करें reproducibility prompt JSON में save करें
failed clips delete न करें सीखने के लिए उपयोगी rejected folder में metadata सहित रखें

१०.३ Long Film Strategy

production length generation unit editing method
५ second test single shot direct review
३० second scene ५–८ shots timeline assembly
५ minute sequence ५०–८० shots proxy edit + selective regeneration
३० minute episode अनेक scenes shot database + strict naming
feature film reels/sequences professional edit discipline अनिवार्य

११. Multi-GPU Strategy

Dual RTX5090 का सही उपयोग project की गति कई गुना बढ़ा सकता है, पर गलत उपयोग crashes और dependency problems देगा।

११.१ Recommended GPU Assignment

task GPU कारण
ComfyUI interactive work GPU 0 screen + UI + image iteration
SkyReels batch generation GPU 1 long-running isolated process
Upscale batch खाली GPU queue-based allocation
Audio processing CPU या हल्का GPU video jobs से टकराव न हो
RAG/LLM writing assistant CPU/GPU optional low priority background

११.२ Process Isolation

# GPU 0 for ComfyUI
set CUDA_VISIBLE_DEVICES=0
python main.py --listen 127.0.0.1 --port 8188

# GPU 1 for SkyReels or batch job
set CUDA_VISIBLE_DEVICES=1
python generate_video.py --model_id ... --prompt ...

WSL/Linux में इसी का रूप होगा।

CUDA_VISIBLE_DEVICES=0 python main.py --listen 127.0.0.1 --port 8188
CUDA_VISIBLE_DEVICES=1 python generate_video.py --model_id ... --prompt ...

११.३ True Multi-GPU सावधानी

यदि कोई SkyReels script `torchrun —nproc_per_node=2` या distributed inference दे, तो उसे केवल उस environment में चलाएँ जहाँ PyTorch distributed backend सही काम कर रहा हो। Windows पर NCCL समर्थन की समस्या आ सकती है। WSL2 या Linux में test करना अधिक उचित है। पर पहले independent-GPU workflow बनाइए; production को experimental distributed setup पर निर्भर न रखिए।

१२. Frame Continuity और Shot Linking

AI video में continuity सबसे कठिन कार्य है। इसे केवल prompt से हल नहीं किया जा सकता। इसके लिए data, reference और editing discipline चाहिए।

१२.१ Continuity Objects

object content उपयोग
first_frame clip का पहला frame shot start control
last_frame clip का अंतिम frame next shot reference
character_ref approved face/costume images identity control
lighting_ref scene lighting image colour continuity
motion_note पात्र क्या गति करता है prompt consistency
residue_note पिछले shot का भावफल rasa continuity

१२.२ Continuity Checklist

प्रश्न pass condition failure action
पात्र वही है? face/costume stable regenerate/inpaint
प्रकाश वही है? colour temperature consistent grade/retry
camera jump उचित है? cut grammar ठीक edit बदलें
motion believable है? limb और object distortion नहीं shorter clip/retry
भाव वही चलता है? residue preserved prompt rewrite
background बदल तो नहीं गया? scene geography stable reference frame use

१३. Dialogue, Voice और Lip-Sync

Film में dialogue बहुत कठिन भाग है। AI video generation silent motion में कुछ हद तक सफल हो सकता है, पर dialogue के लिए voice, timing, mouth movement और face expression का अलग workflow चाहिए।

१३.१ Voice Pipeline

चरण कार्य output
script line dialogue text line ID
human recording लेखक/actor raw voice timing and emotion reference
cleanup noise reduction, normalization clean voice
voice conversion/TTS character voice converted dialogue
lip-sync/talking workflow face/video + audio talking clip
final mix ambience/music/dialogue balance scene audio

१३.२ Dialogue Timing Sheet

field अर्थ उपयोग
line_id unique dialogue ID sync and edit
speaker पात्र voice profile
text dialogue subtitle and TTS
emotion रसगत tone delivery
duration seconds lip-sync
pause_before silence dramatic weight
pause_after silence residue
breath_note श्वास/कम्पन naturalness

१३.३ Dialogue Clip Strategy

shot type best method reason
दूर से बोलना generated motion + separate audio lip detail critical नहीं
medium dialogue talking workflow + reference image मुख गति चाहिए
close-up strict audio-guided face workflow identity और lip-sync दोनों आवश्यक
intense emotion human voice reference essential synthetic voice अकेली कमजोर पड़ेगी
mantra/chant real recording preferable phonetic precision आवश्यक

१४. Sound Design और Rasa

चित्र से अधिक ध्वनि रस को सँभालती है। यदि ध्वनि गलत हुई तो दृश्य अच्छा होने पर भी scene टूट जाएगा। Sound को बाद में सजावट की तरह न जोड़ें; उसे scene metadata से ही निकालें।

१४.१ Rasa Sound Map

रस sound direction avoid
वीर स्पष्ट ताल, नियंत्रित percussion, गम्भीरता केवल loud drums नहीं
करुण विराम, मंद स्वर, breath texture अत्यधिक violin sadness नहीं
रौद्र तीक्ष्ण transient, अग्नि/धातु संकेत uncontrolled noise नहीं
अद्भुत खुला reverb, सूक्ष्म shimmer cheap fantasy sparkle नहीं
शान्त low noise floor, drone, मौन lifeless empty track नहीं
भयानक अस्पष्ट दूरी, low rumble, unstable texture jump scare पर निर्भरता नहीं

१४.२ Audio Asset Library

folder content use
ambience वन, नगर, नदी, सभा, युद्धभूमि scene bed
motifs character/theme musical motifs leitmotif
impacts शस्त्र, द्वार, पद, अग्नि action sync
ritual sounds शङ्ख, घंटा, मन्त्र, डमरु cultural soundscape
silence beds low-noise room tones meaningful silence
voice profiles पात्र-स्वर dialogue consistency

१५. Editing Pipeline

Generated clips को सीधे जोड़ देने से film नहीं बनती। Editing में rhythm, gaze, cut-point, reaction, silence और scene residue बनता है।

१५.१ Editing Units

unit अर्थ output
shot एक generated clip या उसके भीतर का usable भाग timeline element
beat भाव-परिवर्तन unit edit rhythm
scene एक स्थान/घटना की पूर्ण इकाई scene render
sequence अनेक scenes का भाव-कथात्मक समूह reel/episode unit
reel large production block final assembly

१५.२ ffmpeg उपयोग

ffmpeg को final assembly, proxy creation, frame extraction, audio merge, subtitles और encoding के लिए backbone बनाया जा सकता है।

कार्य ffmpeg उपयोग टिप्पणी
frame extraction last frame निकालना next generation reference
proxy generation low-res edit copy तेज editing
concat shots जोड़ना समान codec/fps रखें
audio merge dialogue/music/ambience जोड़ना sync check आवश्यक
deflicker flicker घटाना सावधानी से; detail नष्ट न हो
final encode HEVC/AV1/H.264 target platform अनुसार

१५.३ Shot Naming Convention

PROJECT_ACT_SCENE_SHOT_VERSION_STATUS.ext

Example:
NATARAJ_A01_SC03_SH05_v004_APPROVED.mp4
NATARAJ_A01_SC03_SH05_v003_REJECT_FACE_DRIFT.mp4
NATARAJ_A01_SC03_SH05_lastframe.png
NATARAJ_A01_SC03_SH05_prompt.json

१६. Quality Control

AI film production में QC केवल “clip अच्छा दिखता है या नहीं” नहीं है। QC को technical, visual, narrative, rasa और cultural स्तरों पर करना होगा।

१६.१ QC Table

QC क्षेत्र क्या जाँचना है निर्णय
technical resolution, fps, artifacts, corruption repair/regenerate
identity character face/costume accept/retry
motion हाथ, आँख, वस्तु, चाल trim/retry
narrative shot scene से जुड़ता है? edit/rewrite
rasa intended भाव आता है? prompt rewrite
sound audio भाव को पुष्ट करता है? remix
cultural वस्त्र, प्रतीक, मुद्रा उचित? replace/fix

१६.२ Rejection Codes

code अर्थ सुधार
REJECT_FACE_DRIFT चेहरा बदल गया stronger reference / I2V
REJECT_COSTUME costume गलत prompt + inpaint
REJECT_RASA भाव गलत rasa prompt rewrite
REJECT_MOTION अंग/वस्तु गति खराब shorter duration / new seed
REJECT_LIGHT lighting continuity टूटी grade or regenerate
REJECT_AUDIO dialogue/sound mismatch re-record/remix
REJECT_CULTURE सांस्कृतिक असंगति reference correction

१७. Rasa-to-Video Automation

तृतीय भाग में प्रस्तावित scriptwriting software से सीधे video generation automation बन सकता है। इसका अर्थ है — scene metadata से prompt pack, keyframe request, video job, output QC और edit-list auto-generate करना।

१७.१ Automation Data Flow

source transform target
scene_json shot breakdown shot_json
character_json reference selection character_ref_pack
rasa_json prompt template fill prompt_txt/json
prompt_json ComfyUI API call keyframe image
keyframe + prompt SkyReels job raw clip
raw clip QC script score + rejection code
approved clip edit decision list timeline

१७.२ Job Queue Fields

field अर्थ example
job_id generation job ID JOB_000341
scene_id linked scene ACT1_SC03
shot_id linked shot SH05
tool ComfyUI/SkyReels/etc. SkyReels_I2V
gpu_id कौन-सा GPU 0 or 1
prompt_path prompt file prompts/SC03_SH05.json
input_ref image/video/audio input keyframes/SH05.png
output_path generated output generated/SH05_v001.mp4
status pending/running/done/rejected done
qc_result score and notes face pass, rasa weak

१८. Practical First Project

पहला project feature film नहीं होना चाहिए। पहले ३०–६० second का rasa-controlled test बनाइए। फिर ३ minute scene। फिर १० minute short film।

१८.१ First Test Film Design

parameter value reason
duration ३०–६० seconds manageable
characters identity control सरल
location background continuity सरल
primary rasa वीर या शान्त overacting कम रखना आसान
dialogue १–३ lines lip-sync test limited
shots ६–१० editing practice
generation units ४–६ seconds QC manageable

१८.२ Suggested Test Scene

एक वनाश्रम में पराजित युवा योद्धा गुरू के सामने आता है। वह भय और लज्जा से भरा है, पर भागा नहीं। गुरू मौन रहते हैं। दूर शङ्ख सुनाई देता है। योद्धा शस्त्र भूमि पर रखकर प्रण करता है कि वह अधर्म से पीठ नहीं फेरेगा। अन्त में अग्नि की लौ स्थिर हो जाती है।

यह scene छोटा है पर संपूर्ण AI film pipeline test कर सकता है — character, costume, forest lighting, fire, silence, dialogue, voice, shot continuity, rasa transition और editing।

१८.३ Test Scene Shot List

shot description rasa function
SH01 वनाश्रम सन्ध्या, मंद अग्नि उद्दीपन विभाव
SH02 नायक दूर से आता है आलम्बन प्रवेश
SH03 गुरू का मौन close shot शान्त विभाव
SH04 नायक की लज्जित पर स्थिर दृष्टि करुण से वीर transition
SH05 शस्त्र भूमि पर रखना संकल्प क्रिया
SH06 dialogue line वाचिक अनुभाव
SH07 अग्नि की लौ स्थिर scene residue

१९. Installation अनुशासन

इस लेख में exact package versions स्थायी रूप से न लिखना ही ठीक है, क्योंकि AI ecosystem बदलता रहता है। फिर भी installation का अनुशासन स्थिर रहेगा।

१९.१ Installation Rules

नियम कारण पालन-विधि
अलग environment dependency conflict से बचना conda env per tool
पहले official install random forks से बचना official repo/docs से setup
working snapshot save बाद में breakage से बचना requirements freeze
model path fixed repeated download से बचना central models folder
test after every change कौन-सा package तोड़ा पता चले small test prompt

१९.२ Environment Snapshot

# after a working setup
pip freeze > requirements_working_YYYYMMDD.txt
conda env export > env_working_YYYYMMDD.yml

१९.३ Model Storage Policy

model type folder note
ComfyUI checkpoints models/comfy/checkpoints stable and experimental अलग रखें
VAE/control models models/comfy/control workflow notes में version लिखें
SkyReels models models/skyreels V2, V3, T2V, I2V अलग
voice models models/audio_voice license और speaker consent notes रखें
embeddings models/embeddings writing/RAG environment से जुड़ा

२०. Thermal और Power Management

Long video generation GPU को घण्टों तक load में रख सकती है। इसलिए thermal discipline creative pipeline का भाग है।

२०.१ Monitoring

parameter क्यों देखें action
GPU temperature throttling और hardware safety fan curve / power limit
VRAM usage out-of-memory से बचना resolution/frames/offload घटाएँ
GPU power UPS और heat load undervolt/power cap
CPU temperature preprocessing/editing bottleneck airflow/cooling
disk writes SSD wear और bottleneck RAMDISK/temp disk
room temperature sustained performance AC/airflow

२०.२ Safe Production Policy

स्थिति नीति
first install test short ५-second clip only
new model test GPU monitoring open रखें
overnight job only after stable test runs
high room temperature lower power cap / shorter batches
repeated OOM model offload, lower resolution, fewer frames

२१. Research and Dataset Creation

हर generated clip भविष्य का training data भी है। इसलिए output को व्यवस्थित रखना चाहिए। Failed clips भी मूल्यवान हैं क्योंकि वे बताते हैं कि कौन-सा prompt या parameter गलत था।

२१.१ Clip Metadata

field अर्थ उपयोग
clip_id unique ID database
scene_id source scene continuity
shot_id source shot editing
prompt exact prompt reproducibility
model model/checkpoint comparison
seed seed value regeneration
resolution output size QC
fps frame rate editing
status approved/rejected training filter
rejection_reason यदि rejected prompt improvement

२१.२ Future Fine-Tuning Dataset

dataset subset content future use
approved keyframes best still frames character/style LoRA or reference corpus
approved clips usable motion clips motion/style analysis
rejected clips failure cases rasabhasa detector training
prompt-output pairs prompt and result prompt engineering model
audience feedback human response rasa evaluation model

२२. Digital Humanities उपयोग

यह pipeline केवल film industry के लिए नहीं। Classical Sanskrit corpus, Purana adaptations, dance-theatre, rasa education और performance studies में भी इसका उपयोग होगा।

२२.१ उपयोग क्षेत्र

क्षेत्र उपयोग output
पुराणकथा रूपान्तरण कथा से दृश्य-पटकथा AI scene previews
नाट्यशास्त्र शिक्षा रस, भाव, अभिनय demonstration visual teaching clips
actor training अनुभाव और वाणी अभ्यास reference videos
dance-theatre मुद्रा, लय, दृश्य कल्पना choreographic animatics
cinematography education रसगत lighting/camera shot comparison
sound-design शिक्षा rasa-sound mapping audio scene studies
digital corpus studies text-to-scene mapping searchable aesthetic database

२३. Ethical and Cultural Rules

AI video tools अत्यन्त शक्तिशाली हैं। उनका उपयोग अनुशासन से होना चाहिए।

२३.१ मूल नियम

नियम कारण पालन
जीवित व्यक्तियों की likeness सावधानी से consent और misuse risk लिखित अनुमति या fictionalization
धार्मिक प्रतीकों का cheap उपयोग न हो सांस्कृतिक मर्यादा script review और source grounding
हिंसा और विकृति का सीमित उपयोग बीभत्स/रौद्र का rasabhasa risk dharma-function स्पष्ट
fake history न बनायें दर्शक भ्रमित होगा historical note और creative license अलग
voice cloning में अनुमति नैतिक और विधिक कारण consent record रखें

२३.२ Classical Adaptation Discipline

स्तर क्या करें क्या न करें
स्रोत मूल कथा, पाठ, टीका देखें केवल internet summary पर भरोसा नहीं
पात्र चरित्रधर्म सुरक्षित रखें आधुनिक cliché से विकृत न करें
भाषा प्रसंगानुकूल शैली असंगत slang न जोड़ें
दृश्य प्रतीक और वस्त्र सोचकर random fantasy costume नहीं
अन्त मूल भावफल समझें केवल shock ending नहीं

२४. Roadmap

२४.१ Phase 1 : ३०-second Proof of Concept

deliverable success criterion
२ characters visual bible identity stable in stills
१ location keyframe lighting stable
७-shot scene every shot generated
dialogue line clean audio and sync
final ३०-second render watchable scene
QC report specific pass/fail notes

२४.२ Phase 2 : ३-minute Rasa Scene

deliverable success criterion
२०–३० shots scene continuity acceptable
३–५ dialogue lines voice consistency
music/ambience layer rasa support
shot database all prompts logged
audience review intended rasa mostly received

२४.३ Phase 3 : १०-minute Short Film

deliverable success criterion
३–५ scenes act-like structure
character arc visible transformation
rasa curve planned emotional progression
repeatable workflow new scenes generated without chaos
full documentation future scaling possible

२४.४ Phase 4 : Feature Workflow

deliverable success criterion
sequence bible film divided into reels/sequences
asset library characters, locations, sound motifs
batch generation queue GPU scheduling reliable
editing discipline approved timeline with proxies
final QC technical + rasa + cultural review

२५. निष्कर्ष

ComfyUI, SkyReels और अन्य AI video tools को यदि केवल prompt-to-clip खेल की तरह लिया जाए तो वे थोड़े समय का चमत्कार देंगे। पर यदि उन्हें रस−सिद्धान्त आधारित scriptwriting, character bible, visual lock, sound design, continuity control और QC discipline से जोड़ा जाए तो वे एक नये प्रकार के local AI film studio का आधार बन सकते हैं।

Z890aiTop + dual RTX5090 + 256GB RAM इस दिशा में पर्याप्त शक्तिशाली आधार देता है, पर hardware अकेला film नहीं बनाता। Film तब बनेगी जब script, पात्र, रस, विभाव, अनुभाव, ध्वनि, दृश्य और editing एक ही अनुशासित workflow में आयेंगे।

इसलिए इस चतुर्थ भाग का सार है —

पहले रस-सिद्ध scene बनाइए, फिर AI से frame बनाइए, फिर frame से motion बनाइए, फिर motion से scene बनाइए, और scene से चलचित्र। उल्टा क्रम अपनाने पर केवल बिखरे हुए सुन्दर clips मिलेंगे, film नहीं।

२६. उत्कर्ष

इस प्रणाली का अन्तिम फल केवल इतना नहीं कि व्यक्ति अपने घर में AI film बना सके। वास्तविक उत्कर्ष यह है कि भारतीय नाट्यबुद्धि, रससिद्धान्त, ध्वनिशास्त्र, अभिनय, दृश्य-विन्यास और digital computation मिलकर एक नये discipline को जन्म दें — भारतीय Aesthetic Computing

जब script का प्रत्येक scene रस से annotated होगा, जब character dharma data में सुरक्षित होगा, जब generated frame विभाव-अनुभाव से जाँचा जाएगा, जब sound design स्थायीभाव को पोषित करेगा, जब audience response पुनः system में लौटेगा — तब AI केवल machine नहीं रहेगा; वह मनुष्य-रचनाकार की मध्यमा-शक्ति का विस्तारित उपकरण बन जाएगा।

इसका लक्ष्य किसी विदेशी film industry की नकल नहीं है। लक्ष्य है —

भारतीय नाट्यबुद्धि को digital युग में पुनः कार्यशील बनाना।


चतुर्थ भाग का समापन-सूत्र
AI चलचित्र का मूल prompt नहीं, rasa-script है। Model गति देता है, GPU शक्ति देता है, editor रूप देता है, sound चित्त देता है; पर रस ही दृश्य को स्मृति में बदलता है।

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-Noncommercial 2.5 License.