|
Table of Contents
|
रस−सिद्धान्तम् : वैदिक सौन्दर्यशास्त्र और नाट्यशास्त्रीय रसविज्ञान
भाग ४ : ComfyUI / SkyReels आदि द्वारा वास्तविक कृत्रिमबुद्धि चलचित्र का निर्माण
यह चतुर्थ भाग तृतीय भाग में वर्णित रस−सिद्धान्त आधारित scriptwriting software को वास्तविक AI चलचित्र-निर्माण की दिशा में ले जाता है। यहाँ लक्ष्य केवल prompt लिखकर छोटे video clip बनाना नहीं है। लक्ष्य है — कथा, पात्र, रस, दृश्य, ध्वनि, संवाद, continuity, editing और final rendering को एक अनुशासित local AI film pipeline में बदलना, विशेषतः Z890aiTop + dual RTX5090 + 256GB RAM जैसे workstation पर।
१. चतुर्थ भाग की भूमिका
AI video generation का क्षेत्र अभी तीव्र परिवर्तन में है। आज कोई model ५ से १० seconds का अच्छा clip बनाता है, कल कोई model frame control या video extension दे देता है, और परसों कोई नया version multi-subject reference या talking-avatar जोड़ देता है। इसलिए स्थायी प्रणाली किसी एक model पर नहीं बनानी चाहिए। स्थायी प्रणाली workflow पर बननी चाहिए।
इस लेख का मुख्य लक्ष्य है — ऐसे workflow की रचना करना जिसमें scriptwriting software से निकला हुआ rasa-aware scene data ComfyUI, SkyReels, image generation, video generation, voice conversion, sound design, editing और final export तक क्रमशः पहुँचे।
सिद्धान्त यह है :
AI model उपकरण है; चलचित्र का चित्त script, पात्र, रस और continuity से आता है।
२. मूल प्रतिज्ञा : Clip नहीं, चलचित्र
सामान्य AI video प्रयोग में लोग prompt देते हैं, model clip बनाता है, और कुछ क्षण के लिए विस्मय होता है। पर film production में यही पर्याप्त नहीं। Film में पात्र repeat होना चाहिए, costume बदलना नहीं चाहिए, मुखमुद्रा स्थिर रहनी चाहिए, भाषा और आवाज़ character से जुड़ी रहनी चाहिए, camera continuity होनी चाहिए, और scene-to-scene rasa progression टूटनी नहीं चाहिए।
इसलिए इस प्रणाली में clip-generation को चार कठोर नियमों में बाँधा जाएगा।
| नियम | अर्थ | व्यावहारिक परिणाम |
|---|---|---|
| Character Lock | पात्र का चेहरा, देह, वस्त्र, वाणी और भावधर्म स्थिर रहे | हर पात्र के लिए reference images, voice profile और character bible बनेगा |
| Rasa Lock | scene का प्रधान रस और स्थायीभाव generation में सुरक्षित रहे | prompt, lighting, gesture और sound उसी रस से नियंत्रित होंगे |
| Continuity Lock | पिछले clip का frame, lighting और भाव अगले clip से जुड़ें | start/end frames, keyframes और reference videos का उपयोग होगा |
| Edit Lock | हर generated clip final film में उपयोगी length, motion और cut-point दे | shot-list और editing-map पहले बनेगा, generation बाद में होगा |
३. Hardware आधार : Z890aiTop + dual RTX5090 + 256GB RAM
Z890aiTop + dual RTX5090 + 256GB RAM जैसी machine consumer-level hardware में अत्यन्त शक्तिशाली local AI film studio बन सकती है, पर इसे सही ढंग से उपयोग करना होगा। दो RTX5090 GPUs को अपने-आप 64GB unified VRAM नहीं माना जा सकता। व्यवहार में प्रत्येक GPU 32GB VRAM वाला स्वतंत्र compute device है। अतः system design में GPU विभाजन स्पष्ट होना चाहिए।
३.१ Hardware का उपयोग-विभाजन
| घटक | उपयोग | सावधानी |
|---|---|---|
| GPU 0 : RTX5090 32GB | ComfyUI image/video workflow, image generation, upscale, control workflow | display load कम रखें; heavy generation के समय browser/video playback न चलाएँ |
| GPU 1 : RTX5090 32GB | SkyReels, video extension, batch inference, alternate generation queue | long job के समय temperature और VRAM देखना आवश्यक |
| CPU : high-end Intel | preprocessing, ffmpeg, indexing, audio, file management, light inference | CPU thermal throttling से बचें |
| RAM : 256GB | corpus cache, embeddings, frame cache, video frames, multiple Python envs | RAMDISK का उपयोग temporary frames के लिए किया जा सकता है |
| SSD / RAMDISK | model cache, generated frames, temp videos | भारी write-load को RAMDISK या dedicated SSD पर रखें |
| UPS / power | long generation jobs | अचानक shutdown से model/download/output corrupt हो सकता है |
३.२ GPU उपयोग की सही नीति
Dual GPU का उपयोग तीन रूपों में किया जा सकता है।
| उपयोग-रूप | कैसे चलेगा | कब उपयोग करें |
|---|---|---|
| Independent Jobs | GPU 0 पर ComfyUI, GPU 1 पर SkyReels या दूसरा process | सबसे सरल और स्थिर विधि |
| Batch Split | shot list को दो queues में बाँटकर दोनों GPUs पर अलग-अलग चलाना | कई छोटे clips generate करने में उपयोगी |
| True Multi-GPU | torchrun, distributed inference, model-specific parallelism | केवल तब जब model और environment सचमुच support करें |
सामान्य नियम यह होना चाहिए कि पहले independent GPU jobs से production pipeline बनायी जाए। True multi-GPU inference को बाद में test किया जाए, क्योंकि Windows में कई libraries distributed backend के कारण बाधा देती हैं। WSL2 या Linux environment इस काम में अधिक उपयुक्त हो सकता है।
४. Operating Environment नीति
इस project में environment discipline अत्यन्त आवश्यक है। एक ही Python environment में ComfyUI, SkyReels, audio tools, RVC, ffmpeg wrappers और experimental packages ठूँसने से dependency-conflict होगा। इसलिए अलग-अलग conda environments बनें।
४.१ Environment Map
| environment name | मुख्य उपयोग | टिप्पणी |
|---|---|---|
| comfy_env | ComfyUI, custom nodes, image/video workflows | stable रखें; बार-बार packages न तोड़ें |
| skyreels_v2_env | SkyReels V2 generation | model requirements के अनुसार अलग रखें |
| skyreels_v3_env | SkyReels V3 / V2V / audio-guided tests | V2 से dependency अलग हो सकती है |
| audio_env | voice cleanup, RVC, TTS, audio DSP | video env से अलग रखें |
| edit_env | ffmpeg automation, subtitles, metadata, QC | lightweight environment |
| rag_env | script corpus, embeddings, local LLM bridge | writing software से जुड़ा environment |
४.२ Folder Layout
AI_Film_Studio/
00_Admin/
hardware_notes/
environment_notes/
license_notes/
01_Scripts/
rasa_json/
screenplay_exports/
scene_metadata/
02_Characters/
character_bibles/
face_references/
costume_references/
voice_profiles/
03_ComfyUI/
workflows/
inputs/
outputs/
approved_outputs/
04_SkyReels/
prompts/
input_images/
input_videos/
generated_clips/
extended_clips/
05_Audio/
raw_voice/
cleaned_voice/
converted_voice/
music_motifs/
final_mix/
06_Edit/
shot_timeline/
temp_frames/
proxy_files/
final_renders/
07_QC/
continuity_reports/
rasabhasa_reports/
audience_notes/५. Model Strategy
एक ही model से पूरा film बनाना अभी व्यावहारिक नहीं है। Pipeline में अनेक models लगेंगे। प्रत्येक का कार्य स्पष्ट होगा।
५.१ Model और कार्य-विभाजन
| tool/model family | मुख्य कार्य | production भूमिका |
|---|---|---|
| ComfyUI workflows | image generation, reference frame, control, upscale, inpaint, style consistency | shot preparation और frame refinement |
| SkyReels V2 | text-to-video, image-to-video, long/extension workflows | मुख्य moving clip generation |
| SkyReels V3 | reference-to-video, video-to-video, audio-guided/talking avatar possibilities | advanced continuity और dialogue-driven clips |
| image upscalers | frame/detail enhancement | low-res output को production-quality की ओर ले जाना |
| face/identity tools | character face consistency | close-up shots और actor identity lock |
| voice tools | TTS, voice conversion, cleanup | character voice pipeline |
| ffmpeg | cut, join, encode, deflicker, audio merge, subtitles | final assembly backbone |
५.२ Model Selection Rules
| requirement | preferred method | reason |
|---|---|---|
| पात्र का first look | ComfyUI still image workflow | still में identity fix करना सरल है |
| short motion test | image-to-video | reference image से character drift कम होता है |
| long movement | video extension / diffusion forcing workflow | clip-to-clip continuity सम्भव होती है |
| dialogue close-up | talking avatar / audio-guided workflow | lip movement और expression sync सम्भव |
| large crowd/war | split shot strategy | single prompt में chaos अधिक होगा |
| final polish | upscale + colour grade + edit | generated clip directly final न मानें |
६. Script से AI Clip तक : सम्पूर्ण Pipeline
Scriptwriting software से निकला हुआ हर scene सीधे prompt में नहीं बदलना चाहिए। पहले scene को shot units में तोड़ना होगा। फिर हर shot के लिए reference, prompt, motion, sound और editing note बनेगा।
६.१ Macro Pipeline
| क्रम | input | process | output |
|---|---|---|---|
| १ | screenplay scene | scene metadata पढ़ना | rasa-aware scene card |
| २ | scene card | shot breakdown | shot list |
| ३ | character data | reference image selection | character-locked visual prompt |
| ४ | rasa data | lighting, gesture, camera, sound mapping | rasa prompt pack |
| ५ | still generation | ComfyUI workflow | approved keyframe |
| ६ | video generation | SkyReels I2V/T2V/V2V | raw clip |
| ७ | clip diagnosis | continuity, identity, rasa, motion test | accept/retry/rewrite decision |
| ८ | postprocess | upscale, frame repair, colour, deflicker | polished clip |
| ९ | audio | voice, ambience, music, silence | synced sound layer |
| १० | editing | ffmpeg/NLE assembly | scene render |
| ११ | review | sahṛdaya and rasabhasa test | revision notes |
६.२ Scene-to-Shot Breakdown
एक scene कई shots में टूटेगा। प्रत्येक shot का अपना rasa function होगा।
| shot type | कार्य | example |
|---|---|---|
| Establishing Shot | देशकाल और उद्दीपन विभाव स्थापित करना | वन, सन्ध्या, मंद अग्नि |
| Character Entry | आलम्बन विभाव को दृश्य में लाना | नायक चुपचाप प्रवेश करता है |
| Reaction Shot | अनुभाव पकड़ना | गुरू का मौन, नायक की आँखें |
| Motion Shot | बाहरी action | नायक शस्त्र भूमि पर रखता है |
| Dialogue Shot | वाणी-अनुभाव | “मैं भयभीत था…” |
| Residue Shot | scene का भावफल | अग्नि की लौ स्थिर हो जाती है |
७. Character Bible और Visual Lock
AI film production की सबसे बड़ी समस्या character consistency है। एक clip में चेहरा अच्छा बनता है, दूसरे में बदल जाता है। इसलिए character bible अत्यन्त कठोर होनी चाहिए।
७.१ Character Visual Bible
| field | अर्थ | उपयोग |
|---|---|---|
| face_reference_set | ५–२० approved images | identity control |
| body_type | ऊँचाई, देहबनावट, आयु | full-body shots |
| costume_base | मुख्य वस्त्र, रंग, अलंकार | continuity |
| costume_variants | युद्ध, सभा, वन, यात्रा आदि variant | scene-specific output |
| hair_beard | केश, दाढ़ी, जटा, मुकुट | identity stability |
| expression_range | allowed expressions | rasabhasa और overacting से बचाव |
| gesture_signature | विशिष्ट हाथ/देह मुद्रा | character recognition |
| forbidden_features | क्या कभी न बदले | hallucination control |
७.२ Character Reference Workflow
| चरण | कार्य | output |
|---|---|---|
| १ | textual character description | प्रारम्भिक visual prompt |
| २ | ComfyUI still generation | ५०–१०० variants |
| ३ | manual selection | ५–१० approved faces |
| ४ | costume lock | base costume sheet |
| ५ | expression sheet | शान्त, करुण, वीर, रौद्र आदि expressions |
| ६ | video motion test | २–३ second clips |
| ७ | final character pack | reusable reference folder |
७.३ Character Drift Detection
| drift type | पहचान | correction |
|---|---|---|
| face drift | चेहरा previous reference से अलग | stronger reference, image-to-video, inpaint |
| costume drift | वस्त्र बदल गया | costume prompt + negative prompt + reference |
| age drift | पात्र बूढ़ा/युवा दिखा | age lock phrase और approved image |
| emotion drift | अनावश्यक smile/anger | expression constraints |
| culture drift | modern/foreign costume आ गया | costume vocabulary और avoid list |
८. Rasa-Aware Prompting
AI prompt में “cinematic, beautiful, dramatic” लिखना पर्याप्त नहीं। Prompt को विभाव, अनुभाव और रस के आधार पर बनना चाहिए।
८.१ Prompt निर्माण क्रम
| क्रम | source data | prompt content |
|---|---|---|
| १ | scene primary rasa | primary rasa declaration |
| २ | sthayi bhava | emotional foundation |
| ३ | alambana vibhava | characters and objects |
| ४ | uddipana vibhava | place, time, weather, light |
| ५ | anubhava | face, body, gesture, voice |
| ६ | camera | shot size, lens feel, motion |
| ७ | motion | what changes during clip |
| ८ | avoid list | rasabhasa and hallucination control |
८.२ Rasa Prompt Template
Primary Rasa: {primary_rasa}
Sthayi Bhava: {sthayi_bhava}
Scene Function: {scene_function}
Alambana Vibhava: {characters_and_objects}
Uddipana Vibhava: {place_time_light_weather_sound}
Visible Anubhava: {face_body_gesture}
Motion During Clip: {motion_description}
Camera: {shot_size_camera_movement}
Lighting and Colour: {lighting_colour_design}
Continuity: {previous_clip_residue}
Avoid: {rasabhasa_avoid_list}८.३ Example Prompt : वीर से शान्त की ओर
Primary Rasa: Veera moving toward Shanta.
Sthayi Bhava: Utsaha disciplined by inner calm.
Scene Function: The warrior accepts duty without shouting or pride.
Alambana Vibhava: A young ancient Indian warrior and his silent guru.
Uddipana Vibhava: Forest hermitage at dusk, dim sacred fire, distant conch, still trees.
Visible Anubhava: Warrior stands upright, eyes steady, restrained breath, hands controlled.
Motion During Clip: He slowly lowers his weapon to the ground and bows without collapsing.
Camera: Medium shot, slow inward movement, no sudden cuts.
Lighting and Colour: Soft dusk blue with warm fire glow on the face.
Continuity: Previous scene ended in defeat and shame; this shot begins with silence.
Avoid: melodrama, shouting, modern costume, glamour lighting, excessive tears, superhero pose.९. ComfyUI Workflow
ComfyUI इस system में still image generation, reference frame preparation, inpainting, upscaling, control workflows और image-to-video preconditioning का मुख्य studio होगा। इसका graph/node आधारित स्वरूप creative experimentation के लिए उपयुक्त है।
९.१ ComfyUI का production उपयोग
| उपयोग | workflow type | output |
|---|---|---|
| character reference | text-to-image + face selection | approved character images |
| costume sheet | image grid workflow | costume variants |
| keyframe generation | scene prompt + reference | first frame / last frame |
| inpainting | defective face/object repair | corrected frame |
| upscaling | detail enhancement | high-res still/frame |
| control workflow | pose/depth/edge/image reference | controlled composition |
| prompt testing | many variants | prompt score database |
९.२ ComfyUI Output Approval
हर generated image उपयोगी नहीं। Approval के लिए तालिका बनानी चाहिए।
| test | प्रश्न | निर्णय |
|---|---|---|
| identity | पात्र वही है? | accept/retry |
| costume | वस्त्र सही है? | accept/inpaint/retry |
| rasa | भाव सही है? | accept/rewrite prompt |
| lighting | दृश्य-रस से मेल है? | accept/colour adjust |
| composition | shot usable है? | accept/crop/regenerate |
| cultural accuracy | वस्तु/वस्त्र असंगत तो नहीं? | accept/fix |
९.३ ComfyUI Workflow Naming
workflows/
character_face_base_v01.json
character_costume_sheet_v01.json
scene_keyframe_veera_forest_v01.json
scene_inpaint_face_repair_v01.json
upscale_film_frame_v01.json
control_pose_reference_v01.json१०. SkyReels Workflow
SkyReels को मुख्य video generation और video extension engine की तरह प्रयोग किया जा सकता है। पर यह भूलना नहीं चाहिए कि long video generation का अर्थ सीधे २ घंटे की film बनाना नहीं है। Production में practical approach shot-by-shot या segment-by-segment होगी।
१०.१ SkyReels उपयोग-विभाजन
| mode | input | उपयोग |
|---|---|---|
| Text-to-Video | prompt only | establishing shots, environment, non-critical clips |
| Image-to-Video | approved keyframe + prompt | character-controlled motion |
| Video-to-Video | rough/proxy video + prompt | motion refinement, style transfer, continuity |
| Video Extension | previous clip end frame/video | longer sequence continuity |
| Audio-guided / Talking workflow | voice/audio + reference | dialogue close-up और talking character |
१०.२ SkyReels Shot Generation Rules
| rule | कारण | implementation |
|---|---|---|
| पहले still keyframe बनायें | identity control अधिक स्थिर | ComfyUI approved image से I2V |
| clip छोटा रखें | छोटे clips में QC सरल | ४–६ second units से शुरू करें |
| end frame बचायें | next clip continuity | last frame को next input बनायें |
| seed और parameters log करें | reproducibility | prompt JSON में save करें |
| failed clips delete न करें | सीखने के लिए उपयोगी | rejected folder में metadata सहित रखें |
१०.३ Long Film Strategy
| production length | generation unit | editing method |
|---|---|---|
| ५ second test | single shot | direct review |
| ३० second scene | ५–८ shots | timeline assembly |
| ५ minute sequence | ५०–८० shots | proxy edit + selective regeneration |
| ३० minute episode | अनेक scenes | shot database + strict naming |
| feature film | reels/sequences | professional edit discipline अनिवार्य |
११. Multi-GPU Strategy
Dual RTX5090 का सही उपयोग project की गति कई गुना बढ़ा सकता है, पर गलत उपयोग crashes और dependency problems देगा।
११.१ Recommended GPU Assignment
| task | GPU | कारण |
|---|---|---|
| ComfyUI interactive work | GPU 0 | screen + UI + image iteration |
| SkyReels batch generation | GPU 1 | long-running isolated process |
| Upscale batch | खाली GPU | queue-based allocation |
| Audio processing | CPU या हल्का GPU | video jobs से टकराव न हो |
| RAG/LLM writing assistant | CPU/GPU optional | low priority background |
११.२ Process Isolation
# GPU 0 for ComfyUI
set CUDA_VISIBLE_DEVICES=0
python main.py --listen 127.0.0.1 --port 8188
# GPU 1 for SkyReels or batch job
set CUDA_VISIBLE_DEVICES=1
python generate_video.py --model_id ... --prompt ...WSL/Linux में इसी का रूप होगा।
CUDA_VISIBLE_DEVICES=0 python main.py --listen 127.0.0.1 --port 8188
CUDA_VISIBLE_DEVICES=1 python generate_video.py --model_id ... --prompt ...११.३ True Multi-GPU सावधानी
यदि कोई SkyReels script `torchrun —nproc_per_node=2` या distributed inference दे, तो उसे केवल उस environment में चलाएँ जहाँ PyTorch distributed backend सही काम कर रहा हो। Windows पर NCCL समर्थन की समस्या आ सकती है। WSL2 या Linux में test करना अधिक उचित है। पर पहले independent-GPU workflow बनाइए; production को experimental distributed setup पर निर्भर न रखिए।
१२. Frame Continuity और Shot Linking
AI video में continuity सबसे कठिन कार्य है। इसे केवल prompt से हल नहीं किया जा सकता। इसके लिए data, reference और editing discipline चाहिए।
१२.१ Continuity Objects
| object | content | उपयोग |
|---|---|---|
| first_frame | clip का पहला frame | shot start control |
| last_frame | clip का अंतिम frame | next shot reference |
| character_ref | approved face/costume images | identity control |
| lighting_ref | scene lighting image | colour continuity |
| motion_note | पात्र क्या गति करता है | prompt consistency |
| residue_note | पिछले shot का भावफल | rasa continuity |
१२.२ Continuity Checklist
| प्रश्न | pass condition | failure action |
|---|---|---|
| पात्र वही है? | face/costume stable | regenerate/inpaint |
| प्रकाश वही है? | colour temperature consistent | grade/retry |
| camera jump उचित है? | cut grammar ठीक | edit बदलें |
| motion believable है? | limb और object distortion नहीं | shorter clip/retry |
| भाव वही चलता है? | residue preserved | prompt rewrite |
| background बदल तो नहीं गया? | scene geography stable | reference frame use |
१३. Dialogue, Voice और Lip-Sync
Film में dialogue बहुत कठिन भाग है। AI video generation silent motion में कुछ हद तक सफल हो सकता है, पर dialogue के लिए voice, timing, mouth movement और face expression का अलग workflow चाहिए।
१३.१ Voice Pipeline
| चरण | कार्य | output |
|---|---|---|
| script line | dialogue text | line ID |
| human recording | लेखक/actor raw voice | timing and emotion reference |
| cleanup | noise reduction, normalization | clean voice |
| voice conversion/TTS | character voice | converted dialogue |
| lip-sync/talking workflow | face/video + audio | talking clip |
| final mix | ambience/music/dialogue balance | scene audio |
१३.२ Dialogue Timing Sheet
| field | अर्थ | उपयोग |
|---|---|---|
| line_id | unique dialogue ID | sync and edit |
| speaker | पात्र | voice profile |
| text | dialogue | subtitle and TTS |
| emotion | रसगत tone | delivery |
| duration | seconds | lip-sync |
| pause_before | silence | dramatic weight |
| pause_after | silence | residue |
| breath_note | श्वास/कम्पन | naturalness |
१३.३ Dialogue Clip Strategy
| shot type | best method | reason |
|---|---|---|
| दूर से बोलना | generated motion + separate audio | lip detail critical नहीं |
| medium dialogue | talking workflow + reference image | मुख गति चाहिए |
| close-up | strict audio-guided face workflow | identity और lip-sync दोनों आवश्यक |
| intense emotion | human voice reference essential | synthetic voice अकेली कमजोर पड़ेगी |
| mantra/chant | real recording preferable | phonetic precision आवश्यक |
१४. Sound Design और Rasa
चित्र से अधिक ध्वनि रस को सँभालती है। यदि ध्वनि गलत हुई तो दृश्य अच्छा होने पर भी scene टूट जाएगा। Sound को बाद में सजावट की तरह न जोड़ें; उसे scene metadata से ही निकालें।
१४.१ Rasa Sound Map
| रस | sound direction | avoid |
|---|---|---|
| वीर | स्पष्ट ताल, नियंत्रित percussion, गम्भीरता | केवल loud drums नहीं |
| करुण | विराम, मंद स्वर, breath texture | अत्यधिक violin sadness नहीं |
| रौद्र | तीक्ष्ण transient, अग्नि/धातु संकेत | uncontrolled noise नहीं |
| अद्भुत | खुला reverb, सूक्ष्म shimmer | cheap fantasy sparkle नहीं |
| शान्त | low noise floor, drone, मौन | lifeless empty track नहीं |
| भयानक | अस्पष्ट दूरी, low rumble, unstable texture | jump scare पर निर्भरता नहीं |
१४.२ Audio Asset Library
| folder | content | use |
|---|---|---|
| ambience | वन, नगर, नदी, सभा, युद्धभूमि | scene bed |
| motifs | character/theme musical motifs | leitmotif |
| impacts | शस्त्र, द्वार, पद, अग्नि | action sync |
| ritual sounds | शङ्ख, घंटा, मन्त्र, डमरु | cultural soundscape |
| silence beds | low-noise room tones | meaningful silence |
| voice profiles | पात्र-स्वर | dialogue consistency |
१५. Editing Pipeline
Generated clips को सीधे जोड़ देने से film नहीं बनती। Editing में rhythm, gaze, cut-point, reaction, silence और scene residue बनता है।
१५.१ Editing Units
| unit | अर्थ | output |
|---|---|---|
| shot | एक generated clip या उसके भीतर का usable भाग | timeline element |
| beat | भाव-परिवर्तन unit | edit rhythm |
| scene | एक स्थान/घटना की पूर्ण इकाई | scene render |
| sequence | अनेक scenes का भाव-कथात्मक समूह | reel/episode unit |
| reel | large production block | final assembly |
१५.२ ffmpeg उपयोग
ffmpeg को final assembly, proxy creation, frame extraction, audio merge, subtitles और encoding के लिए backbone बनाया जा सकता है।
| कार्य | ffmpeg उपयोग | टिप्पणी |
|---|---|---|
| frame extraction | last frame निकालना | next generation reference |
| proxy generation | low-res edit copy | तेज editing |
| concat | shots जोड़ना | समान codec/fps रखें |
| audio merge | dialogue/music/ambience जोड़ना | sync check आवश्यक |
| deflicker | flicker घटाना | सावधानी से; detail नष्ट न हो |
| final encode | HEVC/AV1/H.264 | target platform अनुसार |
१५.३ Shot Naming Convention
PROJECT_ACT_SCENE_SHOT_VERSION_STATUS.ext
Example:
NATARAJ_A01_SC03_SH05_v004_APPROVED.mp4
NATARAJ_A01_SC03_SH05_v003_REJECT_FACE_DRIFT.mp4
NATARAJ_A01_SC03_SH05_lastframe.png
NATARAJ_A01_SC03_SH05_prompt.json१६. Quality Control
AI film production में QC केवल “clip अच्छा दिखता है या नहीं” नहीं है। QC को technical, visual, narrative, rasa और cultural स्तरों पर करना होगा।
१६.१ QC Table
| QC क्षेत्र | क्या जाँचना है | निर्णय |
|---|---|---|
| technical | resolution, fps, artifacts, corruption | repair/regenerate |
| identity | character face/costume | accept/retry |
| motion | हाथ, आँख, वस्तु, चाल | trim/retry |
| narrative | shot scene से जुड़ता है? | edit/rewrite |
| rasa | intended भाव आता है? | prompt rewrite |
| sound | audio भाव को पुष्ट करता है? | remix |
| cultural | वस्त्र, प्रतीक, मुद्रा उचित? | replace/fix |
१६.२ Rejection Codes
| code | अर्थ | सुधार |
|---|---|---|
| REJECT_FACE_DRIFT | चेहरा बदल गया | stronger reference / I2V |
| REJECT_COSTUME | costume गलत | prompt + inpaint |
| REJECT_RASA | भाव गलत | rasa prompt rewrite |
| REJECT_MOTION | अंग/वस्तु गति खराब | shorter duration / new seed |
| REJECT_LIGHT | lighting continuity टूटी | grade or regenerate |
| REJECT_AUDIO | dialogue/sound mismatch | re-record/remix |
| REJECT_CULTURE | सांस्कृतिक असंगति | reference correction |
१७. Rasa-to-Video Automation
तृतीय भाग में प्रस्तावित scriptwriting software से सीधे video generation automation बन सकता है। इसका अर्थ है — scene metadata से prompt pack, keyframe request, video job, output QC और edit-list auto-generate करना।
१७.१ Automation Data Flow
| source | transform | target |
|---|---|---|
| scene_json | shot breakdown | shot_json |
| character_json | reference selection | character_ref_pack |
| rasa_json | prompt template fill | prompt_txt/json |
| prompt_json | ComfyUI API call | keyframe image |
| keyframe + prompt | SkyReels job | raw clip |
| raw clip | QC script | score + rejection code |
| approved clip | edit decision list | timeline |
१७.२ Job Queue Fields
| field | अर्थ | example |
|---|---|---|
| job_id | generation job ID | JOB_000341 |
| scene_id | linked scene | ACT1_SC03 |
| shot_id | linked shot | SH05 |
| tool | ComfyUI/SkyReels/etc. | SkyReels_I2V |
| gpu_id | कौन-सा GPU | 0 or 1 |
| prompt_path | prompt file | prompts/SC03_SH05.json |
| input_ref | image/video/audio input | keyframes/SH05.png |
| output_path | generated output | generated/SH05_v001.mp4 |
| status | pending/running/done/rejected | done |
| qc_result | score and notes | face pass, rasa weak |
१८. Practical First Project
पहला project feature film नहीं होना चाहिए। पहले ३०–६० second का rasa-controlled test बनाइए। फिर ३ minute scene। फिर १० minute short film।
१८.१ First Test Film Design
| parameter | value | reason |
|---|---|---|
| duration | ३०–६० seconds | manageable |
| characters | २ | identity control सरल |
| location | १ | background continuity सरल |
| primary rasa | वीर या शान्त | overacting कम रखना आसान |
| dialogue | १–३ lines | lip-sync test limited |
| shots | ६–१० | editing practice |
| generation units | ४–६ seconds | QC manageable |
१८.२ Suggested Test Scene
एक वनाश्रम में पराजित युवा योद्धा गुरू के सामने आता है। वह भय और लज्जा से भरा है, पर भागा नहीं। गुरू मौन रहते हैं। दूर शङ्ख सुनाई देता है। योद्धा शस्त्र भूमि पर रखकर प्रण करता है कि वह अधर्म से पीठ नहीं फेरेगा। अन्त में अग्नि की लौ स्थिर हो जाती है।
यह scene छोटा है पर संपूर्ण AI film pipeline test कर सकता है — character, costume, forest lighting, fire, silence, dialogue, voice, shot continuity, rasa transition और editing।
१८.३ Test Scene Shot List
| shot | description | rasa function |
|---|---|---|
| SH01 | वनाश्रम सन्ध्या, मंद अग्नि | उद्दीपन विभाव |
| SH02 | नायक दूर से आता है | आलम्बन प्रवेश |
| SH03 | गुरू का मौन close shot | शान्त विभाव |
| SH04 | नायक की लज्जित पर स्थिर दृष्टि | करुण से वीर transition |
| SH05 | शस्त्र भूमि पर रखना | संकल्प क्रिया |
| SH06 | dialogue line | वाचिक अनुभाव |
| SH07 | अग्नि की लौ स्थिर | scene residue |
१९. Installation अनुशासन
इस लेख में exact package versions स्थायी रूप से न लिखना ही ठीक है, क्योंकि AI ecosystem बदलता रहता है। फिर भी installation का अनुशासन स्थिर रहेगा।
१९.१ Installation Rules
| नियम | कारण | पालन-विधि |
|---|---|---|
| अलग environment | dependency conflict से बचना | conda env per tool |
| पहले official install | random forks से बचना | official repo/docs से setup |
| working snapshot save | बाद में breakage से बचना | requirements freeze |
| model path fixed | repeated download से बचना | central models folder |
| test after every change | कौन-सा package तोड़ा पता चले | small test prompt |
१९.२ Environment Snapshot
# after a working setup
pip freeze > requirements_working_YYYYMMDD.txt
conda env export > env_working_YYYYMMDD.yml१९.३ Model Storage Policy
| model type | folder | note |
|---|---|---|
| ComfyUI checkpoints | models/comfy/checkpoints | stable and experimental अलग रखें |
| VAE/control models | models/comfy/control | workflow notes में version लिखें |
| SkyReels models | models/skyreels | V2, V3, T2V, I2V अलग |
| voice models | models/audio_voice | license और speaker consent notes रखें |
| embeddings | models/embeddings | writing/RAG environment से जुड़ा |
२०. Thermal और Power Management
Long video generation GPU को घण्टों तक load में रख सकती है। इसलिए thermal discipline creative pipeline का भाग है।
२०.१ Monitoring
| parameter | क्यों देखें | action |
|---|---|---|
| GPU temperature | throttling और hardware safety | fan curve / power limit |
| VRAM usage | out-of-memory से बचना | resolution/frames/offload घटाएँ |
| GPU power | UPS और heat load | undervolt/power cap |
| CPU temperature | preprocessing/editing bottleneck | airflow/cooling |
| disk writes | SSD wear और bottleneck | RAMDISK/temp disk |
| room temperature | sustained performance | AC/airflow |
२०.२ Safe Production Policy
| स्थिति | नीति |
|---|---|
| first install test | short ५-second clip only |
| new model test | GPU monitoring open रखें |
| overnight job | only after stable test runs |
| high room temperature | lower power cap / shorter batches |
| repeated OOM | model offload, lower resolution, fewer frames |
२१. Research and Dataset Creation
हर generated clip भविष्य का training data भी है। इसलिए output को व्यवस्थित रखना चाहिए। Failed clips भी मूल्यवान हैं क्योंकि वे बताते हैं कि कौन-सा prompt या parameter गलत था।
२१.१ Clip Metadata
| field | अर्थ | उपयोग |
|---|---|---|
| clip_id | unique ID | database |
| scene_id | source scene | continuity |
| shot_id | source shot | editing |
| prompt | exact prompt | reproducibility |
| model | model/checkpoint | comparison |
| seed | seed value | regeneration |
| resolution | output size | QC |
| fps | frame rate | editing |
| status | approved/rejected | training filter |
| rejection_reason | यदि rejected | prompt improvement |
२१.२ Future Fine-Tuning Dataset
| dataset subset | content | future use |
|---|---|---|
| approved keyframes | best still frames | character/style LoRA or reference corpus |
| approved clips | usable motion clips | motion/style analysis |
| rejected clips | failure cases | rasabhasa detector training |
| prompt-output pairs | prompt and result | prompt engineering model |
| audience feedback | human response | rasa evaluation model |
२२. Digital Humanities उपयोग
यह pipeline केवल film industry के लिए नहीं। Classical Sanskrit corpus, Purana adaptations, dance-theatre, rasa education और performance studies में भी इसका उपयोग होगा।
२२.१ उपयोग क्षेत्र
| क्षेत्र | उपयोग | output |
|---|---|---|
| पुराणकथा रूपान्तरण | कथा से दृश्य-पटकथा | AI scene previews |
| नाट्यशास्त्र शिक्षा | रस, भाव, अभिनय demonstration | visual teaching clips |
| actor training | अनुभाव और वाणी अभ्यास | reference videos |
| dance-theatre | मुद्रा, लय, दृश्य कल्पना | choreographic animatics |
| cinematography education | रसगत lighting/camera | shot comparison |
| sound-design शिक्षा | rasa-sound mapping | audio scene studies |
| digital corpus studies | text-to-scene mapping | searchable aesthetic database |
२३. Ethical and Cultural Rules
AI video tools अत्यन्त शक्तिशाली हैं। उनका उपयोग अनुशासन से होना चाहिए।
२३.१ मूल नियम
| नियम | कारण | पालन |
|---|---|---|
| जीवित व्यक्तियों की likeness सावधानी से | consent और misuse risk | लिखित अनुमति या fictionalization |
| धार्मिक प्रतीकों का cheap उपयोग न हो | सांस्कृतिक मर्यादा | script review और source grounding |
| हिंसा और विकृति का सीमित उपयोग | बीभत्स/रौद्र का rasabhasa risk | dharma-function स्पष्ट |
| fake history न बनायें | दर्शक भ्रमित होगा | historical note और creative license अलग |
| voice cloning में अनुमति | नैतिक और विधिक कारण | consent record रखें |
२३.२ Classical Adaptation Discipline
| स्तर | क्या करें | क्या न करें |
|---|---|---|
| स्रोत | मूल कथा, पाठ, टीका देखें | केवल internet summary पर भरोसा नहीं |
| पात्र | चरित्रधर्म सुरक्षित रखें | आधुनिक cliché से विकृत न करें |
| भाषा | प्रसंगानुकूल शैली | असंगत slang न जोड़ें |
| दृश्य | प्रतीक और वस्त्र सोचकर | random fantasy costume नहीं |
| अन्त | मूल भावफल समझें | केवल shock ending नहीं |
२४. Roadmap
२४.१ Phase 1 : ३०-second Proof of Concept
| deliverable | success criterion |
|---|---|
| २ characters visual bible | identity stable in stills |
| १ location keyframe | lighting stable |
| ७-shot scene | every shot generated |
| dialogue line | clean audio and sync |
| final ३०-second render | watchable scene |
| QC report | specific pass/fail notes |
२४.२ Phase 2 : ३-minute Rasa Scene
| deliverable | success criterion |
|---|---|
| २०–३० shots | scene continuity acceptable |
| ३–५ dialogue lines | voice consistency |
| music/ambience layer | rasa support |
| shot database | all prompts logged |
| audience review | intended rasa mostly received |
२४.३ Phase 3 : १०-minute Short Film
| deliverable | success criterion |
|---|---|
| ३–५ scenes | act-like structure |
| character arc | visible transformation |
| rasa curve | planned emotional progression |
| repeatable workflow | new scenes generated without chaos |
| full documentation | future scaling possible |
२४.४ Phase 4 : Feature Workflow
| deliverable | success criterion |
|---|---|
| sequence bible | film divided into reels/sequences |
| asset library | characters, locations, sound motifs |
| batch generation queue | GPU scheduling reliable |
| editing discipline | approved timeline with proxies |
| final QC | technical + rasa + cultural review |
२५. निष्कर्ष
ComfyUI, SkyReels और अन्य AI video tools को यदि केवल prompt-to-clip खेल की तरह लिया जाए तो वे थोड़े समय का चमत्कार देंगे। पर यदि उन्हें रस−सिद्धान्त आधारित scriptwriting, character bible, visual lock, sound design, continuity control और QC discipline से जोड़ा जाए तो वे एक नये प्रकार के local AI film studio का आधार बन सकते हैं।
Z890aiTop + dual RTX5090 + 256GB RAM इस दिशा में पर्याप्त शक्तिशाली आधार देता है, पर hardware अकेला film नहीं बनाता। Film तब बनेगी जब script, पात्र, रस, विभाव, अनुभाव, ध्वनि, दृश्य और editing एक ही अनुशासित workflow में आयेंगे।
इसलिए इस चतुर्थ भाग का सार है —
पहले रस-सिद्ध scene बनाइए, फिर AI से frame बनाइए, फिर frame से motion बनाइए, फिर motion से scene बनाइए, और scene से चलचित्र। उल्टा क्रम अपनाने पर केवल बिखरे हुए सुन्दर clips मिलेंगे, film नहीं।
२६. उत्कर्ष
इस प्रणाली का अन्तिम फल केवल इतना नहीं कि व्यक्ति अपने घर में AI film बना सके। वास्तविक उत्कर्ष यह है कि भारतीय नाट्यबुद्धि, रससिद्धान्त, ध्वनिशास्त्र, अभिनय, दृश्य-विन्यास और digital computation मिलकर एक नये discipline को जन्म दें — भारतीय Aesthetic Computing।
जब script का प्रत्येक scene रस से annotated होगा, जब character dharma data में सुरक्षित होगा, जब generated frame विभाव-अनुभाव से जाँचा जाएगा, जब sound design स्थायीभाव को पोषित करेगा, जब audience response पुनः system में लौटेगा — तब AI केवल machine नहीं रहेगा; वह मनुष्य-रचनाकार की मध्यमा-शक्ति का विस्तारित उपकरण बन जाएगा।
इसका लक्ष्य किसी विदेशी film industry की नकल नहीं है। लक्ष्य है —
भारतीय नाट्यबुद्धि को digital युग में पुनः कार्यशील बनाना।
चतुर्थ भाग का समापन-सूत्र —
AI चलचित्र का मूल prompt नहीं, rasa-script है। Model गति देता है, GPU शक्ति देता है, editor रूप देता है, sound चित्त देता है; पर रस ही दृश्य को स्मृति में बदलता है।