可灵AI
- AI视频
- 200
- 6.10035.keling
AI视频技术的发展历经三个关键阶段,每一次突破都带来了创作方式的革新。
第一阶段:风格迁移(2015年起)
早期的AI视频技术主要聚焦于风格迁移(StyleTransfer),开发者尝试将图像或视频的风格迁移到另一个视频上。例如,通过StableDiffusion等模型,可将低模数字人转换为动画风格,或为河南文物莲鹤方壶的白膜切换不同画风。然而,该阶段技术存在致命缺陷:必须依赖已有视频输入,本质上仅是为视频添加滤镜,难以释放创作者的想象力。
第二阶段:图生视频模型(2023年7月起)
海外出现支持图生视频的模型,结合声图工具形成了全新的内容创作生态。这类技术通过生成32张动态相关的图片(每秒8帧)形成4秒视频,无需视频输入即可基于想象创作。但缺陷也很明显:运动幅度小、画质易崩坏,本质是用生图方式模拟视频,模型未经过视频训练,缺乏对视频时序的理解。
第三阶段:DIT架构(2024年6月起)
2024年2月Sora的出现引发关注,但直至6月快手推出可灵AI,才首次让全球用户可足量使用DIT架构的视频工具。DIT架构实现了从文本到视频的直接生成,只需一句提示词(如“一辆银白色的跑车在赛博朋克光影的城市夜色中飞驰,旋转镜头冲击感画面”),即可生成充满想象力和镜头调度的视频,标志着AI视频进入真正的智能创作阶段。
可灵AI作为全球领先的AI视频生成工具,凭借DIT架构实现了三大突破:
复杂时空运动建模:能生成大幅度、符合运动规律的镜头,如骑马飞奔、宇航员月球奔跑等,主体始终保持居中,运镜流畅自然。
真实物理世界模拟:在食物咀嚼、液体流动等细节上表现逼真,解决了国外模型常见的崩坏问题,生成场景如吃汉堡、吃面条等均自然流畅。
创意概念组合能力:可将现实中不存在的元素组合,如猫开车、咖啡杯内火山喷发等,通过简单提示词即可实现传统CG和特效才能完成的画面。
1.文生视频:一句话激活想象力
操作入口:打开可灵AI官网(https://app.klingai.com/cn/),点击“AI视频”进入界面,选择“文生视频”标签。
核心逻辑:将用户视为“甲方”,可灵AI作为“乙方”,通过自然语言描述需求(提示词)生成视频。提示词需包含主体、运动、场景、镜头语言、光影氛围等要素。
案例:输入“镜头中景拍摄,背景虚化,一只熊猫坐在咖啡厅看书,书放在桌子上,咖啡杯冒热气”,可生成熊猫专注阅读、环境细节丰富的视频。
参数设置:
时长:支持5秒、10秒生成。
模式:标准模式生成720P视频,高品质模式细节更丰富、运动更流畅。
运镜控制:免费提供6种基础运镜(旋转、推拉、摇移等),会员可使用4种大师运镜(如左旋推进、右旋推进),通过调整运镜幅度和方向精准控制镜头。
2.图生视频:用图像精准控制创作
单图生成:上传图片(支持实拍图、绘画图),结合文字描述生成动态视频。
案例:上传3D熊猫俯拍图,输入“蓬松的毛,在草地上欢快跳跃”,可生成熊猫活泼跳跃的视频,还可通过“延长5秒”功能增加时长。
首尾帧生成:上传首帧和尾帧图片,模型自动生成中间过渡画面,实现丝滑运镜。
案例:首帧为卡车向前开,尾帧为卡车向左开,无需提示词即可生成卡车转向的连贯镜头。
运动笔刷:通过涂抹指定画面区域并绘制运动轨迹,控制主体运动方向,还可设置禁止区域锁定背景。
操作:选择“运动笔刷”功能,涂抹主体(如粉色小球),手绘轨迹线,生成按指定路径运动的视频。
1.对口型:让画面会“说话”
应用场景:适用于故事片、叙事类视频,实现人物开口说话的刚需。
操作步骤:
生成人物镜头后,点击“对口型”按钮。
选择“文字转语音”(输入文本、选择音色)或上传本地音频。
模型自动将音频与口型同步,生成lip-sync视频。
案例:为人物镜头配音“你好,欢迎来到可灵AI世界”,人物嘴型与语音精准匹配,画面更逼真。
2.参考人脸(内测中):角色一致性终极解决方案
功能价值:解决AI生成人物时“抽卡”问题(多镜头人脸不一致),通过训练人脸模型实现角色外观统一。
操作流程:
上传10-30段人脸素材(包含正脸、侧脸、表情、运动等多角度画面)。
模型学习后生成专属人脸模型,可在“参考人脸”下拉列表中选择。
在提示词中@模型名称,生成与训练素材一致的人脸视频。
案例:训练俄罗斯女孩Grace的人脸模型后,输入“红头发女歌手Grace穿黑色皮衣弹吉他,背景火山”,生成的所有镜头中人物均保持Grace的外貌特征。
构建有效提示词需明确Who(主体)、What(运动)、Where(场景),并可添加镜头语言、光影氛围、画风等细节:
主体描述:包括外观特征(如“戴黑框眼镜的大熊猫”“穿小西装的兔子”)、身份属性(如“知识分子熊猫”“朋克风歌手”)。
运动描述:具体动作(如“看书”“跳跃”“挥手”)、运动轨迹(如“向右摇进”“绕圈飞行”)。
场景描述:具体环境(如“咖啡厅”“月球表面”)、环境细节(如“窗户透进黄昏光”“火山喷发烟雾”)。
镜头语言:景别(特写、中景、广角)、运镜方式(推拉摇移、旋转推进)、视角(低角度、鸟瞰)。
光影氛围:如“赛博朋克光影”“黄金时刻暖光”“电影质感调色”。
画风:如“二次元动漫风”“3D游戏渲染”“粘土动画”。
1.一句话出片(OneShotVideo)
方法:固定主体和场景,仅调整运镜方式生成系列镜头,剪辑成短片。
案例:提示词“银白色跑车在城市街道飞驰”,依次使用“旋转镜头”“广角推进”“跟车摇移”等运镜,生成10-20个镜头,快速剪辑成汽车广告短片。
2.四格超短篇:用四句话讲一个故事
结构:按“起承转合”设计四个镜头,每个镜头对应一句提示词。
案例:
镜头1(起):“兔子坐在森林树桩上啃胡萝卜”
镜头2(承):“兔子背着背包在森林中漫步”
镜头3(转):“兔子挥手拦下一辆蘑菇形状的公交车”
镜头4(合):“公交车载着兔子驶向夕阳下的远方”
优势:15分钟内完成脚本设计,通过文生视频快速生成素材,适合自媒体短篇内容创作。
主体明确性:避免模糊描述,如“生物戴墨镜”应具体为“蒙娜丽莎戴墨镜”。
图文一致性:图生视频中,文本描述需与图片内容兼容(如图片为黑狗,勿强行生成白狗)。
参数调整:
创意相关性:数值越高,模型越依赖文本描述(适合精准控制);数值越低,模型越自由发挥(适合创意探索)。
运镜幅度:过大幅度可能导致画面崩坏,建议从3-5开始逐步调整。
需求:制作一个“熊猫在竹林品茶”的温馨短片。
工具:可灵AI官网、浏览器(推荐Chrome)、简单剪辑软件(如剪映)。
文生视频生成主镜头:
提示词:“中景镜头,阳光透过竹叶洒在熊猫身上,一只大熊猫坐在石头上捧着茶杯品茶,竹林背景,茶杯冒热气,古风配乐”
选择1.5模型(1080P高清),高品质模式,时长10秒,运镜选择“水平摇移”(幅度3.0)。
生成3-5次,挑选画面最细腻的版本。
图生视频补充空镜:
上传竹林实拍图,提示词:“微风拂动竹叶,阳光闪烁”,生成5秒动态竹林空镜。
上传茶杯特写图,提示词:“茶杯中茶叶缓缓舒展”,生成5秒茶水动态镜头。
导入素材:将主镜头、空镜导入剪映,按“主镜头→竹林空镜→茶杯特写→主镜头结尾”顺序排列。
添加转场:镜头间添加“叠化”或“滑动”转场,增强流畅度。
配乐配音:搜索古风背景音乐(如《高山流水》片段),添加环境音(鸟鸣、风声)。
导出发布:导出1080P视频,发布至自媒体平台或分享给朋友。
Lora模型定制:未来将开放更多场景的自定义模型训练,如动物、物体、虚构角色等,进一步提升角色和风格的一致性。
多模态交互:支持语音输入提示词、手绘草图生成视频,降低创作门槛。
团队协作功能:支持项目共享、多人协同编辑,适合影视团队、MCN机构批量生产内容。
可灵AI推出“创意圈”社区,用户可发布优质短片、素材,获得灵感值奖励(短片666灵感值/个,视频素材36灵感值/个,图片6灵感值/个),灵感值可兑换生成次数或会员权益。此外,平台定期举办创作大赛,优秀作品可获得流量扶持和现金奖励。
文生视频:确保提示词主体、风格描述一致,利用DIT架构的上下文相关性维持连贯。
图生视频:使用首尾帧或3D低模控制主体外观,或通过“参考人脸”功能训练专属模型。
优先文生视频:操作简单、成本低,适合快速验证创意,保护创作积极性。
进阶尝试图生视频:有图片素材时(如手绘稿、实拍图),可通过单图或首尾帧生成更精准的动态效果。
调整描述细节:增加主体特征、环境元素、镜头参数等具体信息。
更换模型版本:1.0模型生成速度快,适合测试;1.5模型画质更高,适合成品输出。
参考社区案例:在“创意圈”查看“一键同款”提示词和参数,学习优秀创作者的思路。
文章由本站整理发布,转载请注明地址:https://www.12330.com.cn/view-643fa9ea