跳转到内容

视频模型:可灵

文档可编辑,欢迎贴上你的测试效果

  • 专用语言模型,提升生成效果

2024年6月6日快手发布“可灵”视频大模型:

快手【可灵】大模型介绍PPT

  • 生成超过120秒1080P视频
  • 模拟真实物理特性(重力、光影反射、液体流动等)
  • 准确建模复杂运动场景(高速奔跑的动物、月球行走的宇航员等
  • 画面连贯,动作流畅,细节真实
  • 支持用户输入控制信息,丰富内容控制能力
  • 类Sora的DiT结构,用Transformer代替卷积网络
  • 自研3D VAE网络,提升视频重建质量
👾

官网链接https://kling.kuaishou.com/mobile

小互报导:

🔗 https://xiaohu.ai/p/9119

🔗 https://x.com/imxiaohu/status/18040

大聪明的技术详解

中学生能看懂:快手「可灵」和「Sora」背后 DiT 技4

https://mp.weixin.qq.com/s/2PrMgNAL0Er_vNjhqSbTHQ

6月21日发布图生视频功能

🚅

群公告

一、可灵产品更新📢

🎉“图生视频”和“视频续写”功能上线啦!欢迎大家前往快影APP体验!

1. 图生视频:上传任意图片,生成5秒精彩视频

2. 视频续写:对生成视频一键续写4~5秒,支持多次续写(最长3分钟)

3. 文生视频多比例选择:新增9:16和1:1视频尺寸选择,提供更多创作可能

🔗更多介绍详见官网:https://kling.kuaishou.com/

二、产品体验权限申请流程📝

1. 第一步:快影申请👉快影APP - AI创作 - AI生视频 - 填写信息

2. 第二步:问卷填写👉https://ppg.viviv.com/s/Xku4zYHe

每日根据以上填写信息优先开放权限,如申请超过3日仍未开通,可私聊 @可灵社群小助理

三、创作者激励活动🏆

1. 长期激励:带话题标签 #可灵 #快手可灵# 可灵AI,在快手APP发布有额外流量激励!

2. 话题投稿:参与快手定向投稿任务,获得专属流量激励,带2个话题 #可灵AI创意大赏 #可灵,关注并@可灵AI @快手热点 官号,详细规则:https://a.d4t.cn/DpFGhZ

3. 可灵官号投稿:https://ppg.viviv.com/s/kiqAWHrd

欢迎大家踊跃投稿!👏

7月6日功能更新发布首尾帧功能

🏆
  1. 上线网页版:https://klingai.kuaishou.com/
  2. 增加首尾帧功能
  3. 文生视频模式下增加运镜控制功能

7月24日发布会员体系

👑
  1. 结束免费内测,使用可灵无需再申请
  2. 引入灵感值,生成视频消耗灵感值
  3. 使用高级功能(视频延长、高表现模式、大师运镜等)和获取更多灵感值,需付费成为VIP用户
  4. 非VIP用户只能使用普通功能(正负向提示词、高性能模式、时长5秒、视频比例、运镜等),每天登录可灵送66灵感值(有效期一天),大约可生成6个视频
  5. 会员充值限时一周半价,黄金会员33元/单月、396元/一年,铂金会员133元/单月、1596元/一年,钻石会员333元/单月、3996元/一年

图生视频效

测试者:AJ+三思

上面有个美女集合长视频

测试者:guahunyo(一定要看)

测试者:麦橘

测试者:葡了个萄

测试者:大佬的鼠DonRat

测试者:八月DMNK

测试者: 纸墨

测试者:汤团猪

测试者:德里克文

测试者:AlainYe

测试者:OceanYoung

测试者:洪九九

测试者:吵爷

测试者:猫叔

测试者:超楠

测试者:咖菲猫咪

测试者:张余

测试者:梁明晶

测试者:上官文卿

测试者:杉杉杉木

测试者:阿鸿师兄 3.6.0

测试者:汤小白

测试者:爱育

测试者:凌云

测试者:

测试者:

测试者:

测试者:


文生视频效果

🌟

【歸藏 】提升质量关键词:获奖作品,丰富细节等与文生图类似。同时加上一些表现情绪和氛围的词也会变好,另外加上明亮的颜色也会让视频变清晰

测试者:三思

我不知道该测试哪些页面,所以问了下GPT-4o

测试内容

在应用层面测试AI视频模型时,作为一个测试者,您可以专注于以下画面内容,以全面评估模型的性能和效果:

测试结果:

  1. 场景识别
  • 室内场景: 测试模型在不同室内环境中的表现,例如办公室、厨房、卧室等。
  • 一个穿着西装的人正在办公室里,坐在电脑前工作。背景有办公桌、文件柜和窗户。
  • 一个人在厨房里烹饪,背景有炉灶、冰箱和厨具。(人没出现)
  • 室外场景:测试模型在不同室外环境中的表现,例如街道、公园、商场等。
  • https://lumalabs.ai/dream-machine
  • 一群人在街道上行走,背景有车辆、行人和商店。
  1. 物体识别
  • 静态物体: 评估模型对静止物体的识别能力,如家具、车辆、建筑物等。
  • 动态物体: 评估模型对移动物体的识别能力,如行人、跑步者、骑自行车的人等。
  1. 人物识别
  • 面部识别: 测试模型对不同面部特征的识别能力,包括不同年龄、性别、种族等。
  • 一组不同年龄段的人,包括儿童、青少年、成年人和老人。

不同种族的人物面部图像。(好像是一样的)

  • 姿态识别: 评估模型对不同人物姿态的识别能力,例如站立、坐下、躺卧等。
  • 一个人站立在房间中。

一个人躺在床上(啊?2个人)

  1. 动作识别
  • 基本动作: 评估模型对基本动作的识别能力,如走路、跑步、跳跃等。

一个人在草地上跳跃。

  • 复杂动作: 评估模型对复杂动作的识别能力,如舞蹈、体育活动、手势等。

一群人在舞蹈室里跳舞。

一群人在篮球场上打篮球。

  1. 事件检测
  • 简单事件: 测试模型对简单事件的检测能力,如开门、关灯、拿起物品等。(其实试了2次书没有拿起来,只在摸了下)
  • 一个人从桌子上拿起一本书。

一个人在房间里开门。

  • 复杂事件: 测试模型对复杂事件的检测能力,如交通事故、打斗、拥挤等。
  • 两个人在公园里发生打斗。
  1. 环境变化
  • 光线变化: 评估模型在不同光照条件下的表现,包括白天、夜晚、阴天、阳光直射等。
  • 一个房间在白天的自然光照下。

一个房间在夜晚灯光照明下。

  • 天气变化: 测试模型在不同天气条件下的表现,如晴天、雨天、雪天、雾天等。
  • 公园在下雪的情况下。

街道在下雨的情况下。

  1. 多对象场景
  • 单一对象场景: 评估模型在单一对象场景中的表现。
  • 一个房间里只有一个人在看书。
  • 多对象场景: 测试模型在包含多个对象的复杂场景中的表现,例如多人聚会、车流、商场购物等。
  • 客厅里有几个人在聚会。
  1. 特殊情况
  • 遮挡情况: 评估模型在部分物体或人物被遮挡时的识别能力。
  • 一个行人的面部被手遮挡。
  • 非标准视角: 测试模型在非标准视角下的表现,例如斜视、俯视、仰视等。
  1. 细节检测
  • 小物体: 测试模型对小物体的识别能力,例如钥匙、手机、书本等。
  • 微表情: 评估模型对面部微表情的识别能力,如皱眉、微笑、惊讶等。

失败的案例:

一直兔子穿着西服,拿着公文包(?)

手剥橘子这种细致的动作还是会失败,试了几次

玫瑰花逐渐枯萎(试了几次都不行)

黄种人和白种人和黑种人合影(???)

穿着运动服的鹿头人,带着黑色耳机。拿着一个巨大的橘子(不稳定,动物拟人穿衣服很难)

测试者:

测试者:尾鳍Vicky

测试者:大雷

测试者:黄社长

测试者:十三

测试者:袁博

测试者:猫叔

测试者:温维斯Wenvis

Prompt

Video

床前明月光,疑似地上霜

床边的闹钟响了,北极熊伸手把闹钟关了

猴子在金碧辉煌的宫殿打麻将

全身镜头,一个熊猫在浴室洗澡,隔着玻璃,花洒,热气腾腾

测试者:杉杉

最开始想做睁眼到起床的镜头,需要直观的描述画面内的元素及动态。

需要明确描述中国人、亚洲人等才可以稳定的出中国面孔。

自然场景的光线很变化很流畅也比较自然。

场景可以明确国家地点,有些可能涉及屏蔽词。

风格化运动比较难实现,更类似于在真实世界用去拍摄艺术作品。(浅试了下千禧风格,Y2k)

诺兰,城市的街道弯曲变形,建筑颠倒错落,旋转的全景镜头,呈现出奇幻而混乱的空间 。 

真实及虚拟的动物尝试。

剧情向镜头尝试,目前5s虽稳定,但是节奏过于慢了点。

其他

测试者:电子酒

测试者:豆酱

我的世界风格,还OK

云组成的龙,大失败

微缩世界全景,OK

微缩世界特写,OK

写实烤火,OK,对于写实的表现最好

未来主义风格,大失败

倒酒,OK

特写液体,OK

银河广角,OK

眼部特写,OK

测试者:德里克文

大象近景,写实

大象中景,动画风

火鸡打篮球

测试SORA,花瓣老虎飞天

科技未来都市,发生爆炸

科技未来都市,天空中飞机发生爆炸

一群兔子在跳兔子舞,背景是赛博朋克都市

镜头推进,东方韵味,千里江山图

一个美丽性感的中国女人在泳池里吃苹果

一个美丽性感的中国女人在泳池里吃鸡腿

一个美丽性感的中国女人在泳池里吃橘子

一个小朋友在餐盘吃苹果派

测试者:卡尔的AI沃茨

17个镜头剪辑|与Sora平行对比

测试者:波风若川

不符合现实逻辑的画面测试

蓝鲸在天空中飞,晚霞

金鱼在天空中飞

天空的彩虹上,独角兽在奔跑

海底,水中的彩虹,珊瑚

机器人在海水里弹吉他,珊瑚礁,鱼

猫猫在海里潜水,抓鱼

海盗船在天空中快速的飞,云

大象在云上散步

一本打开的书在城市的空中

飞翔的书

火车在太空银河中飞行

无尽的旋转楼梯

测试者:今夕何夕

测试者:花花hana

室外场景识别

(少女背靠一颗大树,四周都是广袤无垠的草原风光,少女手拿一本书和铅笔,旁边放着一顶遮阳帽-plus:少女是微笑的脸庞)

人物面部识别

(女生从生气到释然的表情变化-plus:女生从生气紧皱眉头,到开心微笑、舒展眉头的表情变化,ps:都有点奇怪lmao...)

测试者:噼哩啪啦猴

单一对象多场景测试

一只白色的猴子戴着黑色大眼镜,骑着单车送快递

一只白色的猴子戴着黑色大眼镜,骑着摩托疾驰

一只白色的猴子戴着黑色大眼镜,骑着单车送快递

一只白色的猴子戴着黑色大眼镜,开着一辆跑车疾驰

一只白色的猴子戴着黑色大眼镜,在咖啡厅喝冰咖啡,周围有很多动物也在喝咖啡

一只白色的猴子戴着黑色大眼镜,在便利店吃泡面

测试者:AlainYe

镜头缓慢推进,一只熊猫穿着高科技战甲,坐在一辆造型独特的摩托车上,营造出一种冒险即将开始的氛围。

熊猫战甲上的灯光在昏暗的环境中闪烁。特写穿着机甲熊猫,面部表情

一个摩托车手,车头镜头,驾驶快速通过赛道,身边的风景快速后退

穿着机甲的熊猫战士开着摩托在城市中高速穿梭,周围是各种未来科技的展示。

一片废墟,熊猫战士开着摩托在废墟中穿行,偶尔有爆炸声和火光。

切换到熊猫的赛博战甲,展示其在战斗中受损但依然坚挺。

画面转为黄色调,展示一望无际的沙漠,熊猫战士的摩托在沙丘上留下深深的车辙。

一只熊猫战士停在一座高楼的顶端,特写眺望远方。寂寞

测试者:Austin 周安鑫

1、场景识别:室内&室外

客厅的沙发,液晶电视,漂亮的波斯猫,超现实主义。 蜿蜒的河流,茂密的森林,灿烂的花海,碧绿的草坪。

2、物体识别:静态&动态

水晶球,展览在舞台上,超现实主义。 跳动的火焰,翱翔的飞鸟,闪烁的流星,飞溅的水珠。

3、人物识别:面部&姿态

一个人笑容灿烂,一个人惊恐愤怒。 一位芭蕾舞女孩在冰面上跳舞,动作华丽优美。

4、动作识别:基本&复杂

短跑运动员在快速的奔跑。 赛车手驾驶着跑车在激烈的漂移,场边的观众热情呐喊。

5、事件检测:简单&复杂

一位帅哥在喝水。 外星文明和地球,在进行星际大战,战况激烈。

6、环境变化:光线&天气

奇幻的极光在舞动变幻,城市写字楼的灯光忽明忽暗。 闪电交加,乌云密布,台风,大雨。

7、多对象场景:单一&多对象

1个飞行员驾驶着战斗机翱翔太空。 海军指挥着航母战斗群展开了激烈战斗。

8、特殊场景:遮挡&非标准

城市大雾遮挡了摩天大楼。 一边是神秘的海底世界,一边是梦幻的糖果屋。

9、细节检测:小物体&微表情

崭新的苹果电脑,屏幕上播放着电影。 瞳孔收缩,脸颊泛红,嘴唇微微颤抖。

测试者:mcalide 孙风波

序号

分组

提示词

视频

1

通用提示词

端午节划龙舟,吃粽子,8k,大师作品,最佳画作,丰富细节

2

一只松鼠庆祝生日,8k,长焦镜头,小狗,丰富细节,超现实主义

3

长焦镜头,超现实主义,8k,高清画质,阳光下,托腮,五官精致,丰富细节

测试者:tang

提示词:一只雨林大猴子吃了一堆香蕉后,变成了歌斯拉,然后他又吃了一辆卡车。

效果:吃香蕉的动作有了,但是是吃香蕉后猴子才变成歌斯拉的,而且吃卡车的动作未实现。

提示词:一只小白兔,正在啃胡萝卜,一口就把一个胡萝卜吃掉了。

效果:小白兔啃胡萝卜的动作没问题,但一口就把一个胡萝卜吃掉了的动作未实现。

提示词:天空乌云密布,电闪雷鸣,接着就下起了狂风暴雨,突然从乌云中冲出一架客机

效果:电闪雷鸣有了,但狂风暴雨没有看到,而且飞机是直接就出现的,不是从乌云冲出的

提示词:美丽的汉服少女,年轻女子,光透过树叶形成斑驳的影子,柔光落在她的脸上。

效果:这个效果还不错。

测试者:黄桃子

公园里的欢乐时光:孩子们在秋千上欢笑的场景生动有趣,注意看地面上的光影变化处理得恰到好处。

老人的微笑瞬间:在捕捉老人神情和皮肤细节方面,“可灵”做得相当出色,岁月感也得到了很好的体现。

草地上的学车儿童:在处理稍长一些的动作时,“可灵”遇到了一些挑战,但整体而言仍具备一定的表现力。

(我输入的指令是:一个孩子在草地上学习骑自行车,摔倒后又勇敢地站起来。可能是描述动作超过了5S,反复尝试未能实现。)

舞台上的舞者:在多对象场景中,“可灵”能够保持较好的形体轮廓,但在处理远距离和密集人群时仍有局限,效果呈现上还是会有粘连感。

通过真实场景和卡通场景对比来看,“可灵”训练的重点还是在于偏真实场景的视频,可能是基于快手自己平台的长期积累,尤其是在吃东西上的表现独领风骚,但在动画方面不是强项。

测试者:Aaron W

河里的猫:一只猫站在粽子上,月光洒下来,猫的毛色黑得发亮,粽子飘在河里,倒影出此时此刻

从第一个测试来看,提示词遵从能力只有60%,不过效果确实很惊艳。

简单输入一个“男人吃面”,感觉和官方的示例是同一个男人,不过这次拿的是勺子。

再试了一个“女人吃饺子”,感觉还是和其他人测的视频差不多

把Sora的提示词翻译成中文测试:一位时髦女子走在东京街头,两旁是闪着温暖光芒的霓虹灯和充满活力的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,拿着黑色钱包。她戴着墨镜和红色口红。她自信而随意地走着。这条街很潮湿,反射着色彩斑斓的灯光,营造出一种镜像效果。许多行人走在一旁

把Sora的提示词翻译成中文测试:一个玻璃球的近景,里面有一个禅园,球里有一个小矮人正在挖禅园,在沙子里创造图案。

测试者:桔了个仔

和sora对比:

无人机拍摄的海浪冲击大苏尔加雷角海滩崎岖悬崖的景象。蔚蓝的海水激起白色的波浪,夕阳的金色光芒照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔,悬崖边长满了绿色的灌木丛。从公路到海滩的陡峭落差是一项戏剧性的壮举,悬崖边缘伸出海面。这一景观捕捉到了海岸的原始之美和太平洋海岸公路的崎岖景观。

玻璃球的特写视图,里面有一个禅宗花园。球体中有一个小矮人正在耙禅宗花园并在沙子上创造图案

一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。

3D 动画展示了一个小而圆、毛茸茸的生物,长着富有表现力的大眼睛,探索充满活力的魔法森林。这种生物是兔子和松鼠的异想天开的混合体,拥有柔软的蓝色皮毛和浓密的条纹尾巴。它沿着波光粼粼的小溪跳跃,眼睛睁得大大的,充满惊奇。森林里充满了神奇的元素:会发光和变色的花朵,叶子呈紫色和银色的树木,还有像萤火虫一样的小漂浮灯。该生物停下来与一群围绕着蘑菇环跳舞的小仙女进行有趣的互动。

其他prompt测试

一只穿着背带裤的鸡,手里拿着篮球在拍,做了转身的动作

长焦镜头,一个人站在山上,布达拉宫从他背后缓缓升起

在2077年的深圳,人们乘坐飞行器去上班,赛博朋克风格,氛围光照,最佳画质

测试者:来来

测试AI视频生成模型不同生成能力的提示词,这些提示词涵盖了不同的测试类型,帮助全面评估AI视频生成模型的各种能力。

测试者:张余

测试者:Eddy