两个开源AI项目又火了!

发布日期:2024-09-19 15:18

来源类型:康波财经 | 作者:张嗣诚

【澳门金牛版正版资料大全免费】【新澳开奖记录今天结果】【2024年新澳门王中王资料】【管家婆最准一肖一码】【新澳彩开奖结果查询】【香港期期准资料大全】【4949澳门免费资料大全特色】【2024今晚澳门特马开什么号】【2023香港今晚开特马】【2O24澳彩管家婆资料传真】
【494949澳门今晚开什么】 【2024新澳免费资料】 【管家婆八肖版资料大全】

给大家介绍两个最近开源的AI项目:Cradle和LivePortrait。

Cradle:迄今为止第一个既能玩多种商业游戏又能操作各种软件应用的AI框架。

LivePortrait:可控人像视频生成AI框架,能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上,生成极具表现力的视频结果。

Cradle

近日,昆仑万维与北京智源人工智能研究院、新加坡南洋理工大学以及北京大学等知名学术机构合作,共同推出了一个名为Cradle的创新AI框架。

该框架的独特之处在于,它允许AI以一种新颖的方式与游戏和软件进行交互,无需事先的训练过程,直接使用键盘和鼠标操作,类似于人类用户,而且在不依赖于特定应用程序接口(API)的情况下,与广泛的开源和闭源应用程序进行有效沟通。

Cradle的框架实现大致分为以下几个步骤:

  • 信息收集:Cradle从视频片段中提取所有有用的视觉和文本信息(包括布局、图像、动画和UI元素等),以便理解当前情况并进行进一步推理。同时,通过OCR技术提取图像中的文本信息,包括内容(标题和段落)、导航标签(菜单和链接)、通知和指示等。
  • 技能和动作生成:Cradle利用LMM生成代码函数作为语义级别的技能,这些技能封装了较低级别的键盘和鼠标控制,将LMM生成的语义动作与操作系统级别的可执行动作连接起来。类似于人类在游戏中的逐步提高,这些技能可以根据游戏教程、指南、游戏手册和设置获得,也可以是自我成长。这些技能也可以预定义或组合以解决更复杂的任务。
  • 动作执行:在Cradle生成动作并决定在环境中执行后,将触发执行器将这些语义动作映射为操作系统级别的键盘和鼠标命令,以与环境进行交互。

目前Cradle已经可以在应用和游戏领域取得非常优秀的表现。包括能够操作日常软件,如Chrome、Outlook和飞书等;以及跟随游戏《荒野大镖客2》、《都市:天际线》等剧情游玩。

这一框架标志着AI领域的一项重要进展,尽管尚处于早期发展阶段,但它已经展示了AI与人类交互方式的潜在转变。从提升游戏体验到优化办公效率,Cradle为AI的实用性和普及性开辟了新的道路。

项目地址:https://github.com/baai-agents/cradle

LivePortrait

近日,快手和复旦大学、中科大共同研发的LivePortrait开源了。

这同样是一款图生视频的大模型,只需提供一张正脸照、一段视频,照片上的人物就会栩栩如生的模仿视频中的表情了。

LivePortrait可以用指定驱动视频对指定人脸进行驱动,从而实现多人合照驱动。

甚至在动物数据集上微调后,对动物肖像也可进行精准驱动,让小动物们模仿人的表情!

项目的部署非常简单:

  • 首先克隆仓库,使用conda创建虚拟环境,安装所需的依赖项和FFmpeg。
  • 然后下载模型的权重文件,放到相应的目录,通过脚本运行即可。

项目地址:https://github.com/KwaiVGI/LivePortrait

在线体验:https://huggingface.co/spaces/KwaiVGI/LivePortrait返回搜狐,查看更多

责任编辑:

高瑜:

3秒前:

鱼玄机:

3秒前:该框架的独特之处在于,它允许AI以一种新颖的方式与游戏和软件进行交互,无需事先的训练过程,直接使用键盘和鼠标操作,类似于人类用户,而且在不依赖于特定应用程序接口(API)的情况下,与广泛的开源和闭源应用程序进行有效沟通。

段鹏举:

3秒前:动作执行:在Cradle生成动作并决定在环境中执行后,将触发执行器将这些语义动作映射为操作系统级别的键盘和鼠标命令,以与环境进行交互。

韩英惠:

7秒前:Cradle的框架实现大致分为以下几个步骤:信息收集:Cradle从视频片段中提取所有有用的视觉和文本信息(包括布局、图像、动画和UI元素等),以便理解当前情况并进行进一步推理。