CogVLM2-Video 是由智谱AI开发并开源的一种新型视频理解模型,该模型通过引入多帧视频图像和时间戳作为编码器输入,解决了传统视频理解模型在处理时间信息丢失问题上的局限,从而在视频理解和生成领域取得了显著进展。
EchoMimic是一款由蚂蚁集团研究团队推出的创新技术,能够根据音频内容和角色照片生成生动对口型视频。该技术突破了传统方法的局限性,实现了更逼真和动态的人像生成。
HumanAIGC 是一个专注于人工智能生成内容(AIGC)的GitHub仓库,汇集了多个前沿的AI项目,旨在通过人工智能技术简化内容创作过程,提高创作效率和质量。
MimicMotion是腾讯公司推出的一款人工智能人像动态视频生成框架,该框架利用先进的技术,能够根据用户提供的单个参考图像和一系列要模仿的姿势,生成高质量、姿势引导的人类动作视频。
GraphRAG,这是一种基于图的RAG(检索增强生成)技术。GraphRAG旨在通过构建知识图谱来增强大模型在搜索、问答、摘要和推理等方面的能力。
AuraSR 是基于 GAN 的 Super-Resolution 模型,通过图像条件化增强技术,提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现,并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量,适用于图像处理领域。
WorldDreamer 是一款创新的视频生成模型,它通过预测遮蔽的视觉令牌来理解并模拟世界动态。该模型将世界建模视为一个无监督的视觉序列建模挑战,旨在通过视觉输入映射到离散的令牌并预测被遮蔽的令牌来实现视频生成。
“No Language Left Behind”(NLLB),旨在提供能够直接在200多种语言对之间进行高质量翻译的AI模型,包括资源较少的语言如阿斯图里亚斯语、卢干达语、乌尔都语等。
Hallo是由复旦大学开发的一项前沿技术,专注于肖像图像动画。它利用先进的扩散模型生成逼真且动态的肖像动画,与传统的参数模型相比,Hallo技术提供了更为自然和流畅的面部动作。
为HumanPlus的开源项目,专注于人形机器人模仿和学习人类行为的研究。该项目包含了人形模仿转换器(Humanoid Shadowing Transformer, HST)和人形模仿学习转换器(Humanoid Imitation Transformer, HIT)的最新实现,以及全身体态估计和相关的硬件代码库。
TabPedia是一个新型的大型视觉-语言模型,由中国科学技术大学和字节跳动公司联合开发。该模型通过概念协同机制,能够无缝集成多种视觉表格理解(VTU)任务,如表格检测、表格结构识别、表格查询和表格问题回答。
AutoStudio是一个基于文本到图像(Text-to-Image, T2I)生成模型的多轮交互式图像生成框架。它由三个基于大型语言模型(Large Language Models, LLMs)的代理和一个基于稳定扩散(Stable Diffusion, SD)的代理组成,用于生成高质量的图像序列。
该工具能够从单一图像生成具有复杂面部表情和身体动作的虚拟人物,包括笑、说唱、唱歌、眨眼、微笑、说话等效果。
LlamaGen 是一个公开的GitHub项目,专注于使用Llama系列模型进行图像生成的自回归模型研究。LlamaGen项目可能是基于Meta公司发布的LLaMA(Large Language Model Meta AI)大语言模型进行图像领域的拓展和应用。
Follow-Your-Emoji是一个基于扩散模型的人像动画框架,能够将目标表情序列动画化到参考人像上,同时保持人像身份的一致性、表情的传递、时间的连贯性和保真度。它通过采用表情感知标志和面部细粒度损失技术,显著提升了模型在控制自由风格人像表情方面的表现,包括真实人物、卡通、雕塑甚至动物。此外,它还通过简单有效的逐步生成策略,扩展到稳定的长期动画,增加了其潜在的应用价值。
YaFSDP是由俄罗斯科技巨头Yandex公司开源的一款大型语言模型(LLM)训练工具。它旨在通过优化GPU通信和减少内存使用量,来提高LLM训练的效率,并节省高达20%的GPU资源。
腾讯混元团队与中山大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Pose-v2”,只需要输入一张人物图片和一段动作视频,就可以让图片上的人跟随视频上的动作动起来,生成视频长度可达10秒。
Mamba-2是由普林斯顿大学和卡内基梅隆大学的华人研究人员共同开发的新一代AI架构,它通过结构化状态空间对偶性(SSD)统一了状态空间模型(SSM)和注意力机制(Attention),实现了性能的显著提升。
NEXA AI,由两位斯坦福校友创办,提出了一种新方法,通过functional token整合多个开源模型,每个模型针对特定任务优化。他们开发了Octopus v4模型,智能地将用户查询引导至最合适的垂直模型,并重新格式化查询以实现最佳性能。
该方法通过强化学习直接对模型进行微调,无需人类反馈,使模型能够做出决策。RL4VLM的研究成果已在GitHub开源,论文预印本也已上线。
香港大学与百度联合发布了首个智慧城市大模型 UrbanGPT,该模型在时空预测技术领域引发了重大突破。
AnimateAnyone是一个基于人工智能的角色动画生成工具,可以将静态图像转化为动态视频,实现角色的动画化。
ViViD 是一个创新的视频虚拟试穿框架,它利用扩散模型技术,结合服装编码器和姿态编码器,为用户提供逼真的视频试穿体验。
ScrapeGraphAI 结合了大型语言模型(LLM)和直接图逻辑,为用户提供了一种高效的方法,用于构建针对网站、文档和XML文件的爬虫流水线。用户只需指定所需的信息类型,ScrapeGraphAI 就能自动完成数据抓取任务。
PCM在图像处理方面有着更快更稳定的表现。PCM针对LCM的问题进行了改进,扩展了模型的应用范围,提高了图像和动画生成的质量。对于动画制作者来说,PCM的优化意味着节省后期处理时间,加快制作流程。未来在扩散模型领域有望迎来更多创新和突破。
EditWorld 是由北京大学、Tiamat AI、天工AI和Mila实验室联合开发的一个图像编辑项目。该项目的核心目标是模拟真实世界动态,以实现基于指令的图像编辑。通过引入世界指令(world-instructed)图像编辑,EditWorld 能够根据用户提供的指令,对图像进行精确的编辑和调整。
让我们在llm.c (约 4,000 行 C/CUDA)中重现GPT-2(124M),耗时 90 分钟,费用为 20 美元。
SignLLM 是全球首个多语种手语视频生成模型,能够将文本或语音指令实时转化为手语视频,为听障人士提供沟通新方式。
Open-Sora是一个由hpcaitech开源的类Sora架构视频生成模型,它基于Diffusion Transformer(DiT)架构,旨在通过文本描述生成高质量的视频内容。该项目涵盖了整个视频生成模型的训练过程,包括数据处理、训练细节和模型检查点,供对文生视频模型感兴趣的人免费学习和使用。
llama3-Chinese-chat是一个开源项目,旨在将强大的llama3模型引入中文世界,使机器能够理解和生成高质量的中文对话。该项目由名为“CrazyBoyM”的开发者主导,通过整合优化后的中文版本模型和一系列教程、资源、工具,为开发者和使用者提供了便利。
3DGen-Arena是由复旦大学和上海AI lab的研究人员开发的一个3D生成模型的人工评测竞技场。它旨在提供一个公开、匿名的平台,让用户对不同的3D生成模型进行比较和评价。
该研究介绍了针对大型语言模型的无偏水印技术,表明可以添加水印而不影响生成文本的质量。研究提供了一个无偏水印的理论框架,确保输出不受水印的影响。这种方法为负责任的人工智能开发讨论提供了一个追踪和归因模型输出的方法,而不会牺牲质量。
通过改进注意力机制,DCFormer相比Transformer性能提升1.7-2倍。在相同训练数据和算力下,用DCFormer改进后的69亿参数模型效果超过120亿参数模型。
该研究由来自 UT Austin 和 UC Berkeley 的研究者共同完成,提出了一种新颖的扩散模型框架。
Chameleon 是由 Meta 的 FAIR(Facebook AI 研究)团队开发的突破性 AI 模型,可无缝集成文本和图像处理。与单独处理文本和图像的传统模型不同,Chameleon 从一开始就将它们一起处理,在理解和生成混合模式内容方面提供了前所未有的能力。这篇综合文章深入探讨了 Chameleon 的独特功能、创新训练技术及其在各种任务中的出色表现。
MiniCPM-V 是一系列端侧多模态大型语言模型(MLLMs),专为视觉-语言理解设计。该模型以图像和文本为输入,提供高质量的文本输出。
CogVLM2是一个强大的视觉大模型,由THUDM(清华大学自然语言处理实验室)开发,具有出色的视觉和语言理解能力。
FIFO-Diffusion是一种基于预训练扩散模型的新型推理技术,用于无需训练即可从文本生成无限长的视频。
Phi-3-vision-128k-instruct是Phi-3家族中的第一个多模态模型,拥有4.2B参数,支持128K的上下文长度。该模型结合了语言和视觉处理能力,能够在多种设备上高效地处理和响应图像及文本数据。
PaliGemma是Google开发的一款开源视觉语言模型,旨在处理与图像相关的文本生成任务,如图像描述、问答和目标分割等。
Hunyuan-DiT 是腾讯开源的一款强大的多分辨率扩散变换器(Diffusion Transformer),具备精细的中文理解能力。该模型旨在探索文本到图像的生成,支持中英文双语输入,并能够进行多轮对话式图像生成。
PuLID是一个新兴的ID保持项目,致力于提升ID保持效果并最小化对原始模型的影响。其核心优势包括高度一致性、多功能性、高保真度、稳定性和准确性,应用广泛。
一种通过生成模型学习材料,规范优化过程的方法,以提高在未知静态照明条件下拍摄的姿势图像中恢复物体材质的准确性。
VILA是由Efficient-Large-Model组织在GitHub上开源的一个视觉语言模型(Visual Language Model)。它是英伟达发布的一个模型,通过大规模的图像-文本数据进行预训练,从而实现了视频理解和多图像理解能力。
ComfyUI-IC-Light是ComfyUI的原生插件,用于实现IC-Light技术。该技术允许用户通过一系列工作流程生成背景和重新打光,从而增强图像的视觉效果。它的重要性在于能够提供更自然和逼真的图像处理结果,尤其适用于需要高级图像编辑功能的用户。
Siri-Ultra是一个基于云的智能助手,可以在Cloudflare Workers上运行,并且可以与任何大型语言模型(LLM)配合使用。它利用了LLaMA 3模型,并且通过自定义函数调用来获取天气数据和在线搜索。这个项目允许用户通过Apple Shortcuts来使用Siri,从而消除了对专用硬件设备的需求。
一个本地且开源的CharacterAI替代工具,提供了一个用户友好的界面,允许用户在桌面上与虚拟角色互动。你可以自定义创建各种角色,让每个虚拟角色都有自己的独特个性和语言风格。
。该方法通过多模态注意力机制,将视频和文本特征进行融合,并利用多语言翻译模型将不同语言的文本特征进行转换,从而实现跨语言的视频-文本检索。实验结果表明,该方法在多语言视频-文本检索任务上取得了较好的效果。
MuseV是一个基于扩散模型的虚拟人视频生成框架,它能够以无限长度和高保真度生成满足视觉条件的视频。
SadTalker:学习现实的3D运动系数风格化音频驱动的单图像说话的脸动画。
MiraData 是一个具有长时长和结构化字幕 的大规模视频数据集。它专为长视频生成任务而设计。
通义实验室研发的 AI 模型 ——EMO 正式上线通义 App,并开放给所有用户免费使用。借助这一功能,用户可以在歌曲、热梗、表情包中任选一款模板,然后通过上传一张肖像照片就能让 EMO 合成演戏唱歌视频。
VideoCrafter2 是由腾讯优图实验室开源的视频生成工具,基于 Stable Diffusion 模型,支持文本转视频、图像转视频、视频编辑等功能。
Open-Sora 是由北京大学元组智能研究组开发的开源视频生成工具,基于 Stable Diffusion 模型,支持文本转视频、图像转视频、视频编辑等功能。
一种新的视频超分辨率(VSR)模型,旨在生成具有高频细节和时间一致性的视频。
来自Meta的研究人员推出了SceneScript,只需要70M参数,仅采用编码器解码器架构,就能将真实世界的场景转化为几何表示。
AI 编码辅助工具,旨在通过提供上下文感知的代码补全和聊天辅助来提升开发者的工作效率。它集成到了流行的集成开发环境(IDE)中,并原生构建在 GitHub 平台上。
Lobe是一个低代码AI模型创建平台,旨在让用户通过微调预训练模型来创建自定义AI模型。
TeleChat 是由中电信人工智能科技有限公司研发训练的大语言模型,提供了7B和12B两个版本的模型,以及它们的量化版本。该模型基于大量的中英文高质量语料进行训练,具备多种语言理解和生成能力。
Inpaint-web主要支持两项功能:图片局部清除和将模糊的图片变成高分辨率清晰图片。
CogVLM2-Video 是由智谱AI开发并开源的一种新型视频理解模型,该模型通过引入多帧视频图像和时间戳作为编码器输入,解决了传统视频理解模型在处理时间信息丢失问题上的局限,从而在视频理解和生成领域取得了显著进展。