WorldDreamer 是一款创新的视频生成模型,它通过预测遮蔽的视觉令牌来理解并模拟世界动态。该模型将世界建模视为一个无监督的视觉序列建模挑战,旨在通过视觉输入映射到离散的令牌并预测被遮蔽的令牌来实现视频生成。
DeepSeek-V2是一款基于2千亿参数量的MoE(Mixture of Experts)模型的AI技术产品,它在对话官网和API上全面上线,提供领先性能和超低价格。
“No Language Left Behind”(NLLB),旨在提供能够直接在200多种语言对之间进行高质量翻译的AI模型,包括资源较少的语言如阿斯图里亚斯语、卢干达语、乌尔都语等。
Hallo是由复旦大学开发的一项前沿技术,专注于肖像图像动画。它利用先进的扩散模型生成逼真且动态的肖像动画,与传统的参数模型相比,Hallo技术提供了更为自然和流畅的面部动作。
为HumanPlus的开源项目,专注于人形机器人模仿和学习人类行为的研究。该项目包含了人形模仿转换器(Humanoid Shadowing Transformer, HST)和人形模仿学习转换器(Humanoid Imitation Transformer, HIT)的最新实现,以及全身体态估计和相关的硬件代码库。
TabPedia是一个新型的大型视觉-语言模型,由中国科学技术大学和字节跳动公司联合开发。该模型通过概念协同机制,能够无缝集成多种视觉表格理解(VTU)任务,如表格检测、表格结构识别、表格查询和表格问题回答。
Nemotron-4是英伟达推出的一系列开放模型,旨在生成合成数据以训练不同行业的大型语言模型(LLMs)。该模型系列为开发人员提供了一种免费、可扩展的解决方案,用于创建类似真实数据特征的合成数据,以支持大型语言模型的训练和改进。
AutoStudio是一个基于文本到图像(Text-to-Image, T2I)生成模型的多轮交互式图像生成框架。它由三个基于大型语言模型(Large Language Models, LLMs)的代理和一个基于稳定扩散(Stable Diffusion, SD)的代理组成,用于生成高质量的图像序列。
该工具能够从单一图像生成具有复杂面部表情和身体动作的虚拟人物,包括笑、说唱、唱歌、眨眼、微笑、说话等效果。
LlamaGen 是一个公开的GitHub项目,专注于使用Llama系列模型进行图像生成的自回归模型研究。LlamaGen项目可能是基于Meta公司发布的LLaMA(Large Language Model Meta AI)大语言模型进行图像领域的拓展和应用。
Follow-Your-Emoji是一个基于扩散模型的人像动画框架,能够将目标表情序列动画化到参考人像上,同时保持人像身份的一致性、表情的传递、时间的连贯性和保真度。它通过采用表情感知标志和面部细粒度损失技术,显著提升了模型在控制自由风格人像表情方面的表现,包括真实人物、卡通、雕塑甚至动物。此外,它还通过简单有效的逐步生成策略,扩展到稳定的长期动画,增加了其潜在的应用价值。
YaFSDP是由俄罗斯科技巨头Yandex公司开源的一款大型语言模型(LLM)训练工具。它旨在通过优化GPU通信和减少内存使用量,来提高LLM训练的效率,并节省高达20%的GPU资源。
腾讯混元团队与中山大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Pose-v2”,只需要输入一张人物图片和一段动作视频,就可以让图片上的人跟随视频上的动作动起来,生成视频长度可达10秒。
腾讯AI Lab是腾讯公司的人工智能实验室,致力于人工智能领域的前沿研究和应用开发,推动AI技术的发展和创新。
Aurora是微软发布的一个大规模大气基础模型,旨在利用人工智能技术预测全球范围内的极端天气事件。该模型通过深度学习技术,对大量气象数据进行训练,以捕捉大气中错综复杂的模式和结构。
Mamba-2是由普林斯顿大学和卡内基梅隆大学的华人研究人员共同开发的新一代AI架构,它通过结构化状态空间对偶性(SSD)统一了状态空间模型(SSM)和注意力机制(Attention),实现了性能的显著提升。
NEXA AI,由两位斯坦福校友创办,提出了一种新方法,通过functional token整合多个开源模型,每个模型针对特定任务优化。他们开发了Octopus v4模型,智能地将用户查询引导至最合适的垂直模型,并重新格式化查询以实现最佳性能。
该方法通过强化学习直接对模型进行微调,无需人类反馈,使模型能够做出决策。RL4VLM的研究成果已在GitHub开源,论文预印本也已上线。
南京大经中医药信息技术有限公司是由中医专家团队和信息化专家团队共同创立的国家级高新技术企业,是中医信息化、智能化行业的开创者和领军者,在名老中医诊疗经验的数字化传承和中医临床智能辅助诊疗系统的开发等领域具有深厚的技术积淀。
Earth-2 是 NVIDIA 计划打造的全球最强大的人工智能超级计算机,其主要功能是预测气候变化。该系统将在 Omniverse 中创造一个地球的数字孪生,以实现对全球不同区域未来几十年气候变化的模拟和预测。
麦肯锡官网,提供关于业务介绍、行业洞察、最新研究、咨询服务以及职业发展机会等信息。
Jina AI Reader是Jina AI团队开发的一款创新工具,旨在将任意网页URL或PDF文件转换为大型语言模型(LLM)友好的输入格式。通过简化和标准化网络内容,它极大地提高了语言模型处理和理解网络内容的效率。
香港大学与百度联合发布了首个智慧城市大模型 UrbanGPT,该模型在时空预测技术领域引发了重大突破。
AnimateAnyone是一个基于人工智能的角色动画生成工具,可以将静态图像转化为动态视频,实现角色的动画化。
ViViD 是一个创新的视频虚拟试穿框架,它利用扩散模型技术,结合服装编码器和姿态编码器,为用户提供逼真的视频试穿体验。
ScrapeGraphAI 结合了大型语言模型(LLM)和直接图逻辑,为用户提供了一种高效的方法,用于构建针对网站、文档和XML文件的爬虫流水线。用户只需指定所需的信息类型,ScrapeGraphAI 就能自动完成数据抓取任务。
PCM在图像处理方面有着更快更稳定的表现。PCM针对LCM的问题进行了改进,扩展了模型的应用范围,提高了图像和动画生成的质量。对于动画制作者来说,PCM的优化意味着节省后期处理时间,加快制作流程。未来在扩散模型领域有望迎来更多创新和突破。
EditWorld 是由北京大学、Tiamat AI、天工AI和Mila实验室联合开发的一个图像编辑项目。该项目的核心目标是模拟真实世界动态,以实现基于指令的图像编辑。通过引入世界指令(world-instructed)图像编辑,EditWorld 能够根据用户提供的指令,对图像进行精确的编辑和调整。
让我们在llm.c (约 4,000 行 C/CUDA)中重现GPT-2(124M),耗时 90 分钟,费用为 20 美元。
SignLLM 是全球首个多语种手语视频生成模型,能够将文本或语音指令实时转化为手语视频,为听障人士提供沟通新方式。
Open-Sora是一个由hpcaitech开源的类Sora架构视频生成模型,它基于Diffusion Transformer(DiT)架构,旨在通过文本描述生成高质量的视频内容。该项目涵盖了整个视频生成模型的训练过程,包括数据处理、训练细节和模型检查点,供对文生视频模型感兴趣的人免费学习和使用。
llama3-Chinese-chat是一个开源项目,旨在将强大的llama3模型引入中文世界,使机器能够理解和生成高质量的中文对话。该项目由名为“CrazyBoyM”的开发者主导,通过整合优化后的中文版本模型和一系列教程、资源、工具,为开发者和使用者提供了便利。
3DGen-Arena是由复旦大学和上海AI lab的研究人员开发的一个3D生成模型的人工评测竞技场。它旨在提供一个公开、匿名的平台,让用户对不同的3D生成模型进行比较和评价。
该研究介绍了针对大型语言模型的无偏水印技术,表明可以添加水印而不影响生成文本的质量。研究提供了一个无偏水印的理论框架,确保输出不受水印的影响。这种方法为负责任的人工智能开发讨论提供了一个追踪和归因模型输出的方法,而不会牺牲质量。
若愚科技是一家专注于人工智能领域的科技公司,其主要成果之一是推出了具有自主知识产权的“九天机器人大脑”。
通过改进注意力机制,DCFormer相比Transformer性能提升1.7-2倍。在相同训练数据和算力下,用DCFormer改进后的69亿参数模型效果超过120亿参数模型。
该研究由来自 UT Austin 和 UC Berkeley 的研究者共同完成,提出了一种新颖的扩散模型框架。
Chameleon 是由 Meta 的 FAIR(Facebook AI 研究)团队开发的突破性 AI 模型,可无缝集成文本和图像处理。与单独处理文本和图像的传统模型不同,Chameleon 从一开始就将它们一起处理,在理解和生成混合模式内容方面提供了前所未有的能力。这篇综合文章深入探讨了 Chameleon 的独特功能、创新训练技术及其在各种任务中的出色表现。
MiniCPM-V 是一系列端侧多模态大型语言模型(MLLMs),专为视觉-语言理解设计。该模型以图像和文本为输入,提供高质量的文本输出。
CogVLM2是一个强大的视觉大模型,由THUDM(清华大学自然语言处理实验室)开发,具有出色的视觉和语言理解能力。
通义千问超大规模语言模型,支持长文本上下文,以及基于长文档、多文档等多个场景的对话功能。具体支持的文档格式与限制,可参见上传文件。
FIFO-Diffusion是一种基于预训练扩散模型的新型推理技术,用于无需训练即可从文本生成无限长的视频。
Phi-3-vision-128k-instruct是Phi-3家族中的第一个多模态模型,拥有4.2B参数,支持128K的上下文长度。该模型结合了语言和视觉处理能力,能够在多种设备上高效地处理和响应图像及文本数据。
星火大模型是科大讯飞推出的AI大语言模型,提供丰富的API矩阵,支持多种功能,如图片理解、图片生成、embedding等,旨在推动业务创新发展。
PaliGemma是Google开发的一款开源视觉语言模型,旨在处理与图像相关的文本生成任务,如图像描述、问答和目标分割等。
Seaborn 是一个基于matplotlib的 Python 数据可视化库。它提供了一个高级界面,用于绘制有吸引力且信息丰富的统计图形。
ERNIE Lite是由百度智能云发布的轻量级大模型,旨在在特定场景下作为基座模型进行精调,兼顾模型效果与推理性能,并搭载低算力AI加速卡进行推理,以适应极致低成本和低延迟应用。
ERNIE Speed是百度自研的一款轻量级大语言模型,旨在更快速地响应用户需求,同时支持少量数据微调,大幅缩短训练时间。其特定场景下的效果可媲美ERNIE Bot4.0模型,并且具有出色的上下文理解能力和推理性能。
腾讯元器是腾讯推出的一个应用平台,它提供了众多腾讯旗下及第三方开发的应用,旨在为用户提供丰富、优质、安全的应用资源和服务。
Hunyuan-DiT 是腾讯开源的一款强大的多分辨率扩散变换器(Diffusion Transformer),具备精细的中文理解能力。该模型旨在探索文本到图像的生成,支持中英文双语输入,并能够进行多轮对话式图像生成。
更强模型,更低价格,更易落地 字节跳动推出的自研大模型。通过字节跳动内部50+业务场景实践验证,每日千亿级tokens大使用量持续打磨,提供多模态能力,以优质模型效果为企业打造丰富的业务体验。
Google AI Test Kitchen是一个由谷歌推出的AI技术展示平台。该平台提供了多种基于AI的交互式实验,旨在让公众更直观地了解AI的潜力和应用。用户可以通过这个平台体验最新的AI技术,并探索其在不同领域的应用。
Project IDX 是谷歌下一代、以 AI 为中心、基于浏览器的开发环境,现已进入公开测试阶段。
从 Chrome 126 开始,将最小的 AI 模型 Gemini Nano 直接构建到 Chrome 桌面客户端中。
谷歌预览了 Gemini 中名为 Gemini Live 的新体验,它可以让用户在智能手机上与 Gemini 进行“深入”的语音聊天。
Gemini Flash 是 DeepMind 公司开发的一项技术,它在多个领域表现出色,包括语言理解、代码生成、数学问题解答、多步推理、多语言翻译、图像理解、音频识别和视频问答。
PuLID是一个新兴的ID保持项目,致力于提升ID保持效果并最小化对原始模型的影响。其核心优势包括高度一致性、多功能性、高保真度、稳定性和准确性,应用广泛。
一种通过生成模型学习材料,规范优化过程的方法,以提高在未知静态照明条件下拍摄的姿势图像中恢复物体材质的准确性。
MyShell是一个构建AI消费者层的平台,旨在连接用户、创作者和开源AI研究者。它利用最先进的生成性AI模型,使用户能够快速将想法转化为AI原生应用。
领先的人工智能 数据服务平台 企业级AI训练数据 SaaS 平台
WorldDreamer 是一款创新的视频生成模型,它通过预测遮蔽的视觉令牌来理解并模拟世界动态。该模型将世界建模视为一个无监督的视觉序列建模挑战,旨在通过视觉输入映射到离散的令牌并预测被遮蔽的令牌来实现视频生成。