XiYan-SQL是一个创新的框架,它采用多生成器集成策略来提高自然语言到SQL任务中的候选生成质量。
AnyChat是一个集成了多种AI模型的多AI聊天平台,提供实时音视频交互和全功能APP解决方案。
一款基于视频扩散模型(VDM)的虚拟试穿技术,它能够结合给定的服装图像和人物视频,生成人物穿着该服装的高质量试穿视频。
微软TinyTroupe是一款基于大型语言模型(LLM)的人格模拟AI工具,能够模拟具备特定性格、兴趣和目标的虚拟角色。
CHANGER是一种新型头部融合管道,旨在为数字内容创作提供高保真的头部合成解决方案,特别适用于视觉效果(VFX)、数字人物创建和虚拟头像等领域。
Meissonic是一款由阿里巴巴集团、Skywork AI及多所高校共同研发的颠覆性图像生成模型,它基于掩蔽图像建模技术,能够生成高质量、高分辨率的图像。
AlphaFold3是由谷歌DeepMind团队开发的AI模型,能够预测蛋白质、核酸(DNA和RNA)、小分子、离子及修饰残基等生物分子的三维结构。
Qwen2.5-Coder是通义千问团队开源的一系列AI编程模型,旨在提升编程效率和性能,支持多种编程语言和代码相关任务。
一项由字节跳动和清华大学联合开发的肖像动画技术,它能够将静态肖像图像和驱动表演视频结合起来,生成具有高度表现力和真实感的角色动画和视频。
FLUX.1-dev LoRA 服装生成器利用先进的人工智能技术,为用户带来前所未有的时尚设计体验,让设计小白也能秒出服装效果图。
Moonshine是一个为边缘设备提供快速且准确的自动语音识别(ASR)的工具。
Meta MobileLLM是Meta(前Facebook)推出的专为移动设备设计和优化的大型语言模型,旨在解决云计算成本上升和延迟问题,使其非常适合在资源受限的设备上运行。
Toy Box Flux 是一个利用AI生成图像训练的3D渲染模型,结合了3D LoRA模型和Coloring Book Flux LoRA的权重,形成了独特的风格,特别适合生成具有特定风格的玩具设计图像。
Sana 是一个文本到图像的框架,能够高效生成高达4096×4096分辨率的图像。它以极快的速度合成高分辨率、高质量的图像,并保持强文本图像对齐,可部署在笔记本电脑GPU上。
NVIDIA推出的一款大型语言模型,它基于70亿参数的Nematron模型,经过特定指令训练,以提高其在自然语言处理任务中的性能和准确性。
OpenAI 开发的一个分布式计算工具,旨在简化跨多个机器和容器的复杂任务的执行和管理。
工具介绍F5-TTS是一个基于深度学习的文本到语音(Text-to-Speech,简称TTS)转换工具,由[…]
FLUX.1-Turbo-Alpha 是由阿里巴巴集团旗下的阿里妈妈创意团队开发的一个预训练语言模型。
一款由快手与北京大学联合研发并开源的视频生成模型。该模型利用深度学习技术,能够实现高质量的视频生成和处理,为用户提供了一种创新的视频内容创作工具。
该工具让开发者可以在几分钟内启动AI应用,无需庞大团队和复杂的技术基础。对于企业而言,这意味着能够快速推出AI项目,提升创新能力,加速技术转化。
苹果最新推出的 AI 模型 Depth Pro 在深度估计领域取得重大突破,能快速生成高分辨率的3D深度图,无需相机元数据。该模型工作速度快,能捕捉微小细节,提供绝对深度估计,且开源共享。
一种3D虚拟试衣技术,它通过使用高斯散射(3DGS)作为3D表示,实现了从2D虚拟试衣模型到3D空间的知识转移,同时提高了跨视图的一致性。
ScreenPipe 是一个用于屏幕录制和视频处理的开源工具。
Revisit-Anything 是一个开源的 Python 库,用于重新访问和增强现有的深度学习模型。
CogView3 是由清华大学团队开发的一个用于图像和视频处理的人工智能工具。
Crawl4AI是一个为人工智能应用提供数据抓取和处理的工具,它能够帮助用户从各种网站和来源收集数据,以支持AI模型的训练和分析。
Molmo是由Allen AI研究所开发的一系列多模态人工智能模型,旨在通过学习指向其感知的内容,实现与物理和虚拟世界的丰富交互。
Westlake-Omni是一个开源的中文情感语音交互大语言模型,采用离散表示实现语音与文本模态的统一处理,支持低延迟生成和高质量的中文情感语音交互。
HuggingFace公司最新推出的HuggingChat原生macOS客户端为macOS用户带来了无缝且直观的高级AI对话体验,支持本地使用语言模型,并集成了Markdown、网页浏览、代码语法高亮等实用功能。用户可以通过简单的安装步骤快速启动应用,随时享受强大的AI聊天能力。
MIMO是一个先进的视频合成模型,能够模仿任何人在复杂动作中与物体互动,生成具有高度真实感和交互性的视频内容。
Moshi语音模型是由法国初创团队Kyutai开发的端到端语音交互模型,旨在提供自然流畅的语音对话体验。
LVCD是一种基于参考的带有扩散模型的线性视频着色工具。
个性化解决方案,旨在生成一系列图像时保持多个角色场景中人物的面孔、服装、发型和身材的一致性,从而创建连贯的故事。
由Kyutai实验室精心研发的全双工语音对话系统,它通过结合先进的文本语言模型、神经音频编解码器和多流音频语言模型,实现了更自然、更流畅的人机对话体验。
Ovis是由阿里国际AI团队开发的多模态大模型,它具备强大的图像理解和数据处理能力,能够处理文本、图像等多种数据类型。
一个专为iOS和macOS开发的音频处理库,它提供了一个简洁的API来处理音频数据,使得音频的录制、播放和分析变得异常简单。
GameGen-O:一款专为开放世界视频游戏生成而设计的扩散变换器模型。
DeepFakeDefenders 是一个用于识别图像伪造的算法工具,旨在帮助用户检测和防御深度伪造技术。
微信机器人底层框架是一个基于WechatFerry的开源项目,旨在为开发者提供一个创建微信机器人的底层架构。
mini-omni 是一个开源的多模态大型语言模型,具备实时端到端的语音输入和流式音频输出的会话能力。
一个开源的实时人像美化和背景替换工具,基于深度学习技术,为视频通话、直播和虚拟背景应用提供高级视觉效果。
VideoGameBunny-V1是一个基于Hugging Face平台的预训练模型,专注于视频游戏内容的理解与生成,旨在为游戏开发者、内容创作者和AI研究者提供强大的工具。
一款创新的图像生成模型,专注于混合现实与插画风格的图像创作。
ControlNext是一款强大的自动化控制系统设计与仿真平台,专为工程师和科研人员设计,用于快速搭建、测试和优化自动化控制策略。
Qwen2-VL是一个基于自然语言处理(NLP)技术的语音到文本(Voice-to-Text)和文本到语音(Text-to-Speech, TTS)转换工具,旨在提供高质量的语音转换服务。
Deep-Live-Cam是一个开源的实时面部交换和一键式视频深度伪造工具,它允许用户仅使用单张图片即可生成深度伪造视频。
Transfusion是一种用于训练多模态模型的方法,能够处理离散数据(如文本)和连续数据(如图像)。
KEEP是一种基于卡尔曼滤波原理的视频人脸超分辨率工具,旨在通过稳定的人脸先验和跨帧信息传播,提高视频人脸图像的超分辨率效果。
Magic Fixup是由Adobe Research开发的一款AI照片编辑工具,旨在通过观察动态视频简化照片编辑过程。
LongWriter是清华大学团队开发的长文本生成模型,专为生成超过10,000字的长篇连贯文本设计。
易采集/EasySpider是一个可视化无代码的网页数据采集工具,用户可以通过图形界面设计和执行爬虫任务,无需编写代码。
EmoTalk3D是一款集成情感识别与三维虚拟角色交互的创新性沟通工具,能够根据用户的语音或文本输入自动生成对应的情感表达,实现与虚拟角色的深度情感交流。
MiniCPM-V是由OpenBMB开发的一款面向端侧部署的多模态大型语言模型(MLLM),支持图像、视频和文本输入,提供高质量的文本输出。
Whisper-Medusa:一款基于Whisper模型的优化版语音识别工具,通过多解码头技术显著提升处理速度
CosyVoice是由阿里通义实验室开源的一款多语言语音生成模型,专注于高质量的语音合成,能够生成自然且逼真的语音。该模型支持多种语言、音色和情感控制,为用户提供了丰富的语音生成能力。
Flux 是一个开源的、基于 Go 语言的轻量级、高性能的 API 网关,旨在简化微服务架构中的服务间通信。它提供了丰富的功能来增强 API 的安全性、可维护性和可扩展性。
GitHub Models提供了一个交互式的模型游乐场,用户可以在这里测试不同的提示和模型参数,无需支付费用。此外,GitHub Models与Codespaces和VS Code集成,允许开发者在开发环境中无缝使用这些模型,并通过Azure AI实现生产部署,提供企业级安全和数据隐私保护。
Stable Video 4D(SV4D)是由AI公司Stability AI推出的首个视频生视频模型。该模型能够将单个物体的单视角视频输入,转换成8个不同视角的多视角视频,为用户提供全视图3D动态视频体验。
CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟,采用多模态检索模块来增强特定领域术语的翻译,利用大型语言模型(LLMs)生成容错翻译,考虑输入音频、历史上下文和检索信息。在真实世界场景中,CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例(VIP),远超其他系统。
H2O Danube3是由h2oai公司开发的一系列文本生成模型,专注于提供高质量的文本生成服务,广泛应用于聊天机器人、内容创作等领域。
XiYan-SQL是一个创新的框架,它采用多生成器集成策略来提高自然语言到SQL任务中的候选生成质量。