项目旨在通过人工智能技术,创造一个无限广阔的数字宇宙,实现与现实世界相媲美的视觉效果和实时互动能力。
XiYan-SQL是一个创新的框架,它采用多生成器集成策略来提高自然语言到SQL任务中的候选生成质量。
一款专门用于复杂推理的复合AI模型,它通过在推理层交织多个开放模型,实现了与许多封闭前沿模型相匹配甚至超越的推理能力。
AnyChat是一个集成了多种AI模型的多AI聊天平台,提供实时音视频交互和全功能APP解决方案。
一款支持超长上下文处理的语言模型,能够处理长达 1M tokens 的文本,并在长文本任务中表现出色。
一款基于视频扩散模型(VDM)的虚拟试穿技术,它能够结合给定的服装图像和人物视频,生成人物穿着该服装的高质量试穿视频。
微软TinyTroupe是一款基于大型语言模型(LLM)的人格模拟AI工具,能够模拟具备特定性格、兴趣和目标的虚拟角色。
Claude3.5Opus是一款由Anthropic公司开发的高级人工智能模型,专注于处理复杂任务并提供深度分析。
CHANGER是一种新型头部融合管道,旨在为数字内容创作提供高保真的头部合成解决方案,特别适用于视觉效果(VFX)、数字人物创建和虚拟头像等领域。
Meissonic是一款由阿里巴巴集团、Skywork AI及多所高校共同研发的颠覆性图像生成模型,它基于掩蔽图像建模技术,能够生成高质量、高分辨率的图像。
AlphaFold3是由谷歌DeepMind团队开发的AI模型,能够预测蛋白质、核酸(DNA和RNA)、小分子、离子及修饰残基等生物分子的三维结构。
Qwen2.5-Coder是通义千问团队开源的一系列AI编程模型,旨在提升编程效率和性能,支持多种编程语言和代码相关任务。
一项由字节跳动和清华大学联合开发的肖像动画技术,它能够将静态肖像图像和驱动表演视频结合起来,生成具有高度表现力和真实感的角色动画和视频。
FLUX1.1Pro 迎来重大更新,推出全新版本 FLUX1.1Pro Ultra,支持高达4兆像素的分辨率,生成速度大幅提升,每张图片仅需约10秒完成。
FLUX.1-dev LoRA 服装生成器利用先进的人工智能技术,为用户带来前所未有的时尚设计体验,让设计小白也能秒出服装效果图。
Moonshine是一个为边缘设备提供快速且准确的自动语音识别(ASR)的工具。
Anthropic 公司推出的一款人工智能模型,以其快速响应和增强推理能力而著称,适合需要速度与智能并重的任务。
xAI API是马斯克推出的人工智能公司xAI提供的应用程序接口,允许开发者使用其Grok系列基础模型进行自定义应用开发和集成。
Meta MobileLLM是Meta(前Facebook)推出的专为移动设备设计和优化的大型语言模型,旨在解决云计算成本上升和延迟问题,使其非常适合在资源受限的设备上运行。
Toy Box Flux 是一个利用AI生成图像训练的3D渲染模型,结合了3D LoRA模型和Coloring Book Flux LoRA的权重,形成了独特的风格,特别适合生成具有特定风格的玩具设计图像。
Sana 是一个文本到图像的框架,能够高效生成高达4096×4096分辨率的图像。它以极快的速度合成高分辨率、高质量的图像,并保持强文本图像对齐,可部署在笔记本电脑GPU上。
NVIDIA推出的一款大型语言模型,它基于70亿参数的Nematron模型,经过特定指令训练,以提高其在自然语言处理任务中的性能和准确性。
Yi-Lightning是零一万物公司最新发布的高性能AI模型,以其卓越的推理速度和生成质量在国际权威盲测榜单LMSYS上取得世界第六、中国第一的排名。
百度智能云推出的一款致力于让专业级视觉AI应用落地平民化的平台。
OpenAI 开发的一个分布式计算工具,旨在简化跨多个机器和容器的复杂任务的执行和管理。
九天人工智能平台提供人工智能算力、算法、数据,汇聚优秀AI能力,打造从智算基础设施、核心算法能力到智能化应用的全栈人工智能服务,全面支持自智网络等多样化运营商智慧运营需求,为工业、医疗、政务、教育、金融等行业客户构建创新解决方案。
工具介绍F5-TTS是一个基于深度学习的文本到语音(Text-to-Speech,简称TTS)转换工具,由[…]
FLUX.1-Turbo-Alpha 是由阿里巴巴集团旗下的阿里妈妈创意团队开发的一个预训练语言模型。
一个致力于构建下一代高级多模态人工智能的平台,它通过快速、强大且先进的推理能力,为用户提供直观且易于访问的服务。
一款由快手与北京大学联合研发并开源的视频生成模型。该模型利用深度学习技术,能够实现高质量的视频生成和处理,为用户提供了一种创新的视频内容创作工具。
一个大规模、高质量的数据集,它包含了5.7万亿个优质tokens,旨在为大语言模型训练提供丰富的数据资源。
该工具让开发者可以在几分钟内启动AI应用,无需庞大团队和复杂的技术基础。对于企业而言,这意味着能够快速推出AI项目,提升创新能力,加速技术转化。
苹果最新推出的 AI 模型 Depth Pro 在深度估计领域取得重大突破,能快速生成高分辨率的3D深度图,无需相机元数据。该模型工作速度快,能捕捉微小细节,提供绝对深度估计,且开源共享。
一种3D虚拟试衣技术,它通过使用高斯散射(3DGS)作为3D表示,实现了从2D虚拟试衣模型到3D空间的知识转移,同时提高了跨视图的一致性。
一个用于处理和分析大量文本数据的API服务。
Adobe推出的一个旨在提高数字内容真实性和可追溯性的工具。
Black Forest Labs 以 Beta 版形式推出 BFL API,从而支持开发者将 Flux 模型集成到他们的应用程序中。
Dream Machine 是 Luma Labs 提供的一套人工智能 API 工具,旨在帮助开发者轻松集成 AI 功能到他们的应用程序中。
OpenAI实时API是一种能够提供即时、交互式人工智能服务的应用程序接口。
BigModel 是一个提供大规模语言模型服务的平台。
ScreenPipe 是一个用于屏幕录制和视频处理的开源工具。
Revisit-Anything 是一个开源的 Python 库,用于重新访问和增强现有的深度学习模型。
CogView3 是由清华大学团队开发的一个用于图像和视频处理的人工智能工具。
Crawl4AI是一个为人工智能应用提供数据抓取和处理的工具,它能够帮助用户从各种网站和来源收集数据,以支持AI模型的训练和分析。
"Blueberry"模型是近期在AI图像生成领域引起广泛关注的神秘模型,以其出色的性能在排行榜上迅速上升,成为该领域的新晋强者。
一款国产化的多模态大模型,专注于为企业提供训练周期短、数据集需求小、性价比高的智能化服务。
Molmo是由Allen AI研究所开发的一系列多模态人工智能模型,旨在通过学习指向其感知的内容,实现与物理和虚拟世界的丰富交互。
Westlake-Omni是一个开源的中文情感语音交互大语言模型,采用离散表示实现语音与文本模态的统一处理,支持低延迟生成和高质量的中文情感语音交互。
HuggingFace公司最新推出的HuggingChat原生macOS客户端为macOS用户带来了无缝且直观的高级AI对话体验,支持本地使用语言模型,并集成了Markdown、网页浏览、代码语法高亮等实用功能。用户可以通过简单的安装步骤快速启动应用,随时享受强大的AI聊天能力。
在百度云智大会上,生数科技宣布旗下视频大模型Vidu正式开放API并接入百度智能云千帆大模型平台,成为首个视频[…]
MIMO是一个先进的视频合成模型,能够模仿任何人在复杂动作中与物体互动,生成具有高度真实感和交互性的视频内容。
Moshi语音模型是由法国初创团队Kyutai开发的端到端语音交互模型,旨在提供自然流畅的语音对话体验。
一个用于评估 AI 模型多语言知识理解能力的基准测试集。
LVCD是一种基于参考的带有扩散模型的线性视频着色工具。
个性化解决方案,旨在生成一系列图像时保持多个角色场景中人物的面孔、服装、发型和身材的一致性,从而创建连贯的故事。
一个提供语音到文本、文本到语音以及语言理解 API 的语音 AI 平台。它被全球顶尖企业、对话式 AI 领导者和初创公司所信赖,适用于医疗转录到自主代理等多种场景。
一站式AI创作开发平台,致力于为用户提供全面、高效的AI创作与开发环境。
由Kyutai实验室精心研发的全双工语音对话系统,它通过结合先进的文本语言模型、神经音频编解码器和多流音频语言模型,实现了更自然、更流畅的人机对话体验。
Ovis是由阿里国际AI团队开发的多模态大模型,它具备强大的图像理解和数据处理能力,能够处理文本、图像等多种数据类型。
一个专为iOS和macOS开发的音频处理库,它提供了一个简洁的API来处理音频数据,使得音频的录制、播放和分析变得异常简单。
项目旨在通过人工智能技术,创造一个无限广阔的数字宇宙,实现与现实世界相媲美的视觉效果和实时互动能力。