一款开源的多模态AI模型,专注于图像生成与多模态理解任务,性能超越DALL-E 3和Stable Diffusion,适用于创意设计、教育、企业隐私保护等多种场景。
DeepSeek推出的第一代推理模型,性能与OpenAI的o1正式版相当,且开源了模型权重与训练框架。
强大的人工智能工具,能够通过多轮对话进行复杂的推理和问题解答,广泛应用于各种需要智能交互的场景。
专注于人工智能和机器学习的在线平台,提供多种登录方式,包括手机号码、微信和邮箱登录,支持用户在不同地区使用。
由微软开发的开源框架,旨在设计、开发和评估自主AIOps智能代理,并构建可复现、标准化、互操作性强且可扩展的基准测试环境。
国内首个输出分步式讲解的推理模型,专为教育场景设计,能够通过思维链技术模拟人类思考过程,帮助学生更好地理解和掌握知识。
一款简单易用的智能视频剪辑和制作APP,旨在帮助用户快速完成视频创作并分享到各大社交平台。
字节跳动推出的最新人工智能模型,具备强大的多模态能力、高效的推理性能和独立的数据生产体系,综合能力在多个评测基准上领先。
支持中英文提示词的AI角色生成工具,能够根据用户输入的描述生成具有独特外观和风格的角色图像。
商汤科技最新推出的第五代大模型,具备强大的语言、创造力、科学计算和多模态交互能力,并通过“云到边缘”的全栈式架构,广泛应用于金融、教育、交通等多个领域。
Epoch AI 是一个专注于人工智能和机器学习趋势研究的独立机构,通过严谨的分析和数据驱动的方法,为政策制定者、研究人员和行业从业者提供关于 AI 发展轨迹和社会影响的深度洞察。
一个提供多语言视频翻译、创意视频制作、模特视频创作等功能的AI平台,旨在帮助用户高效地创作和管理视频内容。
华为云Stack的自动安装部署工具,可实现软件自动化部署、云服务扩容和业务调测。
一款基于人工智能技术的图像生成 API,可将用户的文字描述转化为逼真的图像作品。
北京奇点星宇科技推出的一个国内领先的AI图像创作绘画平台和模型分享社区,提供在线Stable Diffusion图片生成功能和海量的模型素材库。
个提供丰富人体 3D 扫描模型资源的平台,为数字人赛道创业者等提供了宝贵的素材支持。
国内首个具备端到端语音同传能力的大模型,其同传速度与精度直逼人类专家。
Gemini AI AnyChat是一个实验性平台,展示了 Gemini AI 在视觉处理领域的突破,能够同时处理实时视频和静态图像。
科大讯飞推出的人工智能大模型,全面升级了文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力,特别在数学和代码能力方面超越了GPT-4o。
Kokoro是一款新发布的语音合成模型,具有8200万参数,以其轻量级设计和高效性能在TTS领域表现卓越。
一款专为电商场景设计的多模态大型语言模型,旨在通过可扩展的视觉-语言架构提升各领域性能并拓展电商与短视频场景的应用边界。
全新开源模型,包括基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01,旨在为开发者提供强大的 AI 能力。
全新多模态图片理解模型moonshot-v1-vision-preview,该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力,旨在帮助Kimi更好地理解世界。该Vision模型具备卓越的图像识别能力,能够识别复杂细节并区分相似对象,表现出色,尤其在OCR文字识别和图像理解方面,超越传统软件的准确性。
具备强大的预测能力,可处理长达2048个时间点的单变量时间序列,支持任意预测时间跨度。
一个全球最大的人工智能与机器学习社区平台,汇集了超过2100万机器学习爱好者,旨在分享、压力测试和及时了解最新的机器学习技术和技巧。用户可以发现社区发布的海量模型、数据和代码,为下一个项目提供资源。
一个为企业提供安全、高效且可定制的 AI 工作空间,旨在帮助企业提升工作效率和数据安全性。
一款性能卓越、开源且成本效益高的大语言模型,具备强大的自然语言处理能力,广泛应用于语言生成、问答、对话系统等领域。
NVIDIA 推出的最新一代高性能计算架构,专为加速人工智能和高性能计算而设计。
英伟达推出的一款基础世界模型平台,旨在通过生成合成数据来加速物理AI系统的开发。
Grok是一款具备前沿聊天、编程和推理能力的人工智能工具,能够将文本概念转化为视觉现实,并在日常任务中提供实时洞察和辅助.
一种基于音频条件的潜在扩散模型的端到端唇同步框架,能够直接建模复杂的音视频关联.
一款具备强大中文逻辑推理能力的AI模型,能够处理复杂的数学、代码和逻辑推理任务。
YouMind是一个AI驱动的创作系统,旨在帮助用户将各种材料转化为灵感之作。
HuggingFace发布的轻量级开源代码库,旨在简化AI代理系统的开发过程,支持快速搭建Agent。
TANGOFLUX是一个高效的文本到音频(TTA)生成模型,拥有515M参数,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。
VMix 是一个用于提升文本到图像扩散模型美学质量的插件式美学适配器。它通过在图像生成过程中引入美学控制,增强了生成图像的美学表现,同时保持了图像与文本的对齐。
一个用于图像超分辨率的开源工具,它通过先进的算法来增强图像的分辨率,使低分辨率图像变得更加清晰。
DisPose 是一种可控制的人体图像动画方法,它通过运动场引导和关键点对应来提高视频生成的质量。
INFP是一个音频驱动的交互式头部生成框架,能够在双向对话中动态合成具有逼真面部表情和节奏性头部姿态动作的代理视频。
给定一个参考图像池,ColorFlow 能够为黑白图像序列中的各种元素(包括角色的头发颜色和服装)准确地生成颜色,并确保与参考图像的颜色一致性。
一个可控音频生成模型,能够根据一组可解释的时变控制信号(响度、亮度、音高)和文本提示来创造高质量的声音。
OpenAI公司推出的最新推理系列模型,代表了人工智能在推理能力上的一次重大进步。
一款实验性AI模型,能够展示推理过程中的思考过程,并支持深度可视化。
一款由 NVIDIA 提供的高性能、低成本的边缘 AI 开发套件,专为生成式 AI 工作负载和多模态智能体应用设计。
一款针对复杂推理问题的全新大模型,它能够在回答问题之前进行更长时间的“思考”,以提供更准确和全面的响应。
一个多模态人工智能平台,它能够像人类一样理解视频内容,帮助用户在任何应用中实现视频内容的深度分析和利用。
谷歌云平台推出的第三代张量处理器,专为机器学习和高性能计算工作负载设计。
Meta 公司推出的开源 AI 视频水印工具,旨在通过在 AI 生成的视频中加入不可察觉的水印来打击深度伪造和保护原创内容。
一款集成空间编织注意力的扩散模型工具,用于简化表情包视频的制作过程,提升图像和视频生成的质量和效率。
一款基于大型语言模型的人工智能工具,旨在提供安全、有帮助且准确的对话体验。
一项基于多模态联合训练的AI音频合成技术,能够根据视频或文本输入自动生成同步的音频效果。
一款全球领先的智能PPT生成工具,用户只需输入一句话的主题或要求,即可免费生成演示文稿,或下载官方Office插件体验更丰富的AI文档创作。
一款专注于视频质量修复与增强的全新工具,能够一键将模糊视频变为超高清视频。
一个能够创建逼真语音的工具,它支持多种语言、声音和情感的语音合成。
一款功能强大的图像生成和编辑模型,旨在通过一站式解决方案,高效处理多种视觉任务。
一款先进的文本图像到视频生成模型,能够根据简单的文本输入和图像生成高质量的视频内容。
一款功能强大的图像生成与编辑工具,支持图像融合、风格转移等多种操作,为用户提供丰富的视觉创作体验。
一款基于先进人工智能技术的综合性模型工具,旨在提供高效、精准的数据分析与预测服务。
一种基于 Segment Anything Model 2 (SAM 2) 增强的视觉对象跟踪工具,它通过引入时间运动线索和运动感知记忆选择机制,实现了无需重新训练或微调的鲁棒、准确跟踪。
Black Forest Labs(黑森林实验室)开发的一系列高性能图像生成模型的工具包。
一款开源的多模态AI模型,专注于图像生成与多模态理解任务,性能超越DALL-E 3和Stable Diffusion,适用于创意设计、教育、企业隐私保护等多种场景。