AI大模型 | 网址分类目录 | 六点半AI导航

AI大模型

DeepSeek Janus-Pro-7B：多模态AI图像生成与理解工具

一款开源的多模态AI模型，专注于图像生成与多模态理解任务，性能超越DALL-E 3和Stable Diffusion，适用于创意设计、教育、企业隐私保护等多种场景。

AIOpsLab：自动化运维智能代理开发与评估框架

由微软开发的开源框架，旨在设计、开发和评估自主AIOps智能代理，并构建可复现、标准化、互操作性强且可扩展的基准测试环境。

网易有道子曰-o1推理模型：开启教育推理新时代

国内首个输出分步式讲解的推理模型，专为教育场景设计，能够通过思维链技术模拟人类思考过程，帮助学生更好地理解和掌握知识。

豆包大模型1.5系列

字节跳动推出的最新人工智能模型，具备强大的多模态能力、高效的推理性能和独立的数据生产体系，综合能力在多个评测基准上领先。

Textoon：漫画AI，基于文本生成角色图像的AI工具

支持中英文提示词的AI角色生成工具，能够根据用户输入的描述生成具有独特外观和风格的角色图像。

SenseNova 5.0：商汤科技推出的行业领先“云到边缘”全栈式大模型产品矩阵

商汤科技最新推出的第五代大模型，具备强大的语言、创造力、科学计算和多模态交互能力，并通过“云到边缘”的全栈式架构，广泛应用于金融、教育、交通等多个领域。

Epoch AI：深度洞察人工智能发展趋势的独立研究机构

Epoch AI 是一个专注于人工智能和机器学习趋势研究的独立机构，通过严谨的分析和数据驱动的方法，为政策制定者、研究人员和行业从业者提供关于 AI 发展轨迹和社会影响的深度洞察。

哩布哩布AI：国内领先的AI图像创作平台

北京奇点星宇科技推出的一个国内领先的AI图像创作绘画平台和模型分享社区，提供在线Stable Diffusion图片生成功能和海量的模型素材库。

讯飞星火4.0 Turbo：全面升级的人工智能大模型

科大讯飞推出的人工智能大模型，全面升级了文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力，特别在数学和代码能力方面超越了GPT-4o。

Valley2：阿里巴巴达摩院电商场景多模态大模型

一款专为电商场景设计的多模态大型语言模型，旨在通过可扩展的视觉-语言架构提升各领域性能并拓展电商与短视频场景的应用边界。

Kimi多模态图片理解模型 API

全新多模态图片理解模型moonshot-v1-vision-preview，该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力，旨在帮助Kimi更好地理解世界。该Vision模型具备卓越的图像识别能力，能够识别复杂细节并区分相似对象，表现出色，尤其在OCR文字识别和图像理解方面，超越传统软件的准确性。

Kaggle：您的机器学习和数据科学社区

一个全球最大的人工智能与机器学习社区平台，汇集了超过2100万机器学习爱好者，旨在分享、压力测试和及时了解最新的机器学习技术和技巧。用户可以发现社区发布的海量模型、数据和代码，为下一个项目提供资源。

TANGOFLUX：超快忠实的文本到音频生成工具

TANGOFLUX是一个高效的文本到音频（TTA）生成模型，拥有515M参数，能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。

VMix：提升文本到图像扩散模型的美学质量

VMix 是一个用于提升文本到图像扩散模型美学质量的插件式美学适配器。它通过在图像生成过程中引入美学控制，增强了生成图像的美学表现，同时保持了图像与文本的对齐。

INFP：音频驱动的双向对话交互式头部生成框架

INFP是一个音频驱动的交互式头部生成框架，能够在双向对话中动态合成具有逼真面部表情和节奏性头部姿态动作的代理视频。

ColorFlow：检索增强型图像序列着色

给定一个参考图像池，ColorFlow 能够为黑白图像序列中的各种元素（包括角色的头发颜色和服装）准确地生成颜色，并确保与参考图像的颜色一致性。

Sketch2Sound AI音频工具哼唱和模仿创建音效

一个可控音频生成模型，能够根据一组可解释的时变控制信号（响度、亮度、音高）和文本提示来创造高质量的声音。

Twelve Labs 多模态AI视频理解平台

一个多模态人工智能平台，它能够像人类一样理解视频内容，帮助用户在任何应用中实现视频内容的深度分析和利用。

Meta Video Seal：AI视频水印工具

Meta 公司推出的开源 AI 视频水印工具，旨在通过在 AI 生成的视频中加入不可察觉的水印来打击深度伪造和保护原创内容。

HelloMeme：创新表情包视频生成工具

一款集成空间编织注意力的扩散模型工具，用于简化表情包视频的制作过程，提升图像和视频生成的质量和效率。

ChatPPT：AI一键对话生成PPT

一款全球领先的智能PPT生成工具，用户只需输入一句话的主题或要求，即可免费生成演示文稿，或下载官方Office插件体验更丰富的AI文档创作。

阿里图像生成模型Qwen2vl-Flux开源工具

一款功能强大的图像生成与编辑工具，支持图像融合、风格转移等多种操作，为用户提供丰富的视觉创作体验。

SAMURAI：零样本视觉跟踪工具

一种基于 Segment Anything Model 2 (SAM 2) 增强的视觉对象跟踪工具，它通过引入时间运动线索和运动感知记忆选择机制，实现了无需重新训练或微调的鲁棒、准确跟踪。

1 2 3 … 7