一款由 Runway 公司开发的,用于将 Gen-3 Alpha Turbo 模型集成到各种应用程序和产品中的开发工具。
OpenAI O1是OpenAI公司推出的一款先进的人工智能模型,旨在通过自然语言处理技术,为用户提供高效、智能的文本生成和处理服务。
GameGen-O:一款专为开放世界视频游戏生成而设计的扩散变换器模型。
Fakespot是一个在线购物辅助工具,旨在帮助用户识别和避免购买假冒伪劣产品。
DetectFakes是由西北大学凯洛格商学院开发的一个用于检测深度伪造(Deepfakes)图像的在线测试工具。
DeepFakeDefenders 是一个用于识别图像伪造的算法工具,旨在帮助用户检测和防御深度伪造技术。
微信机器人底层框架是一个基于WechatFerry的开源项目,旨在为开发者提供一个创建微信机器人的底层架构。
mini-omni 是一个开源的多模态大型语言模型,具备实时端到端的语音输入和流式音频输出的会话能力。
腾讯混元Turbo是腾讯公司推出的新一代人工智能大模型,具有显著的性能提升和成本降低优势。
Flageval大模型角斗场是一个在线平台,用于比较和评估不同人工智能模型在多种任务上的表现。
一个开源的实时人像美化和背景替换工具,基于深度学习技术,为视频通话、直播和虚拟背景应用提供高级视觉效果。
文小言是百度推出的一款“新搜索”智能助手,旨在通过AI技术为用户提供更丰富、更个性化的搜索体验。
VideoGameBunny-V1是一个基于Hugging Face平台的预训练模型,专注于视频游戏内容的理解与生成,旨在为游戏开发者、内容创作者和AI研究者提供强大的工具。
一款创新的图像生成模型,专注于混合现实与插画风格的图像创作。
ControlNext是一款强大的自动化控制系统设计与仿真平台,专为工程师和科研人员设计,用于快速搭建、测试和优化自动化控制策略。
智谱AI是一个基于GLM预训练框架的双语对话模型,它通过多阶段增强预训练方法优化了中文问答和对话能力,并结合量化技术,实现了在消费级显卡上的本地部署。
Qwen-VL模型API:阿里云提供的大模型服务平台,支持多模态AI能力,包括图像和视频内容的理解与生成。
Qwen2-VL是一个基于自然语言处理(NLP)技术的语音到文本(Voice-to-Text)和文本到语音(Text-to-Speech, TTS)转换工具,旨在提供高质量的语音转换服务。
Deep-Live-Cam是一个开源的实时面部交换和一键式视频深度伪造工具,它允许用户仅使用单张图片即可生成深度伪造视频。
Transfusion是一种用于训练多模态模型的方法,能够处理离散数据(如文本)和连续数据(如图像)。
KEEP是一种基于卡尔曼滤波原理的视频人脸超分辨率工具,旨在通过稳定的人脸先验和跨帧信息传播,提高视频人脸图像的超分辨率效果。
Captions API是一个能够大规模生成、编辑和翻译视频的API工具,旨在显著转变和优化视频制作工作流程。
Product Hunt 是一个每天推荐最新产品的平台,专注于移动应用、网站和其他技术产品。它为产品爱好者提供一个分享和讨论新产品的空间。
Magic Fixup是由Adobe Research开发的一款AI照片编辑工具,旨在通过观察动态视频简化照片编辑过程。
Exists是一款基于AI技术的游戏创作平台,它允许用户快速将创意转化为可玩的多人在线游戏。
Geekbench AI是一款专业的AI性能基准测试工具,通过模拟真实世界AI应用场景,为开发者和消费者提供多维度的设备AI性能评估。
WorldLabs是一个创新平台,旨在帮助企业或组织打造自己的品牌化创新门户,促进创意的孵化、协作与转化。
Pulse Inspect 是一款由 Pindrop 提供的先进欺诈检测与分析工具,专为金融机构和其他高风险行业设计,用于实时识别并阻止欺诈活动。
LongWriter是清华大学团队开发的长文本生成模型,专为生成超过10,000字的长篇连贯文本设计。
JEST是一种用于大规模预训练的数据筛选方法,通过联合选择数据批次来加速多模态学习。
黑芝麻智能华山®A1000芯片是专为智能驾驶辅助系统(ADAS)和自动驾驶设计的高性能计算芯片。
易采集/EasySpider是一个可视化无代码的网页数据采集工具,用户可以通过图形界面设计和执行爬虫任务,无需编写代码。
书生·浦语是一个致力于大模型研究与开发工具链的开源组织,为AI开发者提供高效、易用的开源平台,加速大模型与算法技术的普及与应用。
EmoTalk3D是一款集成情感识别与三维虚拟角色交互的创新性沟通工具,能够根据用户的语音或文本输入自动生成对应的情感表达,实现与虚拟角色的深度情感交流。
MiniCPM-V是由OpenBMB开发的一款面向端侧部署的多模态大型语言模型(MLLM),支持图像、视频和文本输入,提供高质量的文本输出。
结构化输出是OpenAI API中的一项新功能,它确保AI模型生成的输出严格匹配开发者提供的JSON Schemas。
Whisper-Medusa:一款基于Whisper模型的优化版语音识别工具,通过多解码头技术显著提升处理速度
CosyVoice是由阿里通义实验室开源的一款多语言语音生成模型,专注于高质量的语音合成,能够生成自然且逼真的语音。该模型支持多种语言、音色和情感控制,为用户提供了丰富的语音生成能力。
Flux 是一个开源的、基于 Go 语言的轻量级、高性能的 API 网关,旨在简化微服务架构中的服务间通信。它提供了丰富的功能来增强 API 的安全性、可维护性和可扩展性。
GitHub Models提供了一个交互式的模型游乐场,用户可以在这里测试不同的提示和模型参数,无需支付费用。此外,GitHub Models与Codespaces和VS Code集成,允许开发者在开发环境中无缝使用这些模型,并通过Azure AI实现生产部署,提供企业级安全和数据隐私保护。
言犀是京东智能人机交互平台,它融合了京东十年的客服服务与营销最佳实践,以及自研的全链路AI能力,为用户提供一个服务数智化平台级的智能人机交互产品。
Snail Radar Dataset 是一个大规模的4D雷达数据集,专为自动驾驶系统中的定位、建图和地点识别而设计。这个数据集通过三种不同的平台(手持设备、电动自行车和SUV)在多种环境条件下收集,包括晴朗天气、夜间和大雨天气。
Stable Video 4D(SV4D)是由AI公司Stability AI推出的首个视频生视频模型。该模型能够将单个物体的单视角视频输入,转换成8个不同视角的多视角视频,为用户提供全视图3D动态视频体验。
武汉大学联合中国移动九天人工智能团队和昆山杜克大学基于YouTube数据开源了超过11万小时的音视频说话人识别数据集VoxBlink2,是目前最大的公开可用的音视频说话人识别数据集。该数据集丰富了开源语音语料库,支持训练声纹大模型。
CLASI是一个由字节跳动研究团队开发的高质量、类人同声传译系统。它通过新颖的数据驱动读写策略平衡翻译质量和延迟,采用多模态检索模块来增强特定领域术语的翻译,利用大型语言模型(LLMs)生成容错翻译,考虑输入音频、历史上下文和检索信息。在真实世界场景中,CLASI在中英和英中翻译方向上分别达到了81.3%和78.0%的有效信息比例(VIP),远超其他系统。
OpenAI在官网发布了最新大模型GPT-4o mini,具备文本、图像、音频、视频的多模态推理能力。
H2O Danube3是由h2oai公司开发的一系列文本生成模型,专注于提供高质量的文本生成服务,广泛应用于聊天机器人、内容创作等领域。
CogVLM2-Video 是由智谱AI开发并开源的一种新型视频理解模型,该模型通过引入多帧视频图像和时间戳作为编码器输入,解决了传统视频理解模型在处理时间信息丢失问题上的局限,从而在视频理解和生成领域取得了显著进展。
EchoMimic是一款由蚂蚁集团研究团队推出的创新技术,能够根据音频内容和角色照片生成生动对口型视频。该技术突破了传统方法的局限性,实现了更逼真和动态的人像生成。
Cohere.com是一个提供大语言模型(LLM)的平台,旨在帮助开发人员和企业构建高性能的AI产品。该平台通过提供丰富的API服务,支持多语言输入、神经搜索、搜索排名、文本分类和生成等功能,广泛应用于各种AI应用场景。
openKylin(开放麒麟)是一个以开源社区为基础,致力于构建开放、共享、协同的操作系统生态的平台。它提供了一系列工具和资源,旨在提高操作系统的智能交互能力、开发效率和用户体验。
HumanAIGC 是一个专注于人工智能生成内容(AIGC)的GitHub仓库,汇集了多个前沿的AI项目,旨在通过人工智能技术简化内容创作过程,提高创作效率和质量。
MimicMotion是腾讯公司推出的一款人工智能人像动态视频生成框架,该框架利用先进的技术,能够根据用户提供的单个参考图像和一系列要模仿的姿势,生成高质量、姿势引导的人类动作视频。
苹果智能助手(Apple Intelligence)是苹果公司推出的一款集成在iPhone、iPad和Mac中的智能服务,旨在帮助用户更高效地完成写作、表达和日常任务。它通过在设备上进行处理,保护用户的隐私,同时利用服务器端的模型处理更复杂的请求。
GraphRAG,这是一种基于图的RAG(检索增强生成)技术。GraphRAG旨在通过构建知识图谱来增强大模型在搜索、问答、摘要和推理等方面的能力。
哥伦比亚大学工程学院研究人员开发DIVID工具,可以以93.7%准确率检测AI生成视频。
AuraSR 是基于 GAN 的 Super-Resolution 模型,通过图像条件化增强技术,提升生成图像的质量。该模型采用 GigaGAN 论文的变体实现,并使用 Torch 框架。AuraSR 的优势在于能够有效提高图像的分辨率和质量,适用于图像处理领域。
OrionStar猎户星空是一家由猎豹移动投资的智能服务机器人公司,成立于2016年。猎户星空专注于为“真有用”机器人而生,通过全链条AI技术,提供多样化的智能服务机器人解决方案。
Etched 是世界上首个将 Transformer 架构集成到专用集成电路(ASIC)中的技术公司。通过将这种先进的神经网络架构固化到芯片中,Etched 能够以比传统图形处理器(GPU)更快、更经济的方式运行 AI 模型。
小米AI开放平台,提供深度学习、计算机视觉、语音处理等多方面的技术能力和服务,帮助开发者构建智能应用。
一款由 Runway 公司开发的,用于将 Gen-3 Alpha Turbo 模型集成到各种应用程序和产品中的开发工具。