全球首个低碳、高性能、低幻觉开源多语言大模型Tele-FLM发布
2024年5月,智源研究院理事长黄铁军与中国电信首席技术官、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙发布了由北京智源人工智能研究院与TeleAI联合研发的全球首个低碳、高性能开源多语言大模型Tele-FLM,并预告接下来将发布千亿、6000亿、万亿参数大语言模型。
一大波北京AI重磅成果发布!5年投资超1000亿,最高重奖1亿元,北大清华百度蚂蚁微软大佬齐聚AI盛会
Tele-FLM拥有520亿参数,支持全球80%以上的主流语言,有3大特色:
1、低碳。损失预测技术保障训练0调整0重试。据Meta官网信息,Llama 3训练可能用了超过49152张H100,而Tele-FLM训练仅用到896张A800。
2、高性能。在多轮角色、多轮安全、安全测试、幻觉测试、闲聊问答等多维度能力测评结果超过GPT-3.5 Turbo。重视中文数据质量而不是数量,Tele-FLM在基础模型评测中取得了领先的效果,BPB loss指标在英文上优于Llama 2-70B和Llama 3-8B,在中文上优于Qwen 1.5-72B。
3、全面开源。核心技术(生长策略、超参搜索、稳定训练……),模型权重(基础模型、对话模型),训练细节(超参搜索曲线、Loss曲线、GradNorm、过程评测……)全开源。
摘要: 本文提出了一种基于多模态注意力的多语言视频-文本检索方法。该方法通过多模态注意力机制,将视频和文本特征进行融合,并利用多语言翻译模型将不同语言的文本特征进行转换,从而实现跨语言的视频-文本检索。实验结果表明,该方法在多语言视频-文本检索任务上取得了较好的效果。
功能
多模态注意力机制:将视频和文本特征进行融合。
多语言翻译模型:将不同语言的文本特征进行转换。
跨语言视频-文本检索:实现不同语言的视频-文本检索。
使用方法
准备视频和文本数据。
训练多模态注意力模型和多语言翻译模型。
使用训练好的模型进行视频-文本检索。
适用场景
多语言视频-文本检索。
视频理解。
自然语言处理。
适用人群
研究人员。
开发人员。
优缺点
优点:
能够实现跨语言的视频-文本检索。
能够有效地融合视频和文本特征。
缺点:
需要大量的训练数据。
模型训练过程复杂。
分类标签推荐
多模态检索, 多语言检索, 视频理解, 自然语言处理
Vega AI 是由 Vega AI Labs 开发的 AI 视频生成工具,支持文本转视频、图像转视频、视频编辑等功能。