基于知识增强的跨模态语义理解关键技术,可实现跨模态检索、图文生成、图片文档的信息抽取等应用的快速搭建,落实产业智能化转型的AI助力
文心·跨模态大模型
ERNIE-ViLG 2.0
首个知识增强跨模态生成大模型,基于混合降噪专家模型框架,在文本生成图像任务刷新世界最好效果
ERNIE-ViL
首个知识增强跨模态大模型,将场景图的结构化知识融入预训练,在视觉问答、跨模态检索等5个典型跨模态任务上刷新世界最好效果。
ERNIE-Layout
跨模态文档理解模型,首次将布局知识增强技术融入跨模态文档预训练,在 4 项文档理解任务上刷新世界最好效果,登顶 DocVQA 榜首。
ERNIE-SAT
文心跨模态大模型,由语音和语言跨模态联合预训练,显著增强语音语言跨模态任务效果。
ERNIE-GeoL
“地理-语言”预训练模型,学习地理与语言间的关联,百度地图应用效果显著
工具与平台
大模型API
ERNIE-ViLG 文生图
文生图领域的大模型服务,支持输入一段文本描述,并选择生成风格和分辨率,模型就会根据输入的内容自动创作出符合要求的图像。
大模型套件
ERNIEKit
文心大模型开发套件ERNIEKit,面向NLP工程师,提供全流程大模型开发与部署工具集,端到端、全方位发挥大模型效能。
零门槛AI开发平台EasyDL
EasyDL跨模态
面向AI应用开发者,基于知识增强的跨模态语义理解关键技术,零代码定制跨模态能力。目前已支持图文匹配任务。