上云无忧 > 文档中心 > 百度智能云文心大模型API ERNIE 3.0模型精调 - 数据准备
文心大模型API
百度智能云文心大模型API ERNIE 3.0模型精调 - 数据准备

文档简介:
用户设置: 在代码最开始处设置您在官网获取到的ak和sk。 import wenxin_api wenxin_api.ak = "your ak" wenxin_api.sk = "your sk" 准备训练数据: 数据格式:数据必须是JSONL文档,其中每一行的src代表输入,tgt代表输出,数据格式: 【百度智能云】文心一言
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

用户设置

  • 在代码最开始处设置您在官网获取到的ak和sk
import wenxin_api
wenxin_api.ak = "your ak" wenxin_api.sk = "your sk"

准备训练数据

  • 数据格式:数据必须是JSONL文档,其中每一行的src代表输入,tgt代表输出,数据格式:
{"src": "input_text", "tgt": "output_text"} {"src": "input_text", "tgt": "output_text"}
  • 建议训练数据量:5-300
  • src最大字符数1000,tgt最大字符数1000。
  • 数据示例:

    1.大纲生成故事数据示例

{"src": "标题:运神像的驴子。大纲:对着神像顶礼膜拜|再也不肯往前走|
神像放在驴子|赶着进城|驴夫狠狠|洋洋得意|大喊大叫|遇见。正文:", "tgt": "
有个人把神像放在驴子背上,赶着进城。凡是遇见他们的人都对着神像顶礼膜拜。
驴子以为人们是向它致敬,便洋洋得意,大喊大叫,再也不肯往前走了。结果挨了驴夫狠狠的一棍。
"} {"src": "标题:聪明人和他的两个学生。大纲:一块钱买件东西|油灯回来|灯光洒满|灯点着|
有个聪明人|干草塞满|房间塞满|塞满房间。正文:", "tgt": "有个聪明人给自己的两个学生出了
一个难题:用一块钱买件东西并把一间黑暗的房间塞满。一个学生拿这一块钱买了许多干草,
摆进这个房间,房间被这许多干草塞满了。另一个学生却只费了四角钱,买了一盏油灯回来。他把灯点着了,
房间里立刻亮了起来,灯光洒满了房间。聪明人对第二个学生的办法连连称赞,因为这才是塞满房间最好的办法。"}

2.文本补全数据示例

{"src": "在一个遥远的地方,有一个大森林。猎人们经常光顾这里,所以动物们都非常谨慎小心,生怕让猎人捕去。
一天,有一个猎人又来到了森林,他在草地上铺了一张网,然后就在网上不停地打滚耍把戏。一群隐藏在密林里的小熊看见了,
非常羡慕。等猎人走了后,它们也跑到网上开心的玩耍起来。结果猎人偷偷躲在暗处把网收拢了起来,
所有的小熊都被猎人抓住了。[MASK]", "tgt": "猎人满载而归。"} {"src": "有位母亲生了两个女儿。
二女儿心眼很坏,但在母亲面前表现的很乖巧。大女儿又孝顺又勤劳,可母亲总觉得她不如二女儿。母亲老了。
她把积蓄交给了二女儿,结果被挥霍一空。大女儿勤劳节俭,攒下了钱。[MASK]", "tgt": "她没有怨恨母亲,
而是守护在母亲身边,母亲这才明白哪个女儿才是对她最好的女儿。"}

创建数据集

from wenxin_api import Dataset
local_file_path = "your file" dataset = Dataset.create(local_file_path=local_file_path)

查看已有数据集

from wenxin_api import Dataset #查看所有数据集 datasets = Dataset.list() print(datasets) 
# 查看指定数据集 data_id = "your dataset id" dataset = Dataset.retrieve(data_id=data_id) print(dataset)

  • 数据集返回格式

{ "id":88, "name":"test5", "url":"http://bj.bcebos.com/api-platform-wenxin/tuning/2EEE63
1CDBFE7FB2DA78720680055CAC", "md5":"2eee631cdbfe7fb2da78720680055cac", "type":"data" }

删除数据集

from wenxin_api import Dataset

dataset_id="your dataset id" Dataset.delete(data_id=dataset_id)

相似文档
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部