Datawhale AI夏令营 task2 笔记问题汇总收集
一、跑完整体但是没有json文件
查看权限问题是否出错。特别注意添加Bearer,否则没有权限,也会出现跑完整体没有json文件的情况。
二、生成qa问答对json格式问题
(所有方法可结合并行)
方法一、try except将格式不正确(格式强校验)的数据记录,然后无法转换的数据重新进行二次循环跑。
方法二、修改提示词部分加强格式稳定性,或者换成更加优良格式化的模型api
方法三、drop掉不符合格式的数据
三、有关于一直卡在遍历生成答案的问题
主要原因是因为国内硅基流动调用api太慢,建议换成其他厂家的api。
同时也可以尝试更多类型的大模型,记得要更改api请求格式哦!
赛题理解
有关于本次赛题理解,主要是着重在数据集的处理。
数据集处理分别为两块。
一是数据量的选择,是否可以选择大量的有效数据。
二是问题多样性也就是数据多样性。
通过这两个方式进行提升数据集的资料,以得到更高的分数。
基于此,可以针对赛题写出不同的提示词,以让数据更加多种多样。
同时也可对问题进行二次蒸馏,留下真正有意义的数据哦~