数据说明:
菁优网(http://www.jyeoo.com/)的题库数据。是按网站上的学科、教材组题来采集的,数据总数21,125,850条。
数据包括以下学科:
小学 – 数学
初中 – 数学,物理,化学,生物,地理
高中 – 数学,物理,化学,生物
特别说明:
本次采集内容包括菁优网上初中、高中、小学的所有的学科,总数据量很大,一共有21125850条。但是因为是按教材、年级、课本、章节这种方式来组题的,所以其中的题目会有重复的。也就是说如果单纯按题目来算的话,就没有那么多了。
经统计,本次采集到的不重复的、含解析内容的题目条数共有1029537个。其中,小学的题目199673个,初中的题目575473个,高中的题目254391个。
另外,题目中的图片文件已经进行了本地化下载,数据使用时可以进行图片本地化的处理。
更新时间:
2015年10月份。
详细字段说明:
‘学科’, ‘教材版本’, ‘年级学期’, ‘课本’, ‘章节’, ‘试题内容’, ‘试题出处’, ‘解析’, ‘组卷’, ‘真题’, ‘难度’
其中:
组卷即“组卷次数”,指试题在用户组卷过程中被使用的次数。 次数越多,试题热度越高;次数越少,试题热度越低。
真题即“真题次数”,指试题在大型考试中出现的次数。 次数越多,试题常考指数越高;次数越少,试题常考指数越低。
难度即“难度系数(系数值区间为0~1)”,反映试题的难易程度。 系数值越大,试题就越容易;系数值越小,试题难度越大。
示例数据:
点击查看在线示例数据
下载示例数据(百度网盘分享):
链接: https://pan.baidu.com/s/1vSahP9SgrcIx9cu8LysrOA 密码: 9hhy (包含csv和html数据文件)
数据格式:
CSV(最通用的数据交换格式),HTML(一个题目对应一个.html文件)
字符编码:
UTF-8。