当前位置: 首页 > news >正文

解锁AI无限潜能!景联文科技数据产品矩阵再升级:多语言题库、海量语料、垂域代码库,全面赋能大模型训练

景联文科技持续聚焦AI数据需求前沿,全新发布包含中文题库数据集、英文题库数据集、算法代码数据库、英文语料、中文语料、垂直领域数据、小语种数据在内的七大高质量数据集产品系列。

此次发布的数据集覆盖广泛的应用场景,通过严格的清洗与结构化处理,确保数据内容的准确性、多样性和合规性。

全面助力科研机构、科技企业及开发者在自然语言处理、智能教育、代码理解、跨语言建模等领域的模型训练与落地应用。

  1. 大模型训练-中文题库数据集

逻辑题库

数据详情:包含题型全面分类、题量丰富且解析完备的逻辑推理题库体系,形成具备"一级+二级"结构化分类标签、可定向提升模型推理能力的成品数据产品。总计13万道,含多模态试题2万道与文本类11万道。

数据格式:JSON、IMG

大学数学题库

数据详情:涵盖22万道精选试题,形成覆盖微积分、线性代数、概率统计等核心领域的结构化教学数据产品,助力精准测评与自适应学习。

可满足高校数学教育智能化需求。

数据格式:JSON、IMG

中文教育题库K12题库

数据详情:包含K12全科目试题、升学考等真题试卷和自建竞赛试题三类。共3052万道试题。

格式:PDF、JSON、IMG

公考题库

数据详情:包含9万道公考试题,其中0.7万道为多模态试题。为大模型提供兼具数学推理、言语理解和考试策略分析能力的复合型训练资源。

可全面提升大模型的多模态理解与解题能力。

格式:JSON

2. 大模型训练-英文题库数据集

大学英文教育题库

数据详情:涵盖大学所有学科试题的英文教育题库,总计9万道题目,整体难度适中。

该题库专为针对英文语种题进行训练的解题大模型设计,可满足大学教育阶段英文题目解题训练需求。

格式:JSON

K12英文教育题库

数据详情:涵盖小学、初中、高中等试题的英文教育题库,总计5637万道题目。其中包含229万多模态试题,题源来自海外教育体系下真实试题,非翻译版本。

可满足不同教育阶段英文题目解题训练需求。

格式:JSON、IMG

    3. 大模型训练-算法代码数据库

    数据详情:包含20万道算法题,12万份答案详解的优质数据资源可提升大模型的逻辑推理、题目解决能力,以及代码生成与优化能力。

    格式:JSON

      4.大模型训练-英文语料

      英文期刊

      数据详情:收录了800万篇权威英文期刊论文数据,数据包含自然科学、工程技术及医学健康等多学科领域文献。

      适用于科研方法论训练、专业术语理解提升及技术原理推理能力强化场景。

      格式:PDF

      英文剧本

      数据详情:收录了1.4万本优质英文剧本数据,数据包含电视剧、电影、话剧及舞台剧等多维度剧本内容。

      可用于故事生成 agent 提升和模型对话 prompt。

      格式:TXT、EXCEL

      英文书籍

      数据详情:收录了180万册英文电子书籍数据,数据包含多学科领域的专业文本内容。

      适用于自然语言处理研究、大模型训练及语言生成优化场景。

      格式:TXT、PDF、MOBI、EPUB

      5.大模型训练-中文语料

      中文剧本

      数据详情:包含2.3万本优质中文剧本,覆盖电视剧、电影、话剧、舞台剧等。

      可用于故事生成 agent 提升和模型对话 prompt。

      格式:TXT、EXCEL

      多轮对话

      数据详情:收录1467.3万组多轮对话文本,对话内容包含客服、情感及日常对话,占比为 1:1:1。

      适用于智能客服系统、聊天机器人、虚拟助理与个人助手模型 prompt。

      格式:JSON、TXT

      裁判文书数据

      数据详情:包含8000万条法律文书数据,覆盖民事、刑事、行政等全部案由类型。

      适用于提升模型法律条文理解能力、裁判逻辑推理和文书生成等的专属垂类领域数据。

      格式:EXCEL

      硕博论文

      数据详情:包含23万篇理工科中文硕博论文,覆盖基础科学、工程技术、信息科技等前沿领域。

      可用于提升模型理解推理能力,推动跨领域应用。

      格式:PDF

      6.大模型训练-多垂直领域知识教材书籍数据

      管理科学知识

      数据详情:收录303册管理科学教材数据,数据包含管理学科相关文献,以及管理学科知识图谱。

      适用于教育大模型训练、智能教学系统开发与跨语言教育A1应用场景。

      格式:PDF、EXCEL、Word

      K12中英文教辅教材

      数据详情:收录11655册中英文教辅教材数据,数据包含10225册中文教辅与1430册英文教辅的K12全学科内容。

      适用于教育大模型训练、智能教学系统开发及跨语言教育 AI 应用场景。

      格式:PDF

      工业书籍

      数据详情:收录3.4万册专业工业书籍数据,数据覆盖多个领域的中英文专业书籍。

      适用于工业AI大模型训练、智能决策系统构建与专业技术知识服务场景。

      格式:PDF、Word

      7.大模型训练-小语种数据

      小语种数字专利

      数据详情:收录131.4万条小语种专业数据,覆盖多国语言,涉及各个技术领域。

      适用于大模型跨文化理解训练、多语言模式适应及专业领域AI应用场景。

      格式:PDF

      小语种平行语料

      数据详情:收录110万条小语种平行语料数据,数据包含包括阿拉伯语、波兰语、德语、俄语、法语、马来语、泰语、土耳其语、西班牙语、意大利语、英语共11 国语言文本。

      适用于跨文化理解训练、多语言模式适应及小语种 AI 应用场景

      格式:EXCEL

      随着AI应用场景的不断拓展,对高质量、多语言、细分专业领域的数据资源需求也将持续增长。

      景联文科技将继续秉持“成为人工智能的核心引擎,让每一比特数据释放AI的无限可能”的愿景,不断优化数据产品体系,满足日益复杂和多元的模型训练需求。

      如需了解更多关于本次数据集的技术参数、样本示例或定制化服务,请访问我们的官网或联系专属商务经理。

      让我们携手打造更加智能、高效的人工智能未来!

      http://www.lryc.cn/news/575711.html

      相关文章:

    1. java解决超大二维矩阵数组引起的内存占用过大问题
    2. 【redis使用场景——缓存——数据过期策略 】
    3. 新手向:Neo4j的安装与使用
    4. CTF:PHP 多关卡绕过挑战
    5. Flink部署与应用——Flink架构概览
    6. 国外开源客服系统chathoot部署,使用教程
    7. 信息化系统流程管理模块,企业高价值资产的跨省/市运输审批流程的功能
    8. 网络安全之SQL RCE漏洞
    9. AI 口语陪练:教育领域的新变革​
    10. AI智能体——OpenManus 源码学习
    11. 使用 ReAct 框架在 Ollama 中实现本地代理(Agent)
    12. Docker安装Mysql、配置文件挂载、修改Mysql编码
    13. Python-7-读取/写入文件数据
    14. Rust与Go:GAN实战对决
    15. 合规型区块链RWA系统解决方案报告——机构资产数字化的终极武器
    16. SQL语句在MySQL中的执行过程
    17. python pyecharts 数据分析及可视化
    18. Python 将文件夹中的所有文件打包成Zip压缩包
    19. easyExcel导入多sheet的Excel,存在合并单元格、列不固定的情况
    20. 超实用AI工具分享——ViiTor AI视频配音功能教程(附图文)
    21. html 照片环 - 图片的动态3D环绕
    22. 渗透实战:使用隐式转换覆盖toString的反射型xss
    23. Linux 统一方式安装多版本 JDK 指南
    24. python基于协同过滤的动漫推荐系统
    25. CSP-J 2021 入门级 第一轮(初赛) 阅读程序(1)
    26. CSMA/CD相关习题---谢希仁课后题
    27. 数据分享:医学数据集-糖尿病数据集
    28. Git 使用规范与命令使用场景详解
    29. 与 AI 聊天更顺畅:cat_code.py
    30. MIT 6.824学习心得(1) 浅谈分布式系统概论与MapReduce