当前位置: 首页 > news >正文

机器学习实战六步法之数据收集方法(四)

要落地一个机器学习的项目,是有章可循的,通过这六个步骤,小白也能搞定机器学习。

看我闪电六连鞭!🤣

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8fokt0Mq-1686313603676)(image/image-20230604123237459.png)]

数据收集

数据是机器学习的基础,没有数据一切都是空谈!数据集的数据量和数据的质量往往决定了“事情的成败”。所以现在国内(比如百度的文言一心)搞大模型的公司,他们往往拥有“庞大的”数据资产。

数据到底从何而来?

数据的收集通常是比较费力的工作!我们通常通过开源的数据集、数据埋点、数据爬取来获取数据集。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-juDDEbbZ-1686313671457)(image/image-20230608210425924.png)]
下面介绍一些开源的数据集:

  1. Kaggle:这是一个知名的数据科学社区,提供了大量的免费开源数据集,涵盖了多个领域和任务。网站地址:https://www.kaggle.com/datasets

  2. UCI机器学习数据仓库:这是一个包含多个数据集的数据仓库,涵盖了多个领域和任务,如计算机科学、医学、金融等。网站地址:https://archive.ics.uci.edu/ml/index.php

  3. Google Dataset Search:这是一个由Google提供的免费开源数据集搜索引擎,可用于搜索各种数据集,如图像、文本、音频等。网站地址:https://datasetsearch.research.google.com/

  4. AWS数据集:这是由亚马逊AWS提供的免费开源数据集,包括天气数据、气象数据、医学数据等,可用于机器学习和数据科学。网站地址:https://registry.opendata.aws/

  5. OpenML:这是一个由欧洲机器学习研究中心提供的免费开源数据集平台,包括多个数据集和任务,可用于机器学习和数据挖掘。网站地址:https://www.openml.org/

  6. Data.gov:这是由美国政府提供的免费开源数据集平台,包括各种政府数据和公共数据,可用于统计分析和数据科学。网站地址:https://www.data.gov/

以下是一些医药行业的开源数据集

  1. DrugBank:这是一个包含药物化合物、药品剂量、药理学数据等的数据库,用于药物研究和开发。网站地址:https://www.drugbank.ca/

  2. PubChem:这是一个包含化学物质、化合物、生物分子等的数据库,用于生物化学和药物研究。网站地址:https://pubchem.ncbi.nlm.nih.gov/

  3. TCGA:这是一个包含多种癌症数据的数据库,包括基因表达、突变、临床信息等,用于癌症研究和治疗。网站地址:https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

  4. GTEX:这是一个包含多个组织和器官的基因表达数据集,用于研究人类基因表达的变化和差异。网站地址:https://www.gtexportal.org/home/

  5. MIMIC:这是一个包含多个重症监护患者的临床数据集,包括生理信号、诊断数据、药物治疗数据等,用于疾病预测和治疗。网站地址:https://mimic.mit.edu/

  6. PhysioNet:这是一个包含多个生理信号数据集的数据库,包括心电图、脑电图、呼吸信号等,用于生理信号分析和诊断。网站地址:https://physionet.org/

http://www.lryc.cn/news/92513.html

相关文章:

  • 神经网络:CNN中的filter,kernel_size,strides,padding对输出形状的影响
  • Spring Boot集成Redisson布隆过滤器案例
  • 使用 VSCode SSH 公网远程连接本地服务器开发 - cpolar内网穿透
  • portraiture宿主插件最新v4中文版本下载及使用教程
  • 一. ATR技术指标的定义与运用
  • linux find帮助文档
  • 搜索与图论(acwing算法基础)
  • 【数据结构】何为数据结构。
  • 【P57】JMeter 保存响应到文件(Save Responses to a file)
  • Visual Studio 2022 v17.6 正式发布
  • std::chrono时间处理
  • ieda codeformatV2.xml
  • Hbase
  • [golang 微服务] 5. 微服务服务发现介绍,安装以及consul的使用,Consul集群
  • 【数据结构】哈希应用
  • 【 Python 全栈开发 - WEB开发篇 - 31 】where条件查询
  • Android系统的Ashmem匿名共享内存子系统分析(5)- 实现共享的原理
  • 谈一谈冷门的C语言爬虫
  • 基于状态的维护(CBM)如何推动设备效率提高?
  • DC LAB8SDC约束四种时序路径分析
  • 学生考试作弊检测系统 yolov8
  • 【基于容器的部署、扩展和管理】 3.2 基于容器的应用程序部署和升级
  • Jmeter 实现 grpc服务 压测
  • 深入源码分析RecyclerView缓存复用原理
  • 内网隧道代理技术(一)之内网隧道代理概述
  • 设计图形用户界面的原则
  • 1:操作系统导论
  • 什么是微软的 Application Framework?
  • 一个关于宏定义的问题,我和ChatGPT、NewBing、Google Bard、文心一言 居然全军覆没?
  • 【服务器数据恢复】断电导致RAID无法找到存储设备的数据恢复案例