当前位置: 首页 > news >正文

大数据开发--1.1大数据概论

目录

一.大数据的概念

什么是大数据?

二. 大数据的特点

三. 大数据应用场景

四. 大数据分析业务步骤

大数据分析的业务流程:

五.大数据职业规划

职业方向

岗位技术要求

六. 大数据学习路线


一.大数据的概念

什么是大数据?

  • 数据
    世界的本质是数据
            --大数据研究专家维克托·迈尔-世恩伯格博士
  • 大数据定义
         大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处理模式,该处理模式就是大数据。
  • 大数据处理的数据量有多大?
    (2的10次方)
    目前的大数据应用,数据量主要集中在PB/EB级别
  • 大数据解决什么问题?
         海量数据存储:数据分析的前提是有数据,数据存储的目的是支撑数据分析。究竟怎么去存储庞大的数据量,是开展数据分析的企业在当下面临的一个问题。
         海量数据运算:当解决了海量数据的存储问题,接下来面临的海量数据的计算问题也是比较让人头疼,因为企业不仅追求可以计算,还会追求计算的速度、效率。

二. 大数据的特点

  • 大数据的特点可以使用5个字来概括:

                               结构化:文字、数字。
                               非结构化:图片、音频、视频。
                               半结构化:json。

三. 大数据应用场景

  • 行业领域

四. 大数据分析业务步骤

  • 大数据的应用场景--大数据让借贷更放心
          在金融行业中,以借贷款为例。在贷款前,贷款借出方会先利用大数据对借款人进行贷前审核,以此来保障贷后的还款率。
         借出方从各个渠道合法收集借款人的标签信息,如学历,职业,薪资状况,历史借还款情况等。海量数据被放入反欺诈模型,还款能力模型,身份验证模型等数个中做训练,最终得出是否通过本次贷款申请,贷款的额度,贷款人的还款意愿等评估信息。
         借款人数据收集的越多,标签维度越细,数据越真实,则审核效果越全面。
         (逻辑回归、人物画像)
  • 大数据的应用场景-大数据让广告营销更高效
         广告作为互联网行业最常见的变现手段之一,曾几何时,你会发现日常生活中看到的广告居然那么懂你。
         在广告的投放期间,通过大数据手段大量的整合、分析数据,包括用户的浏览习惯、消费行为、浏览记录、对广告的点击数量等,构建全面的用户画像,保证广告定向投放。
         在广告投放的中后期,通过实时的数据反馈,结合用户所处地域,时间的变化,动态优化广告素材,让同一个用户在不同的场景下享受不一样的广告服务。

                落地的产品,但是大数据不做这些,算法团队来做个性化推荐,大数据杀熟

        通过型的算法有:spark(MLlib),贝叶斯,效果非常的差。所以要自己写算法。

  • 大数据的应用场景--大数据让新媒体更懂你
         短视频平台会通过大数据平台,分析用户的喜好,根据用户的喜好给用户推荐小视频。

         头条平台会根据你的浏览历史推荐你喜欢或者关注的内容。

大数据分析的业务流程:

五.大数据职业规划

  • 大数据开发工程师
  • Hadoop开发工程师
  • Spark开发工程师
  • 实时计算开发工程师
    flink+kafka,sparksreaming+kafka
  • 数据仓库工程师
    Hive脚本开发(Hive开发工程师)
  • ETL开发工程师
  • BI开发工程师
    数据分析,Python+fineBI,tableau
  • 数据挖掘工程师
    算法
  • 数据架构师
    5年起步

职业方向

岗位技术要求

六. 大数据学习路线

  1. Linux系统
    (大数据的所有组件都是在Linux环境下搭建的)
  2. 编程语言
  3. 大数据框架
    (核心框架:Hadoop、Hive、Spark、Kakfa、Hbase)

    大数据工具:
         zookeeper
         Hadoop(MapReduce、hdfs)
         Hive
         azkaban:调度工具
         impala
         HBASE
         Phoenix
         Redis
         elasticsearch
         logstash
         kibana
         hue
         oozie
         spark
         flink
         kafka
         clickhouse
         DS
http://www.lryc.cn/news/449890.html

相关文章:

  • Java | Leetcode Java题解之第438题找到字符串中所有字母异位词
  • springboot整合MybatisPlus+MySQL
  • 【MySQL】视图、用户和权限管理
  • Linux基础(五):linux文件种类与扩展名
  • C语言-c语言组成
  • 编程题 7-13 日K蜡烛图【PAT】
  • iOS开发工程师面试
  • 无人机避障—— 激光雷达定高北醒TF03-UART(二)
  • 在虚幻引擎中实现Camera Shake 相机抖动/震屏效果
  • SQL Server的文本和图像函数
  • PN8034非隔离12V300MA,SOP7/DIP7开关电源芯片
  • VMware下Ubuntu找不到共享文件夹
  • 银河麒麟桌面操作系统V10登录闪退问题解决
  • 【Git原理与使用】分支管理
  • Linux操作系统分析实验-多线程与内核模块编程,实验一
  • AI绘画Stable Diffusion人物背景替换实操教程,让创意无限延伸
  • linux环境oracle11.2.0.4打补丁(p31537677_112040_Linux-x86-64.zip)
  • 华为 HCIP-Datacom H12-821 题库 (29)
  • MySQL 为什么一定要有一个主键
  • Pycharm 本地搭建 stable-diffusion-webui
  • python/爬虫技术/lxml工具介绍/XML和HTML解析
  • Kafka技术详解[5]: 集群启动
  • 记一次教学版内网渗透流程
  • [Python学习日记-31] Python 中的函数
  • Kafak入门技术详解
  • X-Spreadsheet:Web端Excel电子表格工具库
  • 为什么很多APP取消网页版
  • Kubernetes高级功能
  • (作业)第三期书生·浦语大模型实战营(十一卷王场)--书生入门岛通关第1关Linux 基础知识
  • 【python爬取网页信息并存储】