当前位置: 首页 > news >正文

数据爬取+可视化实战_告白气球_词云展示----酷狗音乐

一、前言

歌词上做文本分析,数据存储在网页上,需要爬取数据下来,词云展示在工作中也变得日益重要,接下来将数据爬虫与可视化结合起来,做个词云展示案例。


二、代码

# -*- coding:utf-8 -*-
# 酷狗音乐 通过获取每首歌歌词ID,生成该歌手的词云
import requests
import sys
import re
import os
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import jieba
from PIL import Image
import numpy as np
from lxml import etreeheaders = {'Referer'  :'https://www.kugou.com','Host'     :'www.kugou.com','Accept'   :'*/*','User-Agent':'Chrome/10'}# 得到一首歌的歌词
def get_song_lyric(headers,lyric_url):res = requests.request('GET', lyric_url, headers=headers)if 'lrc' in res.json():lyric = res.json()['lrc']['lyric']new_lyric = re.sub(r'[\d:.[\]]','',lyric)return new_lyricelse:return ''print(res.json())
# 去掉停用词
#def remove_stop_words(f):
#    stop_words = ['还', '人', '着', '又', '就', '在', '也', '不', '会', '和', '是', '没', '说', '们', '谁', '这','对', '而', '不是', '什么', '有限公司', '编写','室', '声', '去', '经纪', '一切', '想', '才', '都', '你', '的', '了', '我', '有', '着这', '让', '看', '作词', '作曲', '编曲', 'Arranger', '录音', '混音', '人声', 'Vocal', '弦乐', 'Keyboard', '键盘', '编辑', '助理', 'Assistants', 'Mixing', 'Editing', 'Recording', '音乐', '制作', 'Producer', '发行', 'produced', 'and', 'distributed']
#    for stop_word in stop_words:
#        f = f.replace(stop_word, '')
#    return f
# 生成词云
def create_word_cloud(f):print('根据词频,开始生成词云!')#f = remove_stop_words(f)cut_text = " ".join(jieba.cut(f,cut_all=False, HMM=True))wc = WordCloud(font_path="./SimHei.ttf",max_words=100,width=2000,height=1200,)print(cut_text)wordcloud = wc.generate(cut_text)# 写词云图片wordcloud.to_file("wordcloud.jpg")# 显示词云文件plt.imshow(wordcloud)plt.axis("off")plt.show()# 所有歌词
all_word = ''
# 获取每首歌歌词
song_id = '536570450'
song_name = '魔术与歌曲:告白气球'# 歌词API URL
lyric_url = 'http://music.163.com/api/song/lyric?os=pc&id=' + song_id + '&lv=-1&kv=-1&tv=-1'
lyric = get_song_lyric(headers, lyric_url)
all_word = all_word + ' ' + lyric
print(song_name)
#根据词频 生成词云
create_word_cloud(all_word)

三、效果展示:

(1)歌词文本展示:
请添加图片描述
(2)词云图:
请添加图片描述

http://www.lryc.cn/news/250218.html

相关文章:

  • rkmedia_vi_get_frame_test.c 代码解析
  • 探究Kafka原理-3.生产者消费者API原理解析
  • Linux系统iptables扩展
  • Openwrt 系统安装 插件名称与中文释义
  • [原创]Delphi的SizeOf(), Length(), 动态数组, 静态数组的关系.
  • C++(20):bind_front
  • 【spring】bean的后处理器
  • Centos7安装docker、java、python环境
  • 简单小结类与对象
  • ABAP 如何获取内表行的索引值(index) ?
  • ESP32-Web-Server编程- 使用表格(Table)实时显示设备信息
  • vue3 Hooks函数使用及常用utils封装
  • matlab 无迹卡尔曼滤波
  • 大脑--学习方法
  • 4.C转python
  • YOLOv5项目实战(5)— 算法模型优化和服务器部署
  • JavaScript类型判断:解密变量真实身份的神奇技巧
  • MT6893_天玑 1200芯片规格参数介绍_datasheet规格书
  • 【Android踩过的坑】13.Android Studio 运行成功,但APP没有安装上的问题
  • redis安装配置
  • 企业数字化转型应对传统网络挑战的关键策略
  • Java 多线程基础 线程4种创建方式
  • C++概念相关练习题
  • 区间合并笔记
  • 青少年CTF之PHP特性练习(1-5)
  • 《opencv实用探索·七》一文看懂图像卷积运算
  • RPA机器人如何确保敏感数据的安全性
  • 微信号被封了怎么办
  • 关于 ls -s 输出文件大小的单位问题的讨论
  • JSON.stringify方法详解 后端接受JSON数据格式