当前位置: 首页 > news >正文

Python 采集 筷 实现视频批量保存

前言

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

刷到的视频怕它下架?我们来采集保存一下它

知识点:

  • 动态数据抓包

  • requests发送请求

  • json数据解析

开发环境:

  • python 3.8 运行代码

  • pycharm 2022.3 辅助敲代码

  • requests pip install requests

代码展示

需要 源码 . 素材 . 点击领取即可

导入模块

import reimport requests     # 发送请求

伪装

headers = {'Cookie': 'kpf=PC_WEB; clientid=3; did=web_4bf90ac4df8aaef2d99527f1da1063fd; userId=3075864129; kuaishou.server.web_st=ChZrdWFpc2hvdS5zZXJ2ZXIud2ViLnN0EqAB9tSqSgbeN3Qhc4H_V6Awn1-yfEnaceVEJQUhtxgCBBHHQl_DyWKPYDO3XIdjFQTHwSSFOPZL6FPTk7LSW1dfp7qvBSeP4ANjPT1evIoq9ODcPJyb6YgEIdsV-Dzm_Sq73yQg6jYhvuRNJGwAM_GfAfUKWiG4RDdGDpHd1uCAJd0qM2xZwqzr11JlIz3yRFeNFNfO2zINkJAktY8lUyQwuRoS9XMBYg26NCtIxdOwhbHEY-u6IiBNGgmRMQXPmCodWM1RM7oFpjHSgD61betJSR00w0VYtSgFMAE; kuaishou.server.web_ph=69e54c87baac46f523262858017c7988cf22; kpn=KUAISHOU_VISION','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
}

请求链接

url = 'https://www.****.com/graphql'
pcursor = ""
while True:# 请求体json = {'operationName': "visionProfilePhotoList",'query': "fragment photoContent on PhotoEntity {\n  id\n  duration\n  caption\n  originCaption\n  likeCount\n  viewCount\n  realLikeCount\n  coverUrl\n  photoUrl\n  photoH265Url\n  manifest\n  manifestH265\n  videoResource\n  coverUrls {\n    url\n    __typename\n  }\n  timestamp\n  expTag\n  animatedCoverUrl\n  distance\n  videoRatio\n  liked\n  stereoType\n  profileUserTopPhoto\n  musicBlocked\n  __typename\n}\n\nfragment feedContent on Feed {\n  type\n  author {\n    id\n    name\n    headerUrl\n    following\n    headerUrls {\n      url\n      __typename\n    }\n    __typename\n  }\n  photo {\n    ...photoContent\n    __typename\n  }\n  canAddComment\n  llsid\n  status\n  currentPcursor\n  tags {\n    type\n    name\n    __typename\n  }\n  __typename\n}\n\nquery visionProfilePhotoList($pcursor: String, $userId: String, $page: String, $webPageArea: String) {\n  visionProfilePhotoList(pcursor: $pcursor, userId: $userId, page: $page, webPageArea: $webPageArea) {\n    result\n    llsid\n    webPageArea\n    feeds {\n      ...feedContent\n      __typename\n    }\n    hostName\n    pcursor\n    __typename\n  }\n}\n",'variables': {'userId': "3xjfq9eesf4kxwg", 'pcursor': pcursor, 'page': "profile"}}
  1. 发送请求
    response = requests.post(url=url, headers=headers, json=json)
  1. 获取数据
    json_data = response.json()
  1. 解析数据

键: 值 通过:前面的内容 取:后面的内容

    feeds = json_data['data']['visionProfilePhotoList']['feeds']pcursor = json_data['data']['visionProfilePhotoList']['pcursor']for feed in feeds:photoUrl = feed['photo']['photoUrl']caption = feed['photo']['caption']caption = re.sub('[\\\/:*?"<>|]', '', caption)print(caption, photoUrl)
  1. 保存数据
        video_data = requests.get(photoUrl).contentwith open(rf"C:\Users\Administrator\Desktop\video\{caption}.mp4", mode='wb') as f:f.write(video_data)if pcursor == "no_more":break

效果展示






尾语 💝

要成功,先发疯,下定决心往前冲!

学习是需要长期坚持的,一步一个脚印地走向未来!

未来的你一定会感谢今天学习的你。

—— 心灵鸡汤

本文章到这里就结束啦~感兴趣的小伙伴可以复制代码去试试哦 😝

👇问题解答 · 源码获取 · 技术交流 · 抱团学习请联系👇

http://www.lryc.cn/news/10662.html

相关文章:

  • 关于linux下环境配置遇到的坑
  • 【Azure 架构师学习笔记】-Azure Logic Apps(7)- 自定义Logic Apps 调度
  • ubuntu20.04配置UR机械臂的仿真环境
  • 雅利安人覆灭了世界三大文明,为何单单在商朝被斩首两万?
  • Windows 系统上查询 GPU / CPU 对 Vulkan 的支持信息
  • python3 字节与数字、字符等互转的方法。int、struct库等方法
  • 人脸检测的5种方式
  • 华为OD机试 - 乘积最大值(Python)
  • 【CMU15-445数据库】bustub Project #2:B+ Tree(上)
  • 功率放大器在lamb波方向算法的损伤定位中的应用
  • 时的科技迎1亿融资,这辆“空中的士”能否实现真正飞行?
  • idea 折叠代码块技巧 关于<editor-fold>
  • python|第五章考试题及练习题
  • DIY生日蛋糕笔记
  • MybatisPlus------常用注解和逻辑删除以及设置统一前缀以及主键生成策略(六)
  • JQuery工具框架
  • 同一个整型常量怎样在不同进制间之间转换?
  • UVa 225 Golygons 黄金图形 暴力搜索 剪枝 状态判断
  • PowerShell中的对象是神马?
  • Proxy lab
  • 【机器学习】Sklearn 集成学习-投票分类器(VoteClassifier)
  • Day892.MySql读写分离过期读问题 -MySQL实战
  • 无线蓝牙耳机哪个品牌音质好?性价比高音质好的蓝牙耳机排行榜
  • 店铺微信公众号怎么创建?
  • goLang Mutex用法案例详解
  • java常见的异常
  • 从0开始学python -33
  • ModuleNotFoundError: No module named ‘glfw‘ 解决方案
  • RadZen运行和部署,生成业务web应用程序
  • 分享7个比B站更刺激的老司机网站,别轻易点开