首页 星云 工具 资源 星选 资讯 热门工具
:

PDF转图片 完全免费 小红书视频下载 无水印 抖音视频下载 无水印 数字星空

爬虫案例2-爬取视频的三种方式之一:requests篇(1)

编程知识
2024年09月09日 20:39

@

目录

前言

本文写了一个爬取视频的案例,使用requests库爬取了好看视频的视频,并进行保存到本地。后续也会更新selenium篇和DrissionPage篇。当然,爬取图片肯定不止这三种方法,还有基于python的scrapy框架,基于node.js的express框架以及基于Java的webmagic框架等等。

爬虫步骤

确定网址,发送请求

我们打开我们需要爬取的网站后,按f12进行检查,因为页面采用的懒加载,所以我们需要往下滑加载新的视频,这时候就会出现新的数据包,这个数据包大概率就是这些新视频加载出来的来源,我们也可以在下图中的①中搜索视频数据包中可能出现的内容,例如视频的后缀,如MP4,m4s,ts等,然后再从中筛选正确的数据包,这个可能就需要有一定的经验。
在这里插入图片描述
当我们往下滑刷新的时候,再②中就会加载出新的数据包,点击数据包后,就会出现右边的窗口,在③标头中会看到我们要请求的url地址,以及cookie和一些加密后参数。
代码如下

import requests # 数据请求模块
url='https://haokan.baidu.com/haokan/ui-web/video/feed?time=1723964149093&hk_nonce=915ae0476c308b550e98f6196331fd2a&hk_timestamp=1723964149&hk_sign=93837eec50add65f7ca64a95fb4eb8de&hk_token=aRYZdAVwdwNwCnwBcHNyAAkNAQA'  # 请求地址
headers={
    # UA伪装
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}
html=requests.get(url,headers=headers)

获取响应数据

在响应里我们可以看到响应的json数据,里面有封面照片地址,标题,视频地址等等,我们只需要获取其中的图片名字(title)和图片地址(previewUrlHttp)即可。
在这里插入图片描述

respnose=html.json()

对响应数据进行解析

json数据是字典,所以我们只需要取其中的键就可以了。

data=html['data']['apiData']         # 取照片地址
for li in data:
    video_name=li['title']     # 照片名字
    video_url=li['previewUrlHttp']   # 照片地址

保存数据

获取到图片的url后只需要再对url进行请求,获取二进制数据,然后进行保存到本地。

video=requests.get(video_url,headers=headers).content   # 对照片地址进行发送请求,获取二进制数据
    with open('./videos/'+video_name+'.mp4','wb') as f:        # 保存视频
        f.write(video)

完整源码

import requests  # 数据解析模块
import os   # 文件管理模块

if not os.path.exists("./videos"):  # 创建文件夹
    os.mkdir("./videos")
url='https://haokan.baidu.com/haokan/ui-web/video/feed?time=1723964149093&hk_nonce=915ae0476c308b550e98f6196331fd2a&hk_timestamp=1723964149&hk_sign=93837eec50add65f7ca64a95fb4eb8de&hk_token=aRYZdAVwdwNwCnwBcHNyAAkNAQA'  # 请求地址
headers={
    # UA伪装
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}
html=requests.get(url,headers=headers).json()
data=html['data']['apiData']         # 取照片地址
for li in data:
    video_name=li['title']     # 照片名字
    video_url=li['previewUrlHttp']   # 照片地址
    video=requests.get(video_url,headers=headers).content   # 对照片地址进行发送请求,获取二进制数据
    with open('./videos/'+video_name+'.mp4','wb') as f:        # 保存视频
        f.write(video)
        print(video_name+'.mp4')

多页爬取的就要多去观察数据包,有什么规律,再这个案例中,就涉及到了时间戳js加密。

共勉

少就是多 慢就是快

博客

  • 本人是一个渗透爱好者,不时会在微信公众号(laity的渗透测试之路)更新一些实战渗透的实战案例,感兴趣的同学可以关注一下,大家一起进步。
    • 之前在公众号发布了一个kali破解WiFi的文章,感兴趣的同学可以去看一下,在b站(up主:laity1717)也发布了相应的教学视频
From:https://www.cnblogs.com/laity17/p/18405397
本文地址: http://www.shuzixingkong.net/article/1870
0评论
提交 加载更多评论
其他文章 用Python实现阿拉伯数字转换成中国汉字
本文简要介绍了要将阿拉伯数字转换成中国汉字表示的数字的方法,我们需要一个映射表来转换每个数字,并且处理不同位数的数字(如十、百、千、万等),给出了详细的代码示例和解释。
C#/.NET/.NET Core技术前沿周刊 | 第 4 期(2024年9.1-9.8)
前言 C#/.NET/.NET Core技术前沿周刊,你的每周技术指南针!记录、追踪C#/.NET/.NET Core领域、生态的每周最新、最实用、最有价值的技术文章、社区动态、优质项目和学习资源等。让你时刻站在技术前沿,助力技术成长与视野拓宽。 欢迎投稿,推荐或自荐优质文章/项目/学习资源等。每周
C#/.NET/.NET Core技术前沿周刊 | 第 4 期(2024年9.1-9.8) C#/.NET/.NET Core技术前沿周刊 | 第 4 期(2024年9.1-9.8) C#/.NET/.NET Core技术前沿周刊 | 第 4 期(2024年9.1-9.8)
java基础 -线程(基础)的 笔记
581,多线程机制 因为需要敌人的坦克可以自由移动并发射子弹,我们的坦克可以移动并发射子弹,这些要用到线程的知识。 根据JConsole监控线程执行情况,发现,主线程执行完了,子线程还没有执行完,并不能表示当前进程死亡了,只有当所有的子线程执行完了,主进程才会结束。 真正实现多线程的效果, 是 st
java基础 -线程(基础)的 笔记 java基础 -线程(基础)的 笔记 java基础 -线程(基础)的 笔记
Ollama + JuiceFS:一次拉取,到处运行
今天这篇博客转载自我们的全栈工程师朱唯唯。在使用 Ollma 进行大模型加载时,她尝试使用了 JuiceFS 进行模型共享,JuiceFS 的数据预热和分布式缓存功能显著提升了加载效率,优化了性能瓶颈问题。 01 背景 随着 AI 技术的发展,大模型已经潜移默化地影响着我们的生活。商业 LLM 始终
Ollama + JuiceFS:一次拉取,到处运行
LeetCode题集-3 - 无重复字符的最长子串
本文讨论了给定字符串找最长无重复字符子串的三种解法:双指针法、双指针+哈希法、双指针+数组法。其中,双指针+数组法因ASCII码特性效率最高,基准测试表明其优于哈希法。
LeetCode题集-3 - 无重复字符的最长子串 LeetCode题集-3 - 无重复字符的最长子串 LeetCode题集-3 - 无重复字符的最长子串
全网最适合入门的面向对象编程教程:46 Python函数方法与接口-函数与事件驱动框架
函数是 Python 中的一等公民,是一种可重用的代码块,用于封装特定的逻辑;事件驱动框架是一种编程模式,它将程序的控制流转移给外部事件,如用户输入、系统消息等,它事件驱动框架可以使用函数作为事件的处理逻辑。
全网最适合入门的面向对象编程教程:46 Python函数方法与接口-函数与事件驱动框架 全网最适合入门的面向对象编程教程:46 Python函数方法与接口-函数与事件驱动框架 全网最适合入门的面向对象编程教程:46 Python函数方法与接口-函数与事件驱动框架
代码整洁之道--读书笔记(6)
代码整洁之道 简介: 本书是编程大师“Bob 大叔”40余年编程生涯的心得体会的总结,讲解要成为真正专业的程序员需要具备什么样的态度,需要遵循什么样的原则,需要采取什么样的行动。作者以自己以及身边的同事走过的弯路、犯过的错误为例,意在为后来者引路,助其职业生涯迈上更高台阶。 本书适合所有程序员阅读,
代码整洁之道--读书笔记(6) 代码整洁之道--读书笔记(6)
一种基于祈祷的开源项目学习方法
总体上是这几点: 以祈祷、读文档、读注释、看issue为理解代码的主要手段 以读代码、debug为辅助理解代码的方法 以debug为验证理解的主要手段 每日整理当日理解的内容 不理解的留个印象,先跳过 为什么要祈祷? 因为作者不一定太关心文档和注释:大多数人以正确实现为主要目标。所以要祈祷文档和注释
一种基于祈祷的开源项目学习方法 一种基于祈祷的开源项目学习方法