查看原文
其他

Python爬虫教程:01网页的请求与服务器的响应

作者一小红牛 我的Python教程 2024-01-14


Python,速成心法

敲代码,查资料,问度娘

练习,探索,总结,优化

#前面的Python基础入门教程基本上结束了,今天开始,和大家一起逐渐进入开发阶段的学习了,本期将主要介绍爬虫的相关知识点。


Python爬虫是指使用Python编程语言编写的一种自动化工具,用于从互联网上抓取数据。它可以自动访问网页,解析网页上的HTML代码,提取出需要的数据,并将其保存到本地文件或数据库中。Python爬虫可以用来爬取各种类型的数据,包括但不限于文本、图片、音频、视频等。使用Python编写爬虫可以大大提高数据获取的效率和准确性,同时也可以减少人工干预,节约人力成本。


#01.请求与响应是指客户端与服务器之间的交互过程,通常用于计算机网络或互联网中。

请求:客户端向服务器发送一个请求,以获取或操作某些资源。请求通常包括请求方法、请求头和请求体请求方法指定请求类型,如GET、POST、PUT、DELETE等;请求头包含客户端和服务器之间的元数据信息,如Content-Type、Accept、Cookie等;请求体是请求的内容主体,通常用于POST和PUT请求。


响应:服务器接收到客户端的请求后,会做出响应,向客户端发送一个响应消息。响应消息包括状态码、响应头和响应体状态码描述了请求的处理结果,如返回200表示成功、404表示未找到等;响应头包含服务器返回的元数据信息,如Content-Type、Content-Length等;响应体是响应的内容主体,通常包含请求结果或错误信息。

响应体是指HTTP响应消息的正文部分,通常是由服务器返回的资源或错误信息。响应体可以包含HTML、XML、JSON等多种格式的数据,也可以是二进制数据或文本

响应体的格式和内容由应用业务需求决定,常见的响应体类型包括:

  1. HTML:用于呈现Web页面,通常由服务器端模板引擎生成。

  2. XML:用于传输结构化数据,通常用于API接口。

  3. JSON:用于传输结构化数据,相对于XML更为轻量级和便捷,也更为广泛使用。

  4. 二进制数据:如图片、视频等文件,通常通过文件流的形式返回给客户端。


#02.一个网址的组成部分一般包括以下:


1. 协议(Protocol):网址协议指定了使用什么协议来访问网站。常见的协议有HTTP、HTTPS、FTP等。协议通常位于网址的最开始并紧随着“//”,例如http://、https://等。

2. 域名(Domain Name):网址的域名部分指定了网站的地址。例如,www.example.com或www.baidu.com. 域名通常位于协议后的://和最后一个斜杠/之间。

3. 端口(Port):指定连接的端口号,HTTP的默认端口是80,HTTPS的默认端口是443。如果URL的端口号和协议的默认端口号相同,也可以省略。

4. 路径(Path):指定访问页面的路径,例如/index.html, /search等,路径在域名之后,参数之前,由斜杠(/)分隔。

5. 参数(Parameters):参数提供额外的信息,例如网站需要用户数据或者查询字符串。参数通常由问号(?)分隔路径和查询字符串,并由“&”,“=”连接。例如,www.example.com/search?q=query1。

6. 片段(Fragment):片段指定在文档/ web页面中的位置。片段通常以#开始,并由页面的名字或标识符组成。例如,www.example.com/about#company。


03.请求头(headers)参数解析:是http请求中一个重要的组成部分,它包含了关于客户端和服务器的各种信息,headers参数是一个字典类型,可以包含多个键值对,每个键值对表示一个请求头的元数据。常见的请求头参数包括:

  1. User-Agent: 指定客户端浏览器的类型和版本。。

  2. Accept: 用于指定客户端可处理的响应类型(如文本/html、image/png等)。

  3. Accept-Encoding:指定客户端可以接受的内容编码。

  4. Content-Type: 用于指定请求体的内容类型。

  5. Content-Length: 用于指定请求体的长度。

  6. Host: 用于指定请求的服务器主机名和端口号。

  7. Cache-Control: 用于指定缓存机制及缓存策略。

  8. Connection: 指定客户端与服务器之间的连接类型,如close或keep-alive。

  9. Cookie: 包含客户端的Cookie信息,用于服务器识别客户端。

  10. Authorization: 用于进行认证。

  11. Cache-Control:指定客户端缓存响应的行为。

  12. Origin: 用于指定来自哪个源发送请求。

这些请求头参数在http请求处理过程中起着重要的作用,它们能够描述请求的详细信息,帮助服务器进行响应,同时帮助网络中的中间件(如代理服务器、防火墙等)进行相应的处理。因此,正确设置请求头参数可以提高http请求的性能和安全性。


完毕!!感谢您的收看

------------往期更多精彩内容------------

Python最新版本的安装教程(附详细图)

Pycharm的下载与安装方法(附教程图)

Pycharm初始化,新建一个python程序

Pycharm英文页界面,2种汉化的设置方法(教程附图)

Python常用的英文单词集合

Python基础教程:01代码的规范书写

Python基础教程:02内置函数的用法解析

Python基础教程:03运算符与表达式

Python基础教程:04流程控制语句

Python基础教程:05字符串String的用法解析

Python基础教程:06列表,元组,字典的用法

Python入门教程:07文件及目录操作

Python入门教程:08变量,保留字,字符串索引

Python入门教程:09常用的模块库

Python入门教程10:datetime的用法

Python入门教程:11推导式的写法

Python入门教程12:pip命令的使用

Python入门教程13:json的用法

Python入门教程14:高阶函数用法解析

Python入门教程15:面向对象编程思想

Python入门教程16:错误和异常调试

Python入门教程17:模块与包

使用Python,下载一张百度的小姐姐图片

十大热门编程语言,如何书写Hello World代码?

-------------------------------------------------

认识HTML网页的基本结构

使用Python,下载一张百度的小姐姐图片

---------------Python源码集合---------------

Python源代码分享:01九九乘法表

Python源代码分享:02海龟画图五角星

Python源代码分享:03画一个奥运五环图

Python源码分享:04列表数据的奇偶求和

Python源代码分享:05使用turtle模块绘制一个彩色螺旋图案

Python源代码分享:06猜数字大小与剪刀石头布

Python源代码分享:07画满天繁星


继续滑动看下一个

Python爬虫教程:01网页的请求与服务器的响应

作者一小红牛 我的Python教程
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存