Python爬虫学习

我从小语文就没及格希望大家不要见笑,我使用的是Python3.7。我发现如果单纯学习Python太容易枯燥了,我就结合爬虫一起学习了。

使用urllib

在Python3.x中urllib库是Python内置的HTTP请求库,也就是说不用额外安装即可使用。包含下面四个模块。

  • 1、 request:它是最基本的HTTP请求模块,用来模拟发送请求。类似于在浏览器中直接输入网址,然后回车一样。
  • 2、 error:异常处理模块,如果出现请求错误,我们可以捕获这些错误,进行重试或者其他操作保证程序不会意外停止。
  • 3、 parse:一个工具模块,提供许多URl的处理方法,如拆分、解析、合并等。
  • 4、 robotparser:顾名思义主要用于识别网站的robot.txt文件,判断哪些可以爬,哪些不可以爬,这个用的比较少。

Hello World

欢迎来到我的地盘!在互联网上终于有自己的土地了,终于可以做地主了(^▽^)!
打出自己文章,忒有自豪感。
希望可以互相学习