Python“三步”即可爬取,毋庸置疑

liftword3个月前 (03-24)技术文章14

声明:本实例仅供学习,切忌遵守robots协议,请不要使用多线程等方式频繁访问网站。

#第一步导入模块

import re
import requests

#第二步获取你想爬取的网页地址,发送请求,获取网页内容
url = "
https://www.msn.cn/zh-cn/news/technology/%E4%BB%8E-%E6%81%92%E6%98%9F%E8%80%80%E7%81%AD-%E5%88%B0-%E6%9C%94%E5%BC%A6%E6%99%A6%E6%9C%9B-%E5%85%A8%E7%90%83%E8%89%BA%E6%9C%AF%E5%AE%B6%E4%B8%BA%E4%BD%95%E7%BA%B7%E7%BA%B7%E4%B8%BA%E4%B8%8A%E6%B5%B7%E5%A4%A9%E6%96%87%E9%A6%86%E6%89%93%E9%80%A0%E5%B1%95%E5%93%81/ar-AAQK647?ocid=msedgdhp&pc=U531"


response = requests.get(url) #得到响应对象
data = response.text #获得字符串文本

#第三步通过正则表达式选择你想得到的文本内容,并显示选择的结果
new_list = re.findall('

(.*?)

', data) #得到你想要的内容列表
print(new_list) #显示你想要的内容

以上所涉及知识点:一是requests模块库get()的知识储备。二是正则表达式findall()知识的储备。在


当然上面省略一些知识:

1、如判断访问网站是否成功

2、列表的for语句显示

3、得到的文本以什么方式存储,存储的地址和文件是否已经存在等



希望以上总结对您有帮助!!!!!!

相关文章

Python爬取小说技术指南

在 Python 中爬取小说需要遵循法律法规和网站的服务条款,请确保你有权获取目标内容。以下是使用 Python 爬取小说的通用技术流程安装依赖库pip install requests beauti...

Java原生代码实现爬虫(爬取小说)

Java也能做爬虫。现在提到爬虫人第一个想到的就是python,其实使用Java编写爬虫也是很好的选择,Java成熟的爬虫框架很多,下面给大家展示一个使用Java基础语言编写的爬取小说的案例:实现功能...

python爬取电子课本,送给居家上课的孩子们

在这个全民抗疫的日子,中小学生们也开启了居家上网课的生活。很多没借到书的孩子,不得不在网上看电子课本,有的电子课本是老师发的网络链接,每次打开网页去看,既费流量,也不方便。今天我们就利用python的...

python爬虫教程之爬取当当网 Top 500 本五星好评书籍

我们使用 requests 和 re 来写一个爬虫作为一个爱看书的你(说的跟真的似的)怎么能发现好书呢?所以我们爬取当当网的前 500 本好五星评书籍怎么样?ok接下来就是学习 python 的正确姿...

Python爬虫:用Beautifulsoup爬取html文本数据

Beautifulsoup介绍:是一个高效的网页解析库,可以从HTML或XML文件中提取数据支持不同的解析器,比如,对HTML解析,对XML解析,对HTML5解析就是一个非常强大的工具,爬虫利器一个灵...

超有趣!用 Python 爬取抖音热门视频数据,探索爆款密码

在当今的社交媒体时代,抖音无疑是最热门的平台之一。每天都有海量的视频被上传,其中一些视频迅速走红,成为爆款。你是否好奇这些热门视频背后有什么规律?今天,我们就用 Python 来爬取抖音热门视频数据,...