十二个Python爬虫面试题,看看自己的学习成效吧

liftword4个月前 (02-25)技术文章18

现在疫情差不多稳定了很多人也开始工作,没工作的也开始找工作,下面呢为学python的同学选取了12个python爬虫面试题,希望有帮助。

1、简述一下爬虫程序执行的流程

  获取想要的页面

  根据规则进行解析

  解析数据入库

2、爬虫在向数据库存数据开始和结束都会发一条消息,是scrapy 哪个模块实现的?

  答:Item Pipeline scrapy 的信号处理使用的是

  3、爬取下来的数据如何去重,说一下具体的算法依据。

  通过 MD5 生成电子指纹来判断页面是否改变

  nutch 去重。nutch 中 digest 是对采集的每一个网页内容的 32 位哈希值,如果两个网页内容完全一样,它们的 digest值肯定会一样。

  4、写爬虫是用多进程好?还是多线程好? 为什么?

  

  5、说一下 numpy 和 pandas 的区别?分别的应用场景?

  Numpy 是 数值计算 的扩展包,纯数学。

  Pandas 做 数据处理以矩阵为基础的数学计算模块。提供了一套名为 DataFrame 的数据结构,比较契合统计分析中的表结构,并且提供了计算接口,可用 Numpy 或其它方式进行计算

  6、验证码如何处理

  Scrapy 自带处理验证码

  获取到验证码图片的 url, 调用第三方付费接口破解验证码

  7、微信公众号数据如何抓取?

  sogou 微信搜索数据

  动态的股票信息如何抓取

  8、股票数据的获取目前有如下两种方法可以获取:

  http/JavaScript 接口取数据

  web-service 接口

  Sina 股票数据接口

  以大秦铁路(股票代码:601006)为例,如果要获取它的最新行情,只需访问新浪的股票数据,只需访问新浪的股票数据接口:http://hq.sinajs.cn/list=sh具体股票代码编号

  9、爬虫部署

  scrapy 去重

  

  10、分布式有哪些方案,哪一种最好?

  celery、beanstalk,gearman

  11、个人认为 gearman 比较好。原因主要有以下几点:

  技术类型简单,维护成本低。

  简单至上。能满足当前的技术需求即可 (分布式任务处理、异步同步任务同时支持、任务队列的持久化、维

  有成熟的使用案例。instagram 就是使用的 gearman来完成图片的处理的相关任务,有成功的经验,我们当然应该借鉴。

  12、Post 和 Get 区别

  GET 请求的数据会暴露在地址栏中,而 POST 请求则不会。

  

  传输数据的大小

  

  安全性

  

最后,小编想说:我是一名python开发工程师,

整理了一套最新的python系统学习教程,

想要这些资料的可以关注私信小编“01”即可(免费分享哦)希望能对你有所帮助

相关文章

Python爬虫有哪些常见的反爬手段?有何应对手段?

随着互联网的发展,网络爬虫技术也越来越成熟,但网站为了保护自身数据安全和服务器稳定性,也采取了各种反爬措施。1. User-Agent 检测案例: 某些网站会拒绝 User-Agent 为 pytho...

Python高级爬虫技巧揭秘_python爬虫入门到精通

爬虫技术已经从简单的网页数据抓取发展到复杂的模拟和分布式架构设计。在实际场景中,高级爬虫技术能够有效突破反爬机制,模拟用户行为,并通过分布式爬取提升效率。绕过反爬机制常见反爬手段User-Agent...

如何入门 Python 爬虫?_python爬虫自学步骤

1.很多人一上来就要爬虫,其实没有弄明白要用爬虫做什么,最后学完了却用不上。大多数人其实是不需要去学习爬虫的,因为工作所在的公司里有自己的数据库,里面就有数据来帮助你完成业务分析。什么时候要用到爬虫呢...

初识爬虫的那天,我选择了Java_java做爬虫的劣势

本科时,毕业论文需要不少网络上用户的问答数据。那时,我还没有搞过网络爬虫,只能利用关键词搜索的方式,找到相关数据,然后一条一条复制。我也觉得这样很傻,但不得不承认这确实我最初的操作方式,很艰难,累的手...