手把手教你使用Python打造一款简易搜索引擎

liftword4个月前 (01-26)技术文章43

来源:Python爬虫与数据挖掘

作者:Python进阶者

1、前言

相信大家在知识共享的这个年代一定在网上下载了很多的文件保存以供日后有时间学习吧,毕竟硬盘空间也比较有限,下面我们就来说说我们要做的这个项目,就是搜索盘搜里的资源然后进行下载。

2、项目目标

实现搜索自己想要的文件,并且下载文件。

3、项目准备

使用sublime text 3 开发。因为此次我们需要用到交互式来完成操作,所以需要在sublime text 3 下载一个sublimeREPL插件来进行辅助开发。

4、项目实现

(1)打开盘搜,并随意打开一个链接,如下图所示:

(2)然后可以看到这个画面,如下图所示。

(3)此时这个网页地址为:

http://www.pansou.com/?q=成化十四年

由此可以看出它是一个get请求。于是requests.get搞起来,这样我们就实现了第一步,搜索。于是,可以这样写代码:

import requests 
def down(content):
 ?content=input('请输入要下载的文件名')
 ?rep=requests.get('http://www.pansou.com/?q='+str(content))
 ?rep.encoding='utf-8'

(4)这样就得到了上个页面中的网页源代码,我们通过搜索相关关键字发现竟然搜不到:

(5)那么这是怎么回事?原来这是因为ajax异步加载导致的部分关键代码显示不出来。这可就犯难了,换句话说这就触及到我的知识点盲区了。

因为小编并未学过前端,只知道有ajax这回事,哪里知道这个问题怎么产生怎么解决了。不过不用怕,还好小编有一个大绝招,那就是找接口。我找呀找,终于被我找到了,哎,功夫不负苦心人。如图所示:

(6)发现这是个json格式的所以我们现在可以将他进行读取,如图:

(7)不容易啊,json的坑很多,于是决定用字典。哈哈哈哈,果然适合自己的才是最香的。

找到了这些东西我们就可以把他们提取出来啦,这样我们就提取出了第一页的所有结果,要想提取第二页的结果只需将p的结果改为2即可。

最终的结果,如图:

(8)接下来我们强化下程序,让他具有交互功能,供用户选择。

(9)但是我们了解到callback一般都是可变的函数,所以真正能用上的就只有两个参数,q和p,于是:

这样就完成了指定页面的文件浏览。

下载的话也比较简单,直接将链接复制到浏览器中即可,这样就完成了一个最简单的搜索引擎了。

5、小结

(1)不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可。

(2)本文基于Python网络爬虫,利用爬虫库,打造了一款简易的Python搜索引擎。

(3)实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻。

相关文章

天秀!“手机”居然也可以写Python代码?还支持各种库?

前言不得不说,对于写代码这件事,真的必须就是在电脑上才会有很好的体验。手机上写Python代码,那种感觉确实不敢想。但是总有朋友说:有没有手机端写Python代码的软件呢?上、下班坐地铁,坐公交挺无聊...

干货,Python竟然可以用Kivy编写和打包安卓APP

请大家多多点赞,关注和分享在上一篇文章中,我们介绍了在 Python 中使用 BeeWare 框架编写图形程序并将其打包为安卓的apk文件程序。爆强!直接把 Python 编写的图形程序打包为安卓 A...

小白都能看得懂的Python软件安装教程和配置,很详细,值得收藏

所谓工欲善其事必先利其器,在学习python这门编程语言的前提首先就先下载安装配置好各种解释器,工具。一般常用的工具比如有VSCode,pycharm,anaconda等,这三款工具是使用最多的。下面...

软件加密技术,python制作一个超强的加密软件

使用python做一个加密资料的软件,可加密应用程序、文件、压缩包等多种文件格式,不可直接加密文件夹,可以先用压缩包打包在加密。加密后的文件后缀不可乱改,否则解密会失败。程序内没有加入加密和解密成功的...

如何用简单的Python编写Web应用程序?

全文共6260字,预计学习时长13分钟不了解任何网页框架?没关系,本文将教你如何轻松搞定从数据科学项目到超棒程序的无缝转换。稍作休息,开始编码。机器学习项目只有充分展示给公众时才称得上是完整的项目。过...

第一次用Python开发鸿蒙设备,太强了

在上一篇帖子《使用Python开发鸿蒙设备程序(1-GPIO外设控制)》中,已经成功的使用 Python 对 GPIO 上的外设进行了控制。这其实不是什么大不了的事,从功能的角度也着实不值得炫耀!然而...