Fanatical 站爬虫练手

前言

这段时间学习了 python, 便写个小项目练练手。正好平时经常需要逛 Fanatical, 就顺手写个爬虫练练手。python 新手,还请各位大佬多多指点不足之处。
Github 地址源代码地址

 

思路

由于 Fanatical 网站中的大部分页面都是 js 动态渲染的,之前学习的一些爬虫爬取不到信息,只能爬下来一串 js 代码。于是就使用了selenium 来爬取页面。 selenium 中的 webdriver 是真实的使用浏览器去访问页面,导致速度慢,占用资源高,但是得到的页面是真实浏览到的 HTML 页面。这里使用的是 Firefox 的 headless(无界面) 模式,能够后台运行,一定程度上节省资源。
页面信息处理使用了 BeautifulSoup 包。不得不说是很方便的。在这个爬虫中主要使用了 css 搜索功能,对付这样的网站还是非常有效的的,大大简化了代码。
最后信息存储在 xls 文件中。使用了 xlwt 包,可以创建写入 xls 文件。只用到了一些基础的功能,没有深入。

 

运行结果

对于总的慈善包界面,爬取所有的包信息存放在一张工作表中。


对于每一个慈善包页面,爬取所有的游戏存放在另一张工作表中。


 

源代码

 

总结

总的来说这个爬虫写的还算满意,从中也学到很多,当然也有很多值得优化的地方。希望各位大神能够指点指点。

 

完结

One thought on “Fanatical 站爬虫练手

发表评论

电子邮件地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.