成都创新互联网站制作重庆分公司

如何用Python爬取指定关键词

这篇文章主要介绍了如何用Python爬取指定关键词,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。

在壶关等地区,都构建了全面的区域性战略布局,加强发展的系统性、市场前瞻性、产品创新能力,以专注、极致的服务理念,为客户提供网站制作、成都做网站 网站设计制作按需定制制作,公司网站建设,企业网站建设,品牌网站建设,营销型网站建设,外贸网站建设,壶关网站建设费用合理。

01分析页面

我们此次选择的是从移动端来对微博进行爬取。移动端的反爬就是信息校验反爬虫的cookie反爬虫,所以我们首先要登陆获取cookie。

如何用Python爬取指定关键词

登陆过后我们就可以获取到自己的cookie了,有不懂的小伙伴可以看这篇文章学会Cookie,解决登录爬取的困扰!。然后我们来观察用户是如何搜索微博内容的。

平时我们都是在这个地方输入关键字,来进行搜索微博。

如何用Python爬取指定关键词

我通过在开发者模式下对这个页面观察发现,它每次对关键字发起请求后,就会返回一个XHR响应。

如何用Python爬取指定关键词

我们现在已经找到数据真实存在的页面了,那就可以进行爬虫的常规操作了。

02数据采集

在上面我们已经找到了数据存储的真实网页,现在我们只需对该网页发起请求,然后提取数据即可。

01发起请求

通过对请求头进行观察,我们不难构造出请求代码。

如何用Python爬取指定关键词

代码如下:

key = input("请输入爬取关键字:") for page in range(1,10):    params = (        ('containerid', f'100103type=1&q={key}'),        ('page_type', 'searchall'),        ('page', str(page)),    )     response = requests.get('https://m.weibo.cn/api/container/getIndex', headers=headers, params=params)

02提取数据

从上面我们观察发现这个数据可以转化成字典来进行爬取,但是经过我实际测试发现,用正则来提取是最为简单方便的,所以这里展示的是正则提取的方式,有兴趣的读者可以尝试用字典方式来提取数据。代码如下:

r = response.text title = re.findall('"page_title":"(.*?)"',r) comments_count = re.findall('"comments_count":(.*?),',r) attitudes_count = re.findall('"attitudes_count":(.*?),',r) for i in range(len(title)):    print(eval(f"'{title[i]}'"),comments_count[i],attitudes_count[i])

在这里有一个小问题要注意,微博的标题是用Unicode编码的,如果直接爬取存储,将存储的是Unicode编码,在这里要感谢大佬—小明哥的帮助,志斌在网上搜了好多解决方法都没有成功,最后小明哥一个简单的函数就给解决了,实在是佩服!

解决方案:用eval()来输出标题,就可以将Unicode转换成汉字了。

感谢你能够认真阅读完这篇文章,希望小编分享的“如何用Python爬取指定关键词”这篇文章对大家有帮助,同时也希望大家多多支持创新互联,关注创新互联行业资讯频道,更多相关知识等着你来学习!


网站标题:如何用Python爬取指定关键词
URL链接:http://cxhlcq.com/article/pjssoo.html

其他资讯

在线咨询

微信咨询

电话咨询

028-86922220(工作日)

18980820575(7×24)

提交需求

返回顶部