Python网络爬虫神器PyQuery的基本使用教程

2020-06-22 09:31 来源:易采站长站 作者:易采站长站整理 点击: 评论:

A-A+

原标题:Python网络爬虫神器PyQuery的基本使用教程

前言

pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,易用性和解析速度都很好,和它差不多的还有BeautifulSoup,都是用来解析的。相比BeautifulSoup完美翔实的文档,虽然PyQuery库的文档弱爆了, 但是使用起来还是可以的,有些地方用起来很方便简洁。

安装

关于PyQuery的安装可以参考这篇文章://www.jb51.net/article/82955.htm

PyQuery库官方文档

初始化为PyQuery对象
常用的CCS选择器
伪类选择器
查找标签
获取标签信息

初始化为PyQuery对象


html = """
<html lang="en">
<head>
简单好用的
<title>PyQuery</title>
</head>
<body>
<ul id="container">
<li class="object-1">Python</li>
<li class="object-2">大法</li>
<li class="object-3">好</li>
</ul>
</body>
</html>
"""

相当于BeautifulSoup库的初识化方法,将html转化为BeautifulSoup对象。


bsObj = BeautifulSoup(html, 'html.parser')

PyQuery库也要有自己的初始化。

1.1 将字符串初始化


from pyquery import PyQuery as pq
#初始化为PyQuery对象
doc = pq(html)
print(type(doc))
print(doc)

返回


<class 'pyquery.pyquery.PyQuery'>

<html lang="en">
<head>
<title>PyQuery学习</title>
</head>
<body>
<ul id="container">
<li class="object-1"/>
<li class="object-2"/>
<li class="object-3"/>
</ul>
</body>
</html>

1.2 将html文件初始化


#filename参数为html文件路径
test_html = pq(filename = 'test.html')
print(type(test_html))
print(test_html)

返回


<class 'pyquery.pyquery.PyQuery'><html lang="en">
<head>
<title>PyQuery学习</title>
</head>
<body>
<ul id="container">
<li class="object-1"/>
<li class="object-2"/>
<li class="object-3"/>
</ul>
</body>
</html>

1.3 对网址响应进行初始化


response = pq(url = 'https://www.baidu.com')
print(type(response))
print(response)

返回


<class 'pyquery.pyquery.PyQuery'>

【易采站长站编辑:秋军】