BeautifulSoup是一个HTML与XML数据分析工具。它可以让你从HTML或者XML中获取你需要的数据以及修改对应数据。
安装
在Debian机器上,可以使用下面命令安装
sudo apt-get install libxml2-dev |
使用
下面是一个HTML文档,后面的示例中都使用这个文档
html_doc = """ |
基本使用
从BeautifulSoup解析出的字符串是unicode格式,传递给BeautifulSoup的文档最好使用unicode格式。
from bs4 import BeautifulSoup |
数据定位
BeautifulSoup提供了很多数据定位的接口供我们操作,我们可以通过这些接口访问节点的子节点、父节点、兄弟节点以及定位到特定节点。
下面是一个使用find
接口定位到特定节点的例子。
def tag_func(tag): |
其他
获取文档的文字版(去掉HTML标签)
txt = soup.get_text() |
字符串迭代器: .strings
与.stripped_strings
for string in soup.strings: |