菜鸟笔记
提升您的技术认知

beautiful soup用法-ag真人游戏

阅读 : 63

beautiful soup是python的一个网页解析库,处理快捷; 支持多种解析器,功能强大。教程细致讲解beautiful soup的深入使用、节点选择器、css选择器、beautiful soup4的方法选择器等重要知识点,是学好爬虫的基础课程。

学习目标

  1. 掌握beautiful soup初始化的方式
  2. 掌握beautiful soup初始化参数的含义

1. 使用beautiful soup的步骤

简单的使用beautiful soup,大致可以分为三步:

  1. 导入beautiful soup类
    from bs4 import beautifulsoup
    
  2. 初始化参数,需要传递两个参数:html代码和html解析器
    soup = beautifulsoup(markup, features)
    
  3. 获取beautiful soup实例对象,通过操作对象来获取解析结果并提取数据
    soup.prettify()
    soup.title
    

2. 初始化beautiful soup对象

bs4库中导入beautifulsoup类实例化一个对象。

from bs4 import beautifulsoup
soup = beautifulsoup(markup, features)

在实例化的过程中,需要给beautifulsoup这个类传递两个参数: markupfeatures

1. 第一个参数:markup

  • 参数解释:被解析的html字符串或文件内容,也就是说markup是用来接收需要解析的html字符串或者文件内容的。
  • 使用方式两种:
  1. 使用字符串变量。直接将html数据以字符串的形式传入。
    # 使用第一步的html_str字符串变量
    from bs4 import beautifulsoup
    soup = beautifulsoup(html_str)
    
  2. 使用open()函数打开文件,将html数据以文件流的形式传入。
    # 假设将html_str字符串写入了index.html中
    from bs4 import beautifulsoup
    soup = beautifulsoup(open(index.html))
    

2. 第二个参数:features

  • 参数解释:解析器的类型
  • 使用方式有两种:
  1. 指定解析器,beautifulsoup选择指定的解析器来解析文档
    # 指定lxml作为解析器
    from bs4 import beautifulsoup
    soup = beautifulsoup(html_str, 'lxml')
    
  2. 未指定解析器,beautifulsoup选择最默认的解析器来解析文档
    # 解析html_str选择最默认的解析器
    from bs4 import beautifulsoup
    soup = beautifulsoup(html_str)
    

3. 总结

如何使用beautiful soup解析html文档?

这个非常的简单,只需要使用beautiful soup类初始化一个对象,然后操作这个对象就可以了。

需要注意的是:在初始化的对象的时候,需要给beautiful soup类传递两个参数,html代码和html解析器

这部分的内容作为今后使用beautiful soup4的基础,需要同学熟练掌握这部分的内容。

网站地图