2371249814032830

通过安装,您可以像处理Reitz中的其他库一样轻松地操作。

有两种方法可以放置元素。

css选择器

css选择器

xpath

方法名称非常简单,符合Python的优雅风格。 在此,让我简单介绍一下这两种方法:

标签名称h1

id使用显示

类使用显示

谓词表示:

标签名称

谓词

轴的定位

当您导航到元素时,必须获取有关元素中内容和属性的数据以及文本。

要获取元素属性,请执行以下操作:

2371249814032830 热门话题

也可以通过模式匹配相应的内容。

这个功能看起来像鸡肋,所以请深入研究并尝试优化。 也许可以混入github中提交。

除了一些基础操作外,该库还提供了一些人性化的操作。 例如,一键获取网页的所有超链接,对全体爬虫来说应该是福音,URL管理很容易:

内容页面通常被分页,一次很少能抓住。 这个库可以获取寻呼信息。

结果如下。

通过迭代器实现了智能发现寻呼。 一些迭代器可以通过粘贴源代码来感受。

A根据标签是否包含指定的文本来判断是否有下一页。 通常,我们的下一页用或引导。 他使用这个标记进行判断。 默认情况下,全局以列表形式存在。 我个人认为,这种方式非常不灵活,几乎没有可扩展性。 感兴趣的人请向github提交代码优化。

您可能考虑了当前js的异步加载,但该库支持js运行时。 官方说明如下。

非常简单,直接调用以下方法:


发表评论

Copyright 2002-2022 by 奢苞汽车专修网(琼ICP备2022001899号-3).All Rights Reserved.