Scrapy的remove_tags_with_content方法无法删除img标签?

1.7k 记录 , , 发表评论
Scrapy爬取的数据有时候会做清理,把不需要用的标签都清除掉。 其中remove_tags和remove_tags_with_content是比较有用的内置方法。 一个是去除标签本身,一个是去除标签及标签中的内容。 使用方式: from scrapy.utils.markup import remove_tags, remove_tags_with_content content = remove_tags(content, ('a',)) content = remove_…

xpath中*、text()和node()区别

3.1k 记录 , , 发表评论
假设有这么一段html: <div class="post-content"> <h1>Title</h1> <p>Subtitle</p> <img src="a.jpg"> <div> <a href="example.html">Goto</a> </div> Bare text <br> <!-- this is html comment --> <p>Bottom</p> </div> 1 child::*  节点的所有子元素,如//div[@class="post-content…

xpath匹配符.*/及其组合的区别和作用

2.2k 记录 , , 发表评论
区别如下: 绝对和相对XPaths (/ vs .) / :绝对位置路径,从document root开始。. :相对位置路径,从当前节点(或称当前上下文环境)开始。 元素名和任何元素(ename vs *) /ename :选择名为ename的根元素,如/html/* :选择所有根元素./ename :选择当前节点下所有名为ename 的子元素。./* 或 * :选择当前节点下的所有子元素。 递…

scrapy+splash问题504 Gateway Time-out解决办法

3.3k 记录 , , 发表评论
本地用scrapy + splash调试的时候好好的,到了服务器上就奇慢无比,爆出来的错误是: 504 Gateway Time-out 这明显是在服务器上,splash渲染页面的时候超时了。 而且在服务器上用curl,或者用浏览器访问,都是非常快的,就是走splash慢了。 导致这个问题的主要原因是:splash在下载某些资源的时候,花的时间太长了,这些资源可能是某个…