我想获取当前网页一篇文章的标题,源码类似这样:<a href="http://abc/def/123456.html" target="_blank">文章 名称</a>
“文章”和“名称”之间隔了2个空格,但是元素捕获/相似元素列表捕获/懒加载元素列表这几个指令抓出来的文章名称都会把中间的两个空格缩减成一个空格,变成“文章 名称”,如果原来是一个空格的名称,就不会减少,还是正常的,就是遇到文章名称中间有2个空格就会减一个(两个以上空格会不会减我不知道,因为没有遇到)。
比如有两篇文章很相似(区别就是中间空格不一样):“AB C”和“AB C”,这是两篇不同内容的文章,我判断不出来,因为第二篇捕获出来压缩了一个空格,变成跟第一篇文章一摸一样了,这样导致我判断文件是否已经下载过造成很大麻烦,这是不是一个BUG呢?请指教,谢谢!