像下面这个url里就有中文 怎么办?
https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=我不会fenlei=256
甚至还有中文加代码的 例如
https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=我不
会fenlei=256
!分页和多页链接获取只能在默认页面获取 所以默认页面无法先加工再采集 。。。
!获取的分页和多页链接也无法转码或加工 例如删除
有木有火车头大佬给科普一下 不胜感激!~
吉林省网友说:火车头不了解
但链接中中文或者特殊符号一般都是urlencode一下
广东省网友说:大佬 爬虫这个东西 是不是不好学啊?只会简单的html语言 是不是没门?
湖北省网友说:中文已经给你转码了,不用管。百毒这种做防采集到变态的沙雕,得用多种工具一起伺候他
贵州省网友说:其实我采集的不是百毒 这个只是用来举个栗子