建议将系统设置为UTF8编码
export LANG=en_US.UTF-8
91视频解析:https://github.com/eqblog/91_porn_video_url
91视频爬虫:https://github.com/eqblog/91_porn_spider
1024图片爬虫:https://github.com/eqblog/1024_img_spider_threads
mm131图片爬虫:https://github.com/eqblog/mm131_spider_threading
使用方式在RANDME,MD中有写。
File “91_spider.py”, line 7
^
SyntaxError: invalid syntax
检查下代码的完整性
File “91_spider.py”, line 7
^
SyntaxError: invalid syntax
我的也都是line7报错
91SPIDER的用zh_CN.UTF-8编码吗,不知为何不行,1024没问题,爬虫直接网页复制黏贴文本的。错码:
Traceback (most recent call last):
File “91_porn.py”, line 44, in
download_mp4(str(get.text),str(t))
File “91_porn.py”, line 18, in download_mp4
req=requests.get(url=url)
File “/usr/local/lib/python3.4/dist-packages/requests/api.py”, line 72, in get
return request(‘get’, url, params=params, **kwargs)
File “/usr/local/lib/python3.4/dist-packages/requests/api.py”, line 58, in request
return session.request(method=method, url=url, **kwargs)
File “/usr/local/lib/python3.4/dist-packages/requests/sessions.py”, line 508, in request
resp = self.send(prep, **send_kwargs)
File “/usr/local/lib/python3.4/dist-packages/requests/sessions.py”, line 612, in send
adapter = self.get_adapter(url=request.url)
File “/usr/local/lib/python3.4/dist-packages/requests/sessions.py”, line 703, in get_adapter
raise InvalidSchema(“No connection adapters were found for ‘%s'” % url)
requests.exceptions.InvalidSchema: No connection adapters were found for ‘ç½ç«é²ç«å¢*{margin:0;padding:0;color:#444}body{font-size:14px;font-family:”å®ä½”}.main{width:600px;margin:10% auto;}.title{background: #20a53a;color: #fff;font-size: 16px;height: 40px;line-height: 40px;padding-left: 20px;}.content{background-color:#f3f7f9; height:280px;border:1px dashed #c6d9b6;padding:20px}.t1{border-bottom: 1px dashed #c6d9b6;color: #ff4000;font-weight: bold; margin: 0 0 20px; padding-bottom: 18px;}.t2{margin-bottom:8px; font-weight:bold}ol{margin:0 0 20px 22px;padding:0;}ol li{line-height:30px} ç½ç«é²ç«å¢ æ¨ç请æ±å¸¦æä¸åæ³åæ°ï¼å·²è¢«ç½ç«ç®¡çå设置æ¦æªï¼ å¯è½åå ï¼ æ¨æ交çå容åå«å±é©çæ»å»è¯·æ± å¦ä½è§£å³ï¼ æ£æ¥æ交å容ï¼å¦ç½ç«æ管ï¼è¯·è系空é´æä¾åï¼ æ®éç½ç«è®¿å®¢ï¼è¯·èç³»ç½ç«ç®¡çåï¼ è¿æ¯è¯¯æ¥ï¼è¯·èç³»å®å¡ http://www.bt.cn/bbs
‘
重新下载,搞定了
好的~使用愉快
我在VPS上用的,还是提醒大家要把系统语言设置成zh_CN.UTF-8,一开始一直失败,小白也不懂,饶了许多弯路
设置成en_US.UTF-8也是可以的。。
我没默认设置系统编码所以出现这个问题。。
root@4wj:~# python3 91_spider.py
Traceback (most recent call last):
File “91_spider.py”, line 41, in
if os.path.exists(str(t))==False:
File “/usr/local/lib/python3.5/genericpath.py”, line 19, in exists
os.stat(path)
UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-13: ordinal not in range(128)
root@4wj:~# python3 91_spider.py
Traceback (most recent call last):
File “91_spider.py”, line 41, in
if os.path.exists(str(t))==False:
File “/usr/local/lib/python3.5/genericpath.py”, line 19, in exists
os.stat(path)
UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-13: ordinal not in range(128)
请问大佬这是怎么回事
将系统语言设置为utf8格式
谢谢大佬,大佬春节快乐,全家安康
新年快乐~
Traceback (most recent call last):
File “911.py”, line 27, in
get_page=requests.get(url=page_url)
File “C:UsersAdministratorAppDataLocalProgramsPythonPython36libsite-packagesrequests-2.18.4-py3.6.eggrequestsapi.py”, line 72, in get
return request(‘get’, url, params=params, **kwargs)
File “C:UsersAdministratorAppDataLocalProgramsPythonPython36libsite-packagesrequests-2.18.4-py3.6.eggrequestsapi.py”, line 58, in request
return session.request(method=method, url=url, **kwargs)
File “C:UsersAdministratorAppDataLocalProgramsPythonPython36libsite-packagesrequests-2.18.4-py3.6.eggrequestssessions.py”, line 513, in request
resp = self.send(prep, **send_kwargs)
File “C:UsersAdministratorAppDataLocalProgramsPythonPython36libsite-packagesrequests-2.18.4-py3.6.eggrequestssessions.py”, line 623, in send
r = adapter.send(request, **kwargs)
File “C:UsersAdministratorAppDataLocalProgramsPythonPython36libsite-packagesrequests-2.18.4-py3.6.eggrequestsadapters.py”, line 495, in send
raise ConnectionError(err, request=request)
requests.exceptions.ConnectionError: (‘Connection aborted.’, ConnectionResetError(10054, ‘远程主机强迫关闭了一个现有的连接。’, None, 10054, None))
这样的报错怎么处理, 我在WIN10上运行的。
需要你的本地网络可以访问91
我开了vpn
你先测试下看能不能打开91
晕死,人现在在外地旅游,我记的我接接入自己的vps,可以打开91。
重新执行脚本看看~
我还了你的循环页数。
还有我怎么做一个你这样的微博。我也在学编程。在学python.
你说的是这个博客吧。。你只需要一个域名+一个建站用的虚拟空间 我用的程序的WordPress,你还可以使用其它博客程序搭建即可~
域名我都有,之前就申请了一个。我有一个10g的vps.可以提供一个论坛给我吗?
什么论坛?
你学习编程都是怎么学习的。是通过论坛吗?
不是啊。。网上看视频,然后自己写脚本练手。
论坛的话。。只上一个hostloc。。
我想做一个美美图片这样的网站有什么建议吗?
要用到什么工具呢。可以告知小吗?
我也没啥建议。。我自己也在慢慢学。。。
如果有现有程序的话,直接写爬虫然后发布到程序上就好了。
工具的话。。python就是很好的工具。。
我也想找个人一起学习。
91爬虫,有些文件只能下载1-3M,但是实际上有60多M。 直接用网页代码的地址可以完全下载,不知道错误在哪里。
在VPS上一次安装使用成功。
挂载了谷歌大硬盘,放开了下,有个疑问,下到什么时候会停呢?
还有能增加高清的下载解析么
博主,可不可以加个友链?
您好,请问地址.com/v.php?category=rf&viewtype=basic&page=,在101页以后不能下载,执行后没有反应也没有提示 ,这个该怎么解决呢?是不是不应该写全地址,我删一点重发一下
你好这个分页101页后为重复内容,你可以自行打开查看。
您好,91视频爬虫 我中间断了一次网。然后再运行,就一直是下一页,下一页。
1024图片,之下载下来文件夹,图片看不到。而且下载几页就会程序出错。
这个抓取页面代码存在着一些问题,会使一些数据抓取不到。导致这种情况发生。
那我应该如何解决呢?或者重新开始下载也不行。
这么晚打扰了。抱歉
你可以将
换为
python3 ,91spider,运行main.py提示ModuleNotFoundError: No module named ‘htmlutil’
善用搜索引擎
91视频那个好像挂掉了,有没有新的?91换地址了
请问下怎么改抓取的页面,我改为page_url=’http://www.91porn.com/video.php?category=rf&page=’+str(flag),然后下面的viewkey那边也要对应更改么?我改了下抓取到的viewkey为空白的
感谢楼主脚本,一直在用,非常好用,经典案例。
我fork优化了一下,添加了下载进度显示
https://github.com/moonlit7seas/91_porn_spider
怎么更改下载的文件保存的位置呢~~
您好,感谢分享那么棒的工具,下载过程中发现一个问题,会有溢出停止,每次到该页面就会中断,不是文件大小的问题,尝试了修改获取参数或者跳过错误无果,请求指点一二,谢谢。
此页已下载完成,下一页是3
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
已存在文件夹,跳过
Traceback (most recent call last):
File “91_spider.py”, line 32, in
bases_req = requests.get(ifm[0], headers=headers)
IndexError: list index out of range
大神你好 现在程序不能用了吧,下载不了视频,爬取到详情页里面没有视频 !