给robotask的内置python 添加新的模块如requests_wheel_lxml_pyopenSSL_Twisted

Scrapy

安装Scrapy框架

wheel ,lxml ,pyopenSSL , Twisted 这几个组件据说安装成功后才能安装Scrapy

首先是给自定义环境装一下 这个环境版本是3.11,robotask内置的版本是3.9的

几个简单的依赖

pip install wheel

pip install pyopenSSL

Twisted/pywin32/lxml 安装

cp后面是python版本,amd64

https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

pip install C:\Users\c\Downloads\Twisted-16.6.0-cp311-cp311-win_amd64.whl

Twisted版本我装错了 卸载重新装

pip uninstall Twisted

pip install C:\Users\c\Downloads\twisted_iocpsupport-1.0.2-cp311-cp311-win_amd64.whl

本地安装出错

SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate ve

提醒我(并非是升级pip或新任网站原因,而是打开了httpdebug抓包工具 即使点了停止也无济于事)

https://www.cnblogs.com/ada-luo/archive/2020/05/19/12915180.html

https://www.lfd.uci.edu/~gohlke/pythonlibs/#pywin32

pip install C:\Users\c\Downloads\pywin32-304.0-cp311-cp311-win_amd64.whl

https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml

pip install C:\Users\c\Downloads\lxml-4.9.0-cp311-cp311-win_amd64.whl

安装scrapy

pip install scrapy

装完 看看模块列表


C:\py3112>pip list
或
C:\py3112>pip freeze
attrs==22.2.0
Automat==22.10.0
certifi==2022.12.7
cffi==1.15.1
charset-normalizer==3.0.1
constantly==15.1.0
cryptography==39.0.2
cssselect==1.2.0
filelock==3.9.0
hyperlink==21.0.0
idna==3.4
incremental==22.10.0
itemadapter==0.7.0
itemloaders==1.0.6
jmespath==1.0.1
lxml @ file:///C:/Users/c/Downloads/lxml-4.9.0-cp311-cp311-win_amd64.whl
packaging==23.0
parsel==1.7.0
Protego==0.2.1
pyasn1==0.4.8
pyasn1-modules==0.2.8
pycparser==2.21
PyDispatcher==2.0.7
pyOpenSSL==23.0.0
pywin32 @ file:///C:/Users/c/Downloads/pywin32-304.0-cp311-cp311-win_amd64.whl
queuelib==1.6.2
requests==2.28.2
requests-file==1.5.1
Scrapy==2.8.0
service-identity==21.1.0
six==1.16.0
tldextract==3.4.0
Twisted==22.10.0
twisted-iocpsupport @ file:///C:/Users/c/Downloads/twisted_iocpsupport-1.0.2-cp311-cp311-win_amd64.whl
typing_extensions==4.5.0
urllib3==1.26.14
w3lib==2.1.1
zope.interface==5.5.2

临时换源:

pip install requests -I https://pypi.tuna.tsinghua.edu.cn/simple

我永久源是阿里的

%APPDATA%下pip.ini

命令行直接敲入

Scrapy

有返回了

robotask内置python模块也安装一遍

requests_wheel_lxml_pyopenSSL_Twisted

python -m pip freeez
由于系统有两个环境,再运行时发现他出了问题了 既然模块都依赖pip那么不如重装下
python.exe get-pip.py
python.exe -m pip install requests
python.exe -m pip install wheel
是PEP 427中定义的Python wheel打包标准的参考实现。"wheel"是python的一种内置包格式,它是一种zip格式的存档文件
python.exe -m pip install pyopenSSL
//pyOpenSSL是OpenSSL库的一个子集的瘦封装器,相应函数可支持加解密操作。
python.exe -m pip install twisted
//用Python实现的基于事件驱动的网络引擎框架,支持许多常见的传输及应用层协议,包括TCP、UDP、SSL/TLS、HTTP、IMAP、SSH、IRC以及FTP
python.exe -m pip install lxml
//一个解析库,支持HTML和XML解析,同时支持XPath解析方式。Lxml的解析速率相较BeautifulSoup更高
python.exe -m pip install pywin32
//快速调用windows API的一个模块库
python.exe -m pip install Scrapy

安装后 现在有这些模块了

C:\ProgramData\RoboTask\Python64\python.exe -m pip list
Package             Version
------------------- ---------
attrs               22.2.0
Automat             22.10.0
certifi             2022.12.7
cffi                1.15.1
charset-normalizer  3.0.1
constantly          15.1.0
cryptography        39.0.2
cssselect           1.2.0
filelock            3.9.0
hyperlink           21.0.0
idna                3.4
incremental         22.10.0
itemadapter         0.7.0
itemloaders         1.0.6
jmespath            1.0.1
lxml                4.9.2
packaging           23.0
parsel              1.7.0
pip                 23.0.1
Protego             0.2.1
pyasn1              0.4.8
pyasn1-modules      0.2.8
pycparser           2.21
PyDispatcher        2.0.7
pyOpenSSL           23.0.0
pywin32             305
queuelib            1.6.2
requests            2.28.2
requests-file       1.5.1
Scrapy              2.8.0
service-identity    21.1.0
setuptools          49.2.1
six                 1.16.0
tldextract          3.4.0
Twisted             22.10.0
twisted-iocpsupport 1.0.2
typing_extensions   4.5.0
urllib3             1.26.14
w3lib               2.1.1
wheel               0.38.4
zope.interface      5.5.2

python 基本库 常用库

sys //系统相关参数和函数
os /系统接口模块
re //正则模块
Requests //HTTP库 HTTP连接保持和连接池,cookie会话,上传自动响应内容编码POST等
marh //数学函数库
ramdon //随机数库
time //时间模块
hashlib //哈希算法
Parsel //等价于css选择器 xpath和re的集合
urlparse //url参数的处理
socket //套接字,用于描述IP地址和端口
Threading //比thread模块更高层的API来提供线程的并发性并共享内存
types //包含各种常见的数据类型
selenium //测试模型 解决requests无法直接执行JavaScript代码的问题
numpy //运行速度非常快的数学库
pandas //基于NumPy解决数据分析任务的 纳入大量库和数据模型供大型数据集所需

参考:
https://zhuanlan.zhihu.com/p/394440668