FAQs
如何租用实例呢?
请移步矩池云租用教程
如何快速解决你的难题?
矩池云目前支持多种产品及技术支持模式:
推荐:AI智能客服
页面右下角的悬浮组件点击客服
即可与AI智能客服进行交互,通用的产品使用问题都可精准回复。
支持中心搜索问题
-
查看支持中心文档。通过全局搜索,点击页面中的搜索按钮,输入你的问题关键词,系统会自动进行搜索、匹配,可以更快找到问题解答。如遇到问题:不知道矩池云怎么使用启动
Tensorboard
: -
点击页面搜索按钮
-
输入搜索关键词:
Tensorboard
-
点击相关搜索结果,即可查看问题解决方法
如以上两种方式无法满足您的需求,您亦可添加小助手微信,进行人工客服咨询:联系矩池云小助手
如何计费?
矩池云目前支持按租用时长实时计费和包日/包周/包月付费。
实时计费模式下,主机启动时不计费,进入运行中状态时开始计费,直到用户停止并释放主机后计费终止。启动中、保存中、恢复中、不可用等状态都不计费。实时计费模式支持使用时长卡、算力豆,扣费优先级为 时长卡、算力豆、余额。优惠券仅在抵扣余额时使用。
若余额不足,则自动释放主机。租用价格以租用时显示的价格为准。
如果您有时长卡、算力豆、优惠券等福利,抵扣优先顺序为 时长卡 > 算力豆 > 优惠券。优惠券的使用门槛不包括时长卡和算力豆已抵扣的部分。
例如,用户有一张 满50-15 和一张 满20-5 的优惠券,可叠加使用。用户租用了 100 个小时的 K80 机器,单价为 ¥1元/小时。在没有时长卡和算力豆的情况下,直接使用余额支付,此时需要支付金额为 100,两张优惠券的叠加门槛为 70,100 元满足大于 70 元的条件,两张优惠券可同时使用,减掉 15 和 5,最后实付为 80 元。两张优惠券状态变更为已使用。
若用户拥有一张 40 个小时的时长卡,该机器可用,那么时长卡会自动抵扣掉 40 小时,需使用余额计费部分为 60 小时,费用为 60 元。此时不满足两张优惠券的叠加门槛 70元 ,系统会自动识别最优抵扣方案,只有一张 满50-15 优惠券可用,最后实付为 45 元。时长卡和 满50-15 的优惠券标记为已使用,满20-5 的优惠券未使用。
若用户还有 20 个算力豆,那么在之前的基础上,时长卡抵扣掉40小时,需使用余额计费部分为 60 小时,费用为 60 元,抵扣掉 20 个算力豆,需要使用余额支付 40元。此时只有一张 满20-5 可用,最后实付为 35 元。时长卡、算力豆和 满20-5 的优惠券都状态变更为已使用,满50-15 的优惠券未使用。
包日/包周/包月模式下,您也可按照矩池云页面上提供的包日/包周/包月价格,一次性付费,长期使用更实惠。包日/包周/包月机器不支持手动释放,到期自动释放。用户可提前进行续费,也可以在租用界面-实例详情-更多,选择 到期后按时计费
。
能开发票吗?
矩池云支持开发票,发票类型默认为电子发票,发票内容支持:信息技术服务*GPU云服务器租用
、研发和技术服务*技术服务费
。
1、消费满100后,可以直接 [个人中心] - [我的账户] 中,找到开发票入口。
2、如果您在第一步中找不到开发票入口,请联系客服人工处理,并提供如下信息发送给客服。
- 您需要提供信息:开票金额、客户名称、纳税人识别号、收取发票邮箱、您的矩池云账号。
- 如需要备注,请一并发送。
建议您消费累计到一定程度后再申请开票,开票前请确认开票金额;如果连续开多张发票,请和贵单位确认发票连号是否会影响报销,如果影响报销请备注 不能连号。
3、如您还需要盖章的账单明细证明,亦请联系联系客服人工处理
网盘下载速度慢,怎么选择线路?
个人网盘用户推荐使用 网盘客户端,支持文件/文件夹上传下载,断点上传/下载,如果有需要可以点击这里查看使用手册。
矩池云网盘线路默认是专线
,如果您在使用默认路线上传或者下载速度较慢时,可以考虑切换线路,优先选择专线,如:专线、专线2,其他线路切换选择方式如下:
1)国内网络可以选择对应运营商网络线路,如:电信备用线路1、电信备用线路2、移动线路;
2)校园网,可以选择专线;
3)在国外,建议使用海外版。
如果按以上方法切换线路后,网盘上传/下载还是很慢的话,可以点击这里进入矩池云网络诊断页面,点击 网络检测
按钮检测本地网络与官方各线路网络通信情况,根据页面提示,将检测结果复制发送给矩池云微信小助手。
切换专线:在矩池云网盘页面中,右上角点击专线右边的 ^
,可以选择切换线路。
我有时长卡,为什么租用时提示账户余额不足?
可能因为您的账号有欠费。当余额为负数时,需还清欠款,才能继续使用矩池云服务。
我需要的模块包镜像里没有,我可以自己装吗,怎么装?
可以,如果您需要安装 Python 包,可以在连上实例后,执行如下命令:pip install
,例如,pip install numpy
。 若您需要安装的是系统包,请执行 Bash 命令,例如 apt install htop
。
矩池云提供数据存储服务吗,怎么使用?
矩池云在每个区域为每位用户配置了 5G 的网盘,您可将数据上传到网盘中。租用实例时,该实例对应区域的网盘中的数据会挂载进主机指定目录,以便您在主机中操作。网盘中的数据不会随机器释放而丢失。
默认挂载路径是主机根目录下 mnt
文件夹,您可使用 cd /mnt
命令访问。您可在租用机器时修改挂载路径。网盘挂载路径不支持软链接。
目前数据存储服务支持扩容,您可根据容量需求定制。注:不同区域的网盘和实例不互通,扩容网盘时,请先确定好实例所在区域。
租用实例是独占还是与他人共享?
矩池云目前仅支持独占。在租用成功后,您就独占了这台主机,在您释放主机之前,他人不会使用这台实例。
如何自动释放实例?
若您租用的是按时计费的实例,可使用如下命令自动释放实例。包日/包周/包月机器不可使用自动释放命令。
bash 命令示例
Shell复制代码# 若释放前要保存环境并命名为 SnapName export $(cat /proc/1/environ |tr '\0' '\n' | grep MATCLOUD_CANCELTOKEN)&&/public/script/matncli node cancel -url https://matpool.com/api/public/node -save -name SnapName # 若释放前不需要保存环境 export $(cat /proc/1/environ |tr '\0' '\n' | grep MATCLOUD_CANCELTOKEN)&&/public/script/matncli node cancel -url https://matpool.com/api/public/node
两句命令二选一即可:
-save
表示保存环境,一般与-name
连用。 如果不需要保存环境,则不添加-save
与-name
。-name
代表保存环境的环境名称,如果此项缺失,系统会给一个默认的环境名称。但需要注意,-save
选项不可缺失,否则不会进行保存环境。
**注意:**若选择了保存环境但是由于网盘空间不足等问题导致保存失败,机器无法自动释放,会自动恢复运行。为了节省您的费用,请在自动释放前保证网盘有足够的空间。
python代码示例:
python复制代码import os # 若释放前要保存环境并命名为 SnapName os.system("export $(cat /proc/1/environ |tr '\\0' '\\n' | grep MATCLOUD_CANCELTOKEN)&&/public/script/matncli node cancel -url https://matpool.com/api/public/node -save -name snapName") # 若释放前不需要保存环境 os.system("export $(cat /proc/1/environ |tr '\\0' '\\n' | grep MATCLOUD_CANCELTOKEN)&&/public/script/matncli node cancel -url https://matpool.com/api/public/node")
执行 apt install 的时候下载特别慢怎么办?
矩池云提供的镜像中,apt install 的默认源为阿里源,在国内使用比较快。
如果您当前执行 apt install 时下载特别慢,可能是由于所在地区使用阿里源不稳定,您可以尝试更换源。
快速方法:执行命令
shell复制代码bash /public/script/switch_apt_source.sh
输入想要切换的源前面的序号,然后按回车,切换后脚本会自动执行 apt update,源切换成功。
若您想要切换的源不在矩池云提供的源里,可联系客服添加,或自行按以下方法操作。
shell复制代码cd /etc/apt/ # 备份源文件 cp sources.list sources.list.bk # 修改文件 vim sources.list
通过修改 sources.list 文件来修改源,例如要修改为清华源:
shell复制代码# 默认注释了源码镜像以提高 apt update 速度,如有需要可自行取消注释 deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial main restricted universe multiverse # deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial main restricted universe multiverse deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse # deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-updates main restricted universe multiverse deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse # deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-backports main restricted universe multiverse deb https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-security main restricted universe multiverse # deb-src https://mirrors.tuna.tsinghua.edu.cn/ubuntu/ xenial-security main restricted universe multiverse
输入 :wq
保存修改。
保存后执行 apt update
,可以看到源已经成功更改为清华源。
执行 pip install 的时候下载特别慢怎么办?怎么切换源?
矩池云提供的镜像中,pip install 的默认源为阿里源,在国内使用比较快。
如果您当前执行 pip install 时下载特别慢,可能是由于所在地区使用阿里源不稳定,您可以尝试更换源。
快速方法:执行命令
shell复制代码bash /public/script/switch_pip_source.sh
输入想要切换的源前面的序号,然后按回车,提示切换成功。
执行 pip 命令可看到源已切换成功。
若您想要切换的源不在矩池云提供的源里,可联系客服添加,或自行按以下方法操作。
方法一:临时指定源
pip 命令可通过 -i 参数指定安装源,例如:
shell复制代码pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple/
系统将会从清华源中安装 numpy。
方法二:系统修改
shell复制代码cd ~ mkdir .pip cd .pip/ touch pip.conf vim pip.conf
将 pip.conf 的内容修改为:
txt复制代码[global] index-url = https://pypi.tuna.tsinghua.edu.cn/simple
输入 :wq 保存。 执行 pip install numpy 可以看到源已经被更新为清华源。
执行 conda install 的时候下载特别慢怎么办?怎么切换源?
矩池云提供的镜像中,conda install 的默认源为清华源,在国内使用比较快。
如果您当前执行 conda install 时下载特别慢,可能是由于所在地区使用清华源不稳定,您可以尝试更换源。
快速方法:执行命令
shell复制代码bash /public/script/switch_conda_source.sh
输入想要切换的源前面的序号,然后按回车,源会自动切换。
若您想要切换的源不在矩池云提供的源里,可联系客服添加。
使用过程中我想换一个环境,镜像可以更改吗?
在申请租用时,您可以选择镜像。
目前按时租用机器,不支持租用后更换镜像,如果需要更换镜像您可以释放并重新申请租用。
包日/包周/包月租用机器,支持租用后更换镜像,租用后,选 [更多] - [重置镜像] 即可。
使用过程中我想更新实例的配置,可以操作吗?
不可以,实例启动后,实例的配置就确定且不可更新。如有需求,可以先保存好环境,然后释放当前实例并使用保存的环境重新启动实例。
余额不足怎么办,会影响正在租用的主机的使用吗?
请保证余额充足,当余额不足以支付租用费用时,运行中的实例将会被自动释放。注:实例被动释放前,如对应区域的网盘容量充足,系统会自动保存当前环境然后释放。
为什么租用的实例启动后直接就自动释放了?
很可能用户自定义了一个入口命令,实例启动后入口命令执行完毕,进程正常退出,实例因为任务已结束而自动释放,所以出现这种情况请检查是否与自定义的入口命令相关,如若没有定义入口命令,请检查是否使用了自定义的镜像,镜像没有默认的入口命令或者镜像的默认入口命令执行完毕(与自定义入口命令原因相同),最后再检查挂载配置中网盘路径是否存在,如果都无误,依旧遇到该问题,请联系我们。
此外,这里要说明的是,入口命令相关进程执行完毕后主机自动释放这个特性能帮助用户节省成本,用户在租用主机后,执行相关任务,任务结束后,主机就闲置了,自动释放可以帮助用户节省开销。
不小心把 jupyter 进程 kill 了,如何恢复?
- 使用 SSH 登陆机器。
- 检查 8888 端口是否已被 JupyterLab 占用
sh复制代码apt update apt install net-tools netstat -antup | grep 8888
图中所示为 8888 已经被占用,请确认 8888 没有被占用。
- 查看自己的 token 并运行 jupyter 进程
sh复制代码nohup jupyter lab --notebook-dir=/ --allow-root --no-browser --NotebookApp.token=${YOUR_TOKEN} --ip=0.0.0.0 &
把命令中的 ${YOUR_TOKEN} 替换为您的 Token。Token 为 Jupyter 链接中带的参数。
例如:
sh复制代码nohup jupyter lab --notebook-dir=/ --allow-root --no-browser --NotebookApp.token=zLAT32Gb0I --ip=0.0.0.0 &
- 检查jupyter链接是否能正常打开
如何安装 nvcc?
若您想要使用 nvcc,但是所选的镜像中没有预装 nvcc,可按照如下操作自行安装。
- 设置CUDA相关源,可以使用内置脚本(如果实例所在区域的公共网盘中没有这个脚本可以联系小助手)
bash复制代码bash /public/script/switch_apt_source.sh
执行后选择8,即可完成设置。
- 安装所需版本的
nvcc
sh复制代码apt update # "10-0" 表示安装CUDA10.0版本的 nvcc, 应根据镜像中cuda版本安装 apt install cuda-command-line-tools-10-0
- 验证nvcc安装
sh复制代码nvcc --version
如何查看cudnn版本?
sh复制代码dpkg -l | grep cudnn
为什么 JupyterLab 右键删除文件,保存环境反而变大了 ?
因为保存环境功能保存的是服务器本地的所有修改,JupyterLab 右键删除文件会缓存下来,你可以用下面的命令进行删除。注意:删除命令请谨慎操作
sh复制代码cd /root/.local/share/Trash/files/ ls rm -rf /root/.local/share/Trash/files/* # 注意:删除命令请谨慎操作
误删 start_all_services.sh 文件后实例无法启动?
因为有一批镜像的 start_all_services.sh 文件在机器的 / 目录下,会有误删的情况,导致保存的环境无法启动。
这里在租用的时候打开高级选项,将下面的代码复制粘贴进去。
sh复制代码/usr/sbin/sshd -E /root/sshd_running.log jupyter lab --allow-root --no-browser --NotebookApp.token="${TOKEN}" --ip=0.0.0.0 tail -f /dev/null
然后再执行
sh复制代码cp -r /public/script/start_all_services.sh /
之后再保存一次环境就恢复了。
自定义了多个端口导出,为什么有些 URL 无法连接?
自定义端口导出需要启动的主机内有进程监听该端口,这和入口命令相关,入口命令是主机启动后执行的命令。
如果该命令启动的进程监听了相应的协议和端口,那么就可以配置暴露这些端口从而可以连接,反之,如果入口命令启动的进程没有监听某端口,那么配置该端口的导出虽然是成功的,但却是无法连接的。 入口命令一方面可以由用户定义,另一方面如果用户没有定义,则使用镜像默认的入口命令
如何获取优惠券?
您可通过邀请好友注册来获得118优惠券大礼包,进入个人中心-我的账户-邀请好友,获得您的邀请码,每成功邀请一位新用户,双方都将获得118元大礼包一份,上不封顶。该活动派发的优惠券有效期为 7 天。同时,好友消费累计将获得算力豆返利。
优惠券怎么使用?
优惠券会在您每次按时租用结束时自动抵扣。
当您停止租用按时计费的机器时,系统会根据您本次的消费额和仍在有效期内并且未使用的优惠券,智能匹配最大的抵扣额度,自动抵扣。若您的消费金额达到多张优惠券使用门槛的累计值,优惠券可叠加使用。优惠券使用优先级小于时长卡和算力豆,时长卡和算力豆已抵扣的部分,不参与优惠券门槛的计算。
例如,您拥有 5 张满 10 元减 5 元的券。当您某次停止租用时,除掉时长卡、算力豆已抵扣的部分,需要支付费用是 50 元,若这 5 张券仍在有效期内并且未使用,那么系统会自动使用这 5 张券,您最后需支付 25 元。若您消费了 20 元,则只能使用两张满 10 元减 5 元的券。
购买网盘、购买包日/包周/包月机器时不可使用优惠券。优惠券仅限矩池云官方网站使用,不支持第三方渠道。
时长卡、算力豆、余额。优惠券仅在抵扣余额时使用。
机器变为不可用状态是怎么回事,要怎么处理?
不可用是由于机器掉线或代理重连等若干原因引起的。不可用状态下不计费。
若发现实例不可用,请等待实例重新连接,重新连接后原服务会继续进行。若长时间不可用,请及时联系客服处理。
您也可直接释放不可用实例,释放后网盘中的数据仍然会保存。
如何在 Jupyter 中访问网盘中的文件呢?
在 Jupyter 中,执行 !ln -s /mnt /notebooks
,即可在 Jupyter 中查看网盘中的内容
在 Python3.7 镜像中,遇到 This is probably because cuDNN failed to initialize 错误,如何解决?
该问题有可能由 TF 版本不兼容引起。在 Python3.7 镜像中,我们默认为您安装了 TensorFlow2.0,若您的脚本使用较低的 TF 版本,则有可能会遇到这个错误。此时可在脚本中添加如下代码解决:
python复制代码from tensorflow.compat.v1 import ConfigProto from tensorflow.compat.v1 import InteractiveSession config = ConfigProto() config.gpu_options.allow_growth = True session = InteractiveSession(config=config)
该代码是将 TF 的配置文件修改为较低版本,但矩池云建议您依照 TensorFlow2.0 的规范编写脚本。
若您已添加上述代码,或在 TensorFlow 1.x 版本下使用遇到该问题,可尝试添加如下代码解决:
python复制代码physical_devices = tf.config.experimental.list_physical_devices('GPU') assert len(physical_devices) > 0, "Not enough GPU hardware devices available" tf.config.experimental.set_memory_growth(physical_devices[0], True)
若您是在 TensorFlow2 下遇到此问题,可尝试通过限制显存解决。
python复制代码import tensorflow as tf gpus = tf.config.experimental.list_physical_devices('GPU') if gpus: tf.config.experimental.set_virtual_device_configuration(gpus[0],[tf.config.experimental.VirtualDeviceConfiguration(memory_limit=1024)]) #限制显存只有 1G
如何修改服务器时区?
shell复制代码apt-get update apt-get install tzdata
执行 tzselect
,下载后选择 Asia - China - Beijing,然后选择 yes。
运行后,如果出现如图所示的要求,则运行这句代码即可。
TZ='Asia/Shanghai'; export TZ
运行后使用 date -R
命令查看,时区已修改。
不租用实例从GitHub下载文件的方法?
网盘客户端支持通过 Github 链接导入项目到网盘,这个功能使你无需开机即可从 Github 下载项目代码到网盘,使用方法如下(进行以下步骤前需要先点击左下角设置按钮,配置本地代理服务):
- 打开矩池云客户端,先点击左侧工具栏的
文件
,即可看到网盘窗口右下角的+
上传按钮,点击后可以选择Github导入
。
- 在导入页面输入要导入的项目地址,点击
确定
按钮即可。
下载完成后,即可在网盘对应目录下看到导入的项目文件了。
更多网盘客户端使用操作说明:使用网盘客户端教程
如何加速 GitHub 下载?
方法一:选择区域在亚太区的机器
方法二:使用国内镜像,在clone链接前面增加 https://mirror.ghproxy.com/
(经工作人员测试可用)。
例如 https://github.com/keras-team/keras-contrib.git
改为 https://mirror.ghproxy.com/https://github.com/keras-team/keras-contrib.git
。
下载命令为 git clone https://mirror.ghproxy.com/https://github.com/keras-team/keras-contrib.git
。
在使用的时候可能会报 error: server certificate verification failed.
的错误,可以使用下面的命令来解决。
shell复制代码export GIT_SSL_NO_VERIFY=1
方法三:使用码云
仓库导入成功后,可以像操作 GitHub 仓库一样,复制下载地址。
在矩池云机器,复制这串命令,即可下载。
如何使用 Keras 预置模型?
矩池云会在租用实例后自动为您挂载 Keras 预置模型,路径为 /public/keras_pretrained_model
。
使用前,可先将预置模型复制到 Keras 目录,路径为 ~/.keras/models
,例如要使用 Resnet50 模型:
shell复制代码# 若路径不存在则先创建 mkdir -p ~/.keras/models/ # 复制到目标路径 cp /public/keras_pretrained_model/resnet50_weights_tf_dim_ordering_tf_kernels.h5 ~/.keras/models
复制成功后即可在 Python 文件中即可调用该模型。
python复制代码from keras.applications.resnet50 import ResNet50 model = ResNet50(weights='imagenet') model.summary()
更多关于 Keras 预置模型的使用教程,可参见官方教程
如何使用 TensorBoard?
- 配置端口
首先在租用机器时,展开高级选项,在自定义端口中,新增一个端口配置,为 HTTP-6006(6006 为 TensorBoard 的默认端口)。
若您没有在租用时导出 6006 端口,可用本地 SSH 映射到服务器的 6006 端口。在本地 SSH 工具中,输入命令:
Shell复制代码ssh -p [sshport] -NL [localport]:localhost:6006 root@[host]
其中:
sshport:矩池云机器的 SSH 端口。
localport:您本地的任一端口。
sshhost:矩池云机器的 SSH Host。
例如:
Shell复制代码ssh -p 40327 -NL 1234:localhost:6006 root@hz.matpool.com
输入密码后没有任何反应为正常现象,此时端口映射已经成功。
- 启动 TensorBoard
在需要使用 TensorBoard 时,输入命令:
Shell复制代码tensorboard --logdir logs --bind_all
其中 logs 是 TensorBoard 的日志输出路径,您可以将其修改为您自己的路径。
- 访问 TensorBoard
若您租用时配置了 6006 端口,点击租用列表里自定义的 HTTP 链接(不是 JupyterLab 链接),即可打开 Tensorboard。
若您是通过本地 SSH 映射,则在网页中访问连接 localhost:[localport]
,localport 为您刚才配置的本地端口,例如 localhost:1234
。
更多关于 TensorBoard 的问题,可参考官方教程
如何在 VS Code 中选择 conda 环境
首先,按照 VS Code 的连接教程,连上矩池云机器。
点击左侧的插件图标,输入 Python,选择并安装 Python 插件。
安装完成后,当您打开一个远程文件时,下方会有 Python Interpreter 的按钮,点击它。
点击会让您选择 Interpreter,选择 myconda 即可
矩池云怎么上传文件夹?
矩池云的网盘支持在多种方式上传方式,支持网页端上传和 SCP/SFTP 等方式上传,下面介绍一下相应的方式。
客户端上传:推荐,网盘客户端支持文件/文件夹上传、下载,断点重传、批量上传等功能,上传速度更稳定,点击查看网盘客户端使用方法
网页端上传
网页版网盘只支持文件上传,所以要想通过网页网盘上传文件夹,需要先将本地文件夹压缩成一个文件,然后上传。网页端可以在不租用机器的情况下上传文件,还支持大文件的断点续传。
- 将需要上传的文件压缩成 zip 、 rar 等 Linux 支持解压缩的文件类型,并上传到云盘。因为矩池云的网盘没上传完空间就计算进去了,大家上传的时候一定要看到已上传,再去解压。
- 开启一台主机,我这里用的是矩池云自带的 JupyterLab 的 Terminal 来解压:
- 进入网盘,查看网盘内文件
shell复制代码cd /mnt #进入网盘文件默认保存位置 ls #查看文件 # ZIP压缩包 unzip test.zip #全路径解压 unzip test.zip -d data/ #去掉路径解压,data/表示解压的路径 # RAR压缩包 apt-get update #更新系统 apt-get install rar unrar #安装unrar unrar x test.rar #全路径解压 unrar e test.rar data/ #去掉路径解压,data/表示解压的路径 # p7zip解压 apt-get update #更新系统 apt-get install p7zip-full 7z x test.zip -o/mnt/data
如果遇到 zip.ZIP 不要紧张,是因为数据没有上传完整,矩池云网盘支持断点续传,不用删除旧文件,重新选中上传即可
SCP上传
scp上传的需要先租用再上传,在操作上也会比前两种方法更难一些。
命令
shell复制代码scp -P <ssh的端口> root@hz.matpool.com:/mnt/<网盘路径> /<本地路径>
或者使用工具,如 WinSCP 等,选中文件夹上传即可。
矩池云怎么安装java?
安装 OpenJDK 11
txt复制代码apt update apt install openjdk-11-jdk java -version
安装 OpenJDK 8
txt复制代码apt update apt install openjdk-8-jdk java -version
矩池云上如何为 JupyterLab 添加新 kernel?
利用 ipykernel 为 JupyterLab 添加 kernel 以及展示出来。
txt复制代码conda create -n py36 python=3.6 # 创建名为 py36,python 版本为 3.6 的虚拟环境 conda activate py36 # 创建成功后,进入 py36 虚拟环境 pip install ipykernel # 在 py36 虚拟环境安装 ipykernel python -m ipykernel install --user --name py36 --display-name "py36" # 添加 py36 的 kernel
矩池云升级 JupyterLab 版本?
txt复制代码conda deactivate ps -aux | grep jupyter
我这个进程是616
txt复制代码kill -9 616
升级jupyterlab
txt复制代码pip install -U jupyterlab
查看自己的 token 并运行 jupyter 进程
txt复制代码nohup jupyter lab --notebook-dir=/ --allow-root --no-browser --NotebookApp.token=${YOUR_TOKEN} --ip=0.0.0.0 &
矩池云降级到 gcc4.9 和 g++4.9?
修改软件源
txt复制代码cd /etc/apt/ cp sources.list sources.list.bk # 备份源文件 vim sources.list # 修改文件
打开的文件最后添加如下两行
txt复制代码deb http://cn.archive.ubuntu.com/ubuntu/ xenial main deb http://cn.archive.ubuntu.com/ubuntu/ xenial universe
输入 :wq 保存修改
txt复制代码apt-get update apt-get install gcc-4.9 apt-get install g++-4.9
更新
txt复制代码update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-4.9 20 update-alternatives --install /usr/bin/g++ g++ /usr/bin/g++-4.9 20
验证版本
txt复制代码gcc --version
怎么安装一个指定版本的Python?
如果对框架 cuda什么的都没要求,可以选择一个基础镜像,比如搜索cuda10,然后conda创建一个虚拟环境,可以指定python版本,如:(安装python3.7版本)
bash复制代码# 创建python3.7环境 conda create -n py3.7 python=3.7 # 激活进入py3.7 conda activate py3.7 # 在虚拟环境里,安装第三方包 可以直接pip install 包名
还可以把这个环境加到新建notebook页面显示,点击查看教程
Pycharm远程连接后怎么安装第三方包?为什么安装后还是显示没有?
在Pycharm中点击tools->start ssh session,连接后,在Terminal中直接pip install 包名即可,另外如果远程环境安装了,Pycharm还是有红色波浪线提示没有安装,可以不用管,直接运行代码就行。
时长卡怎么使用?为什么买了时长卡还在算余额的钱?
购买时长卡后,租用对应显卡机器即可,释放机器的时候会自动抵扣时长卡,页面中显示的只是预估花费,并没有实际扣款。 扣款优先级和计费逻辑
注意: 如果租用机器和时长卡支持机器不一致,释放机器时就会扣余额了。
程序运行RuntimeError: CUDA out of memory怎么办?
首先可以在租用界面点击 详情
,看看机器监控情况,如果是内存/显存不足,可以按以下方法尝试解决,
- 如果使用Pytorch、Tensorflow框架,可以尝试调小 batch_size
- 如果使用Pytorch框架Dataloader加载数据,设置了num_worker,可以调小 num_worker 试试
- 还可以根据监控情况,选择大内存或者大显存机器。
为什么没有跑程序了,显存/内存使用量还是这么高?
如果是没有运行程序,显存/内存使用量还是很多,有可能是之前自己启动的python程序在跑,可以输入下面指令看看运行的进程中有没有自己之前的运行指令,一般是:python xxx.py
txt复制代码ps aux
如果有自己不需要运行的程序还在运行,可以使用kill命令结束进程:
【注意】不要误kill掉系统相关进程,比如jupyterlab的等,执行下面的kill指令前请核对好相关程序对应的进程PID。
比如下面,我的程序进程 python testpy.py
对应的进程pid为:90。
bash复制代码kill process_pid # -9 强制终止进程 kill -9 process_pid
另外,如果你是在jupyterlab中运行程序,可能是之前运行的缓存没有清理,你可以重启下kernel试试。
如果还是不能解决问题,可以联系矩池云小助手。
Windows VS Code远程链接报错Could not establish connection to “hz.matpool.com”?
如果用户名(默认 :root)、端口、主机地址填写的和租用页面显示一致,可能是本地没有安装ssh工具导致连接失败,可以参考这篇教程点击查看
如果安装了ssh,连接还是有相关报错,报错信息提示:Add correct host key in /xxx/Users/xxx/.ssh/known_hosts to get rid of this message. 则可能是known_hosts文件中记录的连接的host的公钥有改动,则需要删除known_hosts对应记录后再进行连接。
bash复制代码# 进入ssh配置目录 cd ~/.ssh # 备份known_hosts文件 cp known_hosts known_hosts.old # 直接移除known_hosts文件 rm known_hosts
也可以在known_hosts找到对应的host连接配置删除后重连。
bash复制代码# 进入ssh配置目录 cd ~/.ssh # vim修改known_hosts vim known_hosts # 找到对应的host和公钥记录,并删除(需要了解vim操作)
暂停中是不是不会计费?暂停就不需要保存环境了吧?
目前没有机器暂停功能,只有停止并释放,另外包日/包周/包月用户还有切换镜像功能。
如果您在使用过程中想临时暂停使用(释放机器),并在下次使用的时候不用重新配置环境,可以在释放机器前使用我们提供的保存环境功能,点击查看保存环境详细教程。
保存环境过程中会停止机器运行,机器将显示为暂停中状态,不会计费。
矩池云jupyterlab里如何运行.py代码文件?
在jupyterlab中,新建一个 terminal,然后cd命令进入到你的项目文件夹,再python命令运行对应的py文件。以运行/mnt/my_project/main.py为例:
bash复制代码cd /mnt/my_project python main.py
如果需要中断正在运行的程序,可以按ctrl+c键停止运行。
建议:文件夹/文件名称中不要含中文或者空格,避免出现路径读取问题。
用jupyterlab跑模型的时候,网断了,或者电脑休眠了会有影响吗?
对最终结果不会有影响,只要机器没有被释放,就会在云端跑,不过你本地的print输出会丢掉,推荐使用nohup方式,将程序挂到服务器后台运行,程序print内容可以存放到指令日志中。
- xxx.py 是你要挂后台运行的代码文件
- /root/run.log 是代码运行输出(print打印输出)内容存放路径,可以自己修改成指定路径
bash复制代码# 万能模板 nohup python -u xxx.py > /root/run.log 2>&1 &
具体使用方法参考:如何在MATPool矩池云将程序挂后台运行、管理教程
一卡时是指能用一个小时吗?
指租用一张卡的话,可以使用一个小时;如同时租用N张卡,则只能使用1/N小时。
切换到本地的虚拟环境可以吗,有很多Python依赖包?
在服务器中运行项目只能使用服务器环境,如果项目有很多Python依赖包,可以使用下面方法在服务器中批量安装:
1)在本地对应环境中执行下面指令,生成项目依赖库记录文件 requirements.txt
;
bash复制代码pip freeze > requirements.txt
2)将 requirements.txt
中项目不需要的第三方包,或者机器学习相关框架包,比如:pytorch、tensorflow等框架,这些框架包往往选择镜像环境已经包含了,所以无需再安装,即使没有包含,也需要查阅官方文档后,根据官方提供的安装指令进行安装,避免出错;
3)将上面整理好的 requirements.txt
文件上传到矩池云网盘,然后在服务器中执行下面指令批量安装:
bash复制代码pip install -r requirements.txt
Pycharm中运行代码没有输出内容?
Pycharm中运行代码,没有输出内容,就显示 进程已结束,退出代码0
,这个显示是说运行没问题。
如果你的代码运行应该有输出,但是现在没有,可能是你配置Pycharm代码没有同步完全
如何使用 HuggingFace 预置的模型和数据集?
参考教程使用Huggingface在矩池云快速加载预训练模型和数据集
如何升级 cmake 版本?
如果你安装编译一些软件包时提示 cmake 版本过低,你可以按下面方法升级。
bash复制代码CMake 3.13 or higher is required. You are running version 3.10.2
- 查看当前 cmake 版本
bash复制代码(myconda) root@ZWEkyg:/# cmake --version cmake version 3.10.2
-
下载新版本 cmake 源码包
cmake 源码下载地址:https://cmake.org/files
以我为例,下载的是 3.17.0 的软件包,选中文件右键-复制链接,然后在租用的实例里 wget 下载。
bash复制代码wget https://cmake.org/files/v3.17/cmake-3.17.0.tar.gz
- 解压源码
bash复制代码tar xvf cmake-3.17.0.tar.gz
- 编译安装
bash复制代码apt-get update && apt-get install libssl-dev cd / ./bootstrap make make install ln -sf /usr/local/bin/cmake /usr/bin/cmake
- 查看新安装 cmake 版本
bash复制代码(myconda) root@ZWEkyg:/# cmake --version cmake version 3.17.0
Windows CMD 中使用 SSH 连接Linux实例出现: Permission denied,please try again?
Permission denied,please try again
一般是因为密码输入错误导致的。在Windows CMD 中,鼠标右键表示粘贴,所以大家复制密码后,在 CMD 窗口先按鼠标右键(表示粘贴密码,没有显示是正常的),然后再按回车键即可。
推荐按教程配置下公钥,后面 SSH 连接机器就不用输入密码啦,点击查看如何配置公钥
Available platform plugins are: xcb.
如果你在 VNC 里运行程序显示 xcb 组件不可用,可以安装相关组件,然后重新运行。
bash复制代码apt update apt install libxcb-*
如何查看运行实例的监控数据,如GPU利用率、显存占用、CPU利用率、内存利用率等
推荐: 在实例中执行watch -n 1 nvidia-smi
查看实例中GPU利用率
方法二:在我的实例中点击所要查看的实例,在实例详情中,查看监控数据。注:部分机器的数据可能采集不及时,请以实例中实际查看到的数据为准:
如何删除默认的清华源
通过在terminal窗口执行命令pip config debug
查看目前配置的源文件,然后用rm -f
命令删除,删除后再执行debug命令查看
网盘上传速度慢?
本地可能受vpn代理或者校园网络影响,建议更换网络再重启机器进行尝试
文件夹里小文件过多,单个文件上传的速度提高不了,建议先压缩然后上传
同时单个大文件也可以直接网盘页面上传 ,可能会更快。
网盘支持断点上传吗?
矩池云客户端网盘支持断点上传
在跑程序为什么会被killed?
程序被意外killed,有可能是机器OOM爆内存错误,如果训练模型也有可能是GPU显存不足,如果有日志的,可以查看日志错误信息,方便更好定位到问题
不同区域之间的文件有办法互传吗?
使用客户端网盘可以跨区复制文件
租用不同区域的便宜CPU可以使用scp命令相互传输文件
例如:scp -P 端口 -r root@主机域名:文件绝对路径 /home
bash复制代码scp -P 26720 -r root@hz-xxxx.matpool.com:/mnt/test.py /home
租用docker的主机实例,查询镜像命令都不行
可以检测当前用户是否为root用户,如果非root用户请使用sudo docker images
或者sudo docker ps
命令,还可以输入sudo -i
切换为root用户,密码为当前mat用户的密码
租用服务器后,怎么访问机器应用服务端口?
如果只是本地测试,可以本地端口转发后链接某个服务,比如端口 8080,
1、本地电脑打开 cmd/powershell ,输入:
bash复制代码ssh -p 26631 -NL 8080:localhost:8080 root@hz-t2.matpool.com
进行端口转发;
2、浏览器访问 localhost:8080
如果需要公网端口访问,可以保存环境,重新租用机器,在租用界面进行自定义端口设置,并且选择“我的环境”进行启动
官方文档:保存环境
8 xIntel(R)Xeon(R) CPU什么意思?
1vcpu表示1个虚拟线程,可以理解成1核,租用8vcpu,理论上这里利用率最高可以到 800%
矩池云网站有会员充值吗?
目前网站没有会员类目的充值服务,但是具有其它活动奖励:邀请新人得118大礼包
torch.cuda.OutOfMemoryError: CUDA out of memory.显存不足怎么解决?
调整batch size数值或者更换大显存显卡
矩池云查看机器CPU利用率很低,怎么解决?
cpu 利用率提升可以可以试试调数据并行参数torch dataloader 里的 numworker,可以设置成和你租用机器vcpu数量一样,这样提升cpu利用率也能整体加快训练