实验室加了台GPU服务器用于深度学习,因为实验室人数比较多,但是每个人使用的软件千差万别,多人使用同一台的话,软件,环境,文件,配置杂七杂八。甚至还有小白会运行损害系统的命令
所以我们做了虚拟化。为什么使用LXD呢,而不是使用最热门的docker呢?
两者都是基于lxc虚拟化,而docker作为应用容器,LXD是系统容器(可以安装完整的桌面有没有很赞),更加接近我们的生产环境,想象一下,别人使用docker时,还要自己使用命令上传文件,运行程序。尤其是小白对着黑框框会很头疼。而自己打开远程,打开pycharm,美滋滋。去除什么linux不要用桌面的想法,9102年了,ubuntu桌面已经很稳定了。接下来就来安装使用吧
建议安装server版,通过ssh远程 ubuntu镜像
服务器一般有一块SSD和多块机械做成的RAID的阵列,系统安装在SSD(比较小)还有一块RAID阵列的数据盘(如不能访问,在pdf文件夹已经离线好)
显卡驱动安装,
安装NVIDIA显卡驱动、CUDA、cuDNN
LXD 实现虚拟容器
ZFS 用于管理物理磁盘,支持LXD高级功能
bridge-utils 用于搭建网桥
sudo apt-get install lxd zfsutils-linux bridge-utils
因为学校信息中心网络的限制,如果配置桥接网卡,会导致流量异常,直接断网,因此实现每人一个ip的方式失败,不得已我们采用端口监听的方式来实现各个容器的连接(如果你不想使用监听的方式请自行上网查询LXD配置桥接网卡)
首先,我们运行sudo fdisk -l列出服务器上的可用磁盘和分区,我们有两块硬盘,第一块为系统盘,第二块为数据盘,现在我们将数据盘(/dev/sdb)分出需要使用的空间,作为容器的存储卷。
sudo fdisk /dev/sdb
按照下图分出了80GB的分区作为容器的存储卷,分区为/dev/sdb1,剩下的空间同理可以分区,可以作为服务器另外的应用使用
sudo lxc storage create zfs-pool zfs source=/dev/sdb1
sudo lxd init
因为我们已经创建好了一个叫zfs-pool的存储池,所以在lxd初始化时不需要创建新的储存池,之后在进行配置即可
sudo lxc profile edit default
sudo lxc remote add tuna-images https://mirrors.tuna.tsinghua.edu.cn/lxc-images/ --protocol=simplestreams --public
sudo lxc image list tuna-images:
sudo lxc launch tuna-images:ubuntu/18.04 test
sudo lxc exec test bash
我们登录的是root用户,在这个容器中已经存在了一个叫ubuntu的用户
passwd root
passwd ubuntu
容器里的ubuntu是一个很精简的系统,需要安装各种软件
apt install ssh
因为我们没有设置桥接网卡,不能从外部电脑访问容器(不能ping通容器的ip),因此我们采用端口监听的方式来访问我们的容器。
exit
sudo lxc list
ip addr
sudo lxc config device add test proxy0 proxy listen=tcp:172.22.24.126:60601 connect=tcp:10.152.210.183:22 bind=host
60601是我们定的端口号,通过宿主机的60601端口号监听容器中22端口号(SSH默认端口号)
ssh [email protected] -p 60601
sudo mv /etc/apt/sources.list /etc/apt/sources.list.bak
sudo vim /etc/apt/sources.list
deb http://mirrors.163.com/ubuntu/ bionic main restricted universe multiverse deb-src http://mirrors.163.com/ubuntu/ bionic main restricted universe multiverse deb http://mirrors.163.com/ubuntu/ bionic-security main restricted universe multiverse deb-src http://mirrors.163.com/ubuntu/ bionic-security main restricted universe multiverse deb http://mirrors.163.com/ubuntu/ bionic-updates main restricted universe multiverse deb-src http://mirrors.163.com/ubuntu/ bionic-updates main restricted universe multiverse deb http://mirrors.163.com/ubuntu/ bionic-proposed main restricted universe multiverse deb-src http://mirrors.163.com/ubuntu/ bionic-proposed main restricted universe multiverse deb http://mirrors.163.com/ubuntu/ bionic-backports main restricted universe multiverse deb-src http://mirrors.163.com/ubuntu/ bionic-backports main restricted universe multiverse
我们回到宿主机
lxc config device add yourContainerName gpu gpu
lxc config device add yourContainerName gpu0 gpu id=0
添加好显卡后,就相当于我们给容器安装了显卡,我们回到容器,然后安装显卡驱动
与宿主机的显卡版本必须一致,安装方法参考第一步NVIDIA显卡驱动、CUDN、cuDNN的安装
需要注意的是容器里面安装显卡驱动时需要加上后面的参数,安装时不需要安装到内核
sudo sh ./NVIDIA-Linux-X86_64-[YOURVERSION].run --no-kernel-module
sudo apt update
sudo apt install --no-install-recommends ubuntu-desktop
sudo apt install git
git clone https://github.com/shenuiuin/LXD_GPU_SERVER
cd LXD_GPU_SERVER/
sudo chmod a+x xrdp-installer-1.2.sh
mkdir -p ~/Downloads
./xrdp-installer-1.4.2.sh -c -l -s
在安装好XRDP后,与之前一样,因为我们ping不通容器,所以我们需要使用宿主机的端口号监听容器的xrdp的端口
sudo lxc config device add test proxy1 proxy listen=tcp:172.22.24.126:60611 connect=tcp:10.152.210.183:3389 bind=host
60611是我们定的端口号,通过宿主机的60611端口号监听容器中3389端口号(XRDP默认端口号)
可以通过windows的远程连接来使用容器(windows运行mstsc)
接下来就是当普通的ubuntu来使用,比如可以找一些教程:安装完ubuntu必做的事等等
sudo apt update
sudo apt install papirus-icon-theme
git clone https://github.com/vinceliuice/vimix-gtk-themes
cd vimix-gtk-themes
sudo ./vimix-installer
sudo apt install neofetch
neofetch
sudo apt install htop
htop
nvidia-smi
watch -n0.1 nvidia-smi
zpool list
我们不想每个人使用全部的硬件资源,所以还需要限制每个人的参数
容器参数配置说明
lxc config edit YourContainerName
其实在教程第二步的最后编辑默认磁盘大小的时候就已经在操作了(default)
sudo lxc profile edit default
管理员应在桌面上新建使用说明read.txt,写下系统的版本等信息、安装了什么软件、各种注意事项等等
我们把这个配置好的容器当成模板,保存为镜像。
sudo lxc stop test
sudo lxc publish test --alias ubuntudemo --public
以后直接用模板镜像来创建容器,容器创建好后修改它的配置文件:添加端口映射(远程连接与SSH)、添加显卡(显卡驱动已经有了)、配置硬件参数,(可使用默认配置文件,使得新容器的参数继承于它,这一步就可以省略)
https://pan.baidu.com/s/1AlnyEblEfP1ruIw9sg5Dtw 密码: cb25
lxc image import 4dd4710a11c146cbdbba13d7bc8c9fb69d7dca8fb93680b4a9285d2951b05db6.tar.gz --alias ubuntu_demo
lxc config edit YourContainerName
lxc restart YourContainerName
lxc config set yourContainerName security.privileged true
lxc config device add privilegedContainerName shareName disk source=path1 path=path2
sudo chmod -R 777 path1
yay -S xrdp xorgxrdp
allowed_users=anybody
needs_root_rights=auto
auth include system-remote-login
account include system-remote-login
password include system-remote-login
session include system-remote-login
找到这行
local dbus_args=(--sh-syntax --e10.240.135.158xit-with-session)
改为
local dbus_args=(--sh-syntax)
sudo systemctl enable xrdp
sudo systemctl enable xrdp-sesman
sudo systemctl start xrdp
sudo systemctl start xrdp-sesman
sudo mkdir /data1
sudo mount /dev/sda1 /data1
sudo mkfs -t ext4 /dev/sdb
sudo mkdir /data2
sudo mount /dev/sdb /data2
cd /data2
sudo tar -cvzf rootfs.tar.gz -C /data1 .
architecture: "x86_64"
creation_date: 1584170077 # To get current date in Unix time, use
date +%scommand
properties:
architecture: "x86_64"
description: "manjaro_i3wm_xrdp"
os: "manjarolinux"
release: "kyina"
tar -cvzf metadata.tar.gz metadata.yaml
lxc image import metadata.tar.gz rootfs.tar.gz --alias manjaro_demo
lxc exec manjaro-test bash
ip a
ip link set eth0 up
dhcpcd eth0
systemctl enable dhclient