报错代码:
AMD 处理器在使用 KVM 开启虚拟机时可能会出现此类报错:
failed to set MSR 0xe1 to 0x0
解决方法:
# echo Y > /sys/module/kvm/parameters/ignore_msrs
AMD 处理器在使用 KVM 开启虚拟机时可能会出现此类报错:
failed to set MSR 0xe1 to 0x0
# echo Y > /sys/module/kvm/parameters/ignore_msrs
# /etc/init.d/vmware start
# vmplayer
将数据进行切片,对每份切片进行 Hash 取值,并对获取的 Hash 值除以存储节点的数量以取余,余数是多少就将此切片存在第几个 OSD 节点里,主要是 Swift 在使用。
如果要增加存或减少存储节点,需要对所有已存储数据切片的 Hash 值重新取余,大概 90% 的数据需要重新均衡数据(rebalance)。
1) 给电脑也计算 Hash 值(可以是给电脑名计算 Hash 值,也可以给 IP 地址计算 Hash 值)
2) 再给数据也计算 Hash 值,将数据存到比它的 Hash 值大,且与它的差值最小的一台电脑上,如果没有 Hash 值比它大的电脑就直接将数据存在 Hash 值最小的电脑上
3) 整个架构类似一个环
1) 电脑太少时切换数据也会有较大的数据量,但是可以多设置几个虚拟节点,给以后新增加的节点使用,虚拟节点里的数据会影射到对应的物理节点里面去
2) 电脑太少时,两台电脑的 Hash 值比较接近导致,数据分配极度不平均
(注意:在开始创建数据架构时,要评估未来数据的规模,如果最后要添加的电脑数量超过了虚拟节点数量,那么这个架构就不能使用了。此时只能备份数据,然后新建一个架构出来)
CRUSH(Controlled Replication Under Scalable Hashing)算法,在可扩展 Hash 算法下的可控制复制,主要是 Ceph 在使用。
由 Ceph 的 OSD(Object Storage Deivces)组成。
由 Ceph 的 PG(Placement Group)归置组组成。
在 OSD 节点上虚拟出多个 PG,每个 PG 默认会被指定对应 3 个 OSD 节点(每个 OSD 节点同时可以属于多个 PG),其中第一个 OSD 节点为主要(primary)的硬盘,其他两 OSD 节点为从(second)硬盘,PG 会对应几个 OSD 节点取决于 Ceph 的存储副本被设置了几份。
1) 给每个 OSD 节点设置一个权重值,OSD 节点的容量越大则其权重值越大
2) 主要(primary)硬盘的 OSD 节点:将 PG 的 ID 值和 OSD 的 ID 值组合在一起并计算 Hash 值,将得到的 Hash 值乘以此 OSD 节点的权重,当最终获得的值最大时,此 PG 就和此 OSD 绑定在一起
3) 第一个从(second)硬盘的 OSD 节点:将 PG 的 ID 值逐一和 OSD 的 ID 值和一个随机的常数组合在一起并计算 Hash 值(这个值在 Ceph 的代码里被叫做 draw),将得到的 Hash 值乘以此 OSD 节点的权重,当最终获得的值最大时(这个值在 Ceph 的源代码里叫做 straw)则此 PG 就和此 OSD 绑定在一起
4) 第二个从(second)硬盘的 OSD 节点:将 PG 的 ID 值逐一和 OSD 的 ID 值和上一个随机常数加 1 的和组合在一起并计算 Hash 值(这个值在 Ceph 的代码里被叫做 draw),将得到的 Hash 值乘以此 OSD 节点的权重,当最终获得的值最大时(这个值在 Ceph 的源代码里叫做 straw),则此 PG 就和此 OSD 绑定在一起(如果找到的 OSD 节点和前面的 OSD 节点重复,则将这个随机常数再加 1 并进行重复操作,最终获得和前面不通的 OSD 节点为止)
……
由池组成。
1) 在 PG 上虚拟出多个池,每个池对应多个 PG,数据可以存储到指定的池里
2) 总硬盘容量有多大,每个池最大可以使用的容量就有多大,但是如果如果一个池使用了一部分容量,其他的池就要少使用一部分容量
由数据组成。
1) 对要放入某个池里的数据进行切片,默认每片 4M
2) 对每份切片进行 Hash 取值,并对获取的 Hash 值除以这个池里 PG 节点的数量以取余,余数是多少就存在第几个 OSD 节点里
Ceph 是一种分布式存储架构和技术。此项目是 2004 年由 Sage Weil 在加州大学 Santa Cruz 分校攻读博士期间的创建和研究的课题,并于 2006 年将其开源,同时成立 Inktank 公司专注 Ceph 的研发。2014 年 5 月 Inktank 公司被 Red Hat 收购。
1) 高性能(硬盘越多性能越高,所有硬盘可以同时读写)
2) 高可用(硬盘越多高可用越高)
1) 自己写程序:通过 C C++ Java Python Ruby PHP 等语言写程序调用 Ceph 底层存储 LIBRADOS,此方法性能最高
2) 自己写脚本:写对象脚本,通过 RGW(RADOSGW)对象存储网关的 Rest API 接口去访问 Ceph 的底层存储 LIBRADOS,此方法性能第二高
3) 挂载块存储:通过 Linux 内核或者 KVM 等虚拟机存储驱动访问 Ceph 的块存储,此方法性能第三高
4) 挂载文件系统:通过 Linux 内核(POSIX 命令)挂载 Ceph 的文件系统存储,此方法性能最弱
1) OSD(Object Storage Deivces):负责存储、复制、恢复数据等,默认要有 3 台以上才能实现高可用,因为 Ceph 默认有三副本
2) MON(Monitor):负责监控集群状态制作和更新存储地图(map),供客户端从下载,在生产环境里必须要有 3 台以上,且最好是奇数台,因为必须遵循过半原则
3) MDS(Metadata Servers):实现文件系统存储,允许客户端通过 Linux 内核(POSIX 命令)挂载 Ceph 的文件系统存储
4) RGW(RADOSGW):实现对象存储网关,允许客户端通过 RGW(RADOSGW)对象存储网关的 Rest API 接口去访问 Ceph 的底层存储 LIBRADOS
5) 客户端:使用从 MON 下载和更新的存储地图,通过算法,直接从 OSD 访问数据
自己写程序、自己写脚本、挂载块存储、挂载文件系统 4 种使用方式。
RADOS,基于对象的存储(比我们平时所说的对象存储更原始,更底层),通过软件实现自我检查、自我备份和自我修复的功能。
File
Cut1(Objects1) Cut2(Objects2) Cut3(Objects3)......
choice Pool
Pool1 Pool2
PG1 PG2 PG2 PG3
OSD1 OSD2 OSD3 OSD2 OSD5 OSD3 OSD1 OSD4 OSD3 OSD4 OSD5 OSD3
Disk Disk Disk Disk Disk Disk Disk Disk Disk Disk Disk Disk
CRUSH(Controlled Replication Under Scalable Hashing)算法,在可扩展 Hash 算法下的可控制复制
由 OSD(Object Storage Deivces)组成。
由 PG(Placement Group)归置组组成。
在 OSD 节点上虚拟出多个 PG,每个 PG 默认会被指定对应 3 个 OSD 节点(每个 OSD 节点同时可以属于多个 PG),其中第一个 OSD 节点为主要(primary)的硬盘,其他两 OSD 节点为从(second)硬盘,PG 会对应几个 OSD 节点取决于 Ceph 的存储副本被设置了几份。
1) 给每个 OSD 节点设置一个权重值,OSD 节点的容量越大则其权重值越大
2) 主要(primary)硬盘的 OSD 节点:将 PG 的 ID 值和 OSD 的 ID 值组合在一起并计算 Hash 值,将得到的 Hash 值乘以此 OSD 节点的权重,当最终获得的值最大时,此 PG 就和此 OSD 绑定在一起
3) 第一个从(second)硬盘的 OSD 节点:将 PG 的 ID 值逐一和 OSD 的 ID 值和一个随机的常数组合在一起并计算 Hash 值(这个值在 Ceph 的代码里被叫做 draw),将得到的 Hash 值乘以此 OSD 节点的权重,当最终获得的值最大时(这个值在 Ceph 的源代码里叫做 straw)则此 PG 就和此 OSD 绑定在一起
4) 第二个从(second)硬盘的 OSD 节点:将 PG 的 ID 值逐一和 OSD 的 ID 值和上一个随机常数加 1 的和组合在一起并计算 Hash 值(这个值在 Ceph 的代码里被叫做 draw),将得到的 Hash 值乘以此 OSD 节点的权重,当最终获得的值最大时(这个值在 Ceph 的源代码里叫做 straw),则此 PG 就和此 OSD 绑定在一起(如果找到的 OSD 节点和前面的 OSD 节点重复,则将这个随机常数再加 1 并进行重复操作,最终获得和前面不通的 OSD 节点为止)
5) 第三个从(second)硬盘的 OSD 节点:仿照第二个从(second)硬盘的 OSD 节点方式以此类推
由池组成。
1) 在 PG 上虚拟出多个池,每个池对应多个 PG,数据可以存储到指定的池里
2) 总硬盘容量有多大,每个池最大可以使用的容量就有多大,但是如果如果一个池使用了一部分容量,其他的池就要少使用一部分容量
由数据组成。
1) 对要放入某个池里的数据进行切片,默认每片 4M
2) 对每份切片进行 Hash 取值,并对获取的 Hash 值除以这个池里 PG 节点的数量以取余,余数是多少就存在第几个 OSD 节点里
1) 客户端从 MON 上下载最新的存储地图(map)
2) 存储地图(map)把集群里所有 MON、OSD 和 MDS 的信息告诉客户端,但是客户端依然不知道想要找的数据存放在哪
3) 客户端通过 CRUSH 计算出所需要读写的数据存放的 OSD 节点位置
4) 客户端直接在 OSD 节点位置上读写数据
5) 用户只需要把数据数据写入主要 OSD 节点硬盘上,然后 Ceph 自动同步给其他的从 OSD 节点硬盘上
1) PG 的个数肯定要大于 OSD 节点的数量,在生产的环境中 PG 设计的数量往往会远远大于 OSD 节点的数量,以满足未来可能几年的需求,可能会在 3 个硬盘上添加上百个 PG
2) 当增加存或减少存储节点时,PG 的数量不会发生变化,只有 PG 对应 OSD 节点有变化的数据才会需要重新均衡数据(rebalance)的数据
3) 当增加存或减少 PG 数量时,就需要像传统的 Hash 存储算法那样,对所有已存储数据切片的 Hash 值重新取余,大概 90 % 的数据需要重新均衡数据(rebalance)
在创建 KVM 虚拟机之前要先安装 KVM 并创建 KVM 虚拟网络
在 openSUSE 官网上下载安装系统所需要的镜像:
https://software.opensuse.org/distributions/leap
主要用于批量克隆出新的 KVM 机器,节约创建新虚拟机的时间
(只在真机上执行以下步骤)
# qemu-img create -f qcow2 /var/lib/libvirt/images/template_opensuse_leap_15_10g.qcow2 10G
(只在真机上执行以下步骤)
# ls /var/lib/libvirt/images/ | grep template_opensuse_leap_15_10g.qcow2
(只在真机上执行以下步骤)
# virt-manager
(只在真机上执行以下步骤)
(步骤略)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(注意:虚拟网络必须提前创建好)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
3.2.21 在安装系统的过程中需要注意的内容总结
1) 一定要使用刚刚创建的 template_opensuse_leap_15_10g.qcow2 作为安装虚拟机的硬件文件
2) 虚拟机网络 “0” 要提前创建好
3) 只分一个分区,只设置一个挂载点挂载到根,使用标准硬盘,硬盘格式是 XFS
4) 选择最小化安装系统
步骤四:进入新创建虚拟机修改配置
(只在虚拟机上执行以下步骤)
4.1 添加 Console 配置
4.1.1 修改 grub 内核配置文件
# vi /etc/default/grub
将全部内容修改如下:
# If you change this file, run 'grub2-mkconfig -o /boot/grub2/grub.cfg' afterwards to update
# /boot/grub2/grub.cfg.
# Uncomment to set your own custom distributor. If you leave it unset or empty, the default
# policy is to determine the value from /etc/os-release
GRUB_DISTRIBUTOR=
GRUB_DEFAULT=saved
GRUB_HIDDEN_TIMEOUT=0
GRUB_HIDDEN_TIMEOUT_QUIET=true
GRUB_TIMEOUT=8
GRUB_CMDLINE_LINUX_DEFAULT="splash=silent mitigations=auto quiet"
GRUB_SERIAL_COMMAND="serial --unit=1 --speed=115200"
GRUB_CMDLINE_LINUX="biosdevname=0 net.ifnames=0 console=tty0 console=ttyS0,115200n8"
GRUB_DISABLE_LINUX_UUID="true"
GRUB_ENABLE_LINUX_LABEL="true"
GRUB_DISABLE_RECOVERY="true"
# Uncomment to automatically save last booted menu entry in GRUB2 environment
# variable `saved_entry'
# GRUB_SAVEDEFAULT="true"
#Uncomment to enable BadRAM filtering, modify to suit your needs
# This works with Linux (no patch required) and with any kernel that obtains
# the memory map information from GRUB (GNU Mach, kernel of FreeBSD ...)
# GRUB_BADRAM="0x01234567,0xfefefefe,0x89abcdef,0xefefefef"
#Uncomment to disable graphical terminal (grub-pc only)
GRUB_TERMINAL="gfxterm"
# The resolution used on graphical terminal
#note that you can use only modes which your graphic card supports via VBE
# you can see them in real GRUB with the command `vbeinfo'
GRUB_GFXMODE="auto"
# Uncomment if you don't want GRUB to pass "root=UUID=xxx" parameter to Linux
# GRUB_DISABLE_LINUX_UUID=true
#Uncomment to disable generation of recovery mode menu entries
# GRUB_DISABLE_RECOVERY="true"
#Uncomment to get a beep at grub start
# GRUB_INIT_TUNE="480 440 1"
GRUB_BACKGROUND=
GRUB_THEME=/boot/grub2/themes/openSUSE/theme.txt
SUSE_BTRFS_SNAPSHOT_BOOTING="true"
GRUB_DISABLE_OS_PROBER="false"
GRUB_ENABLE_CRYPTODISK="n"
GRUB_CMDLINE_XEN_DEFAULT="vga=gfx-1024x768x16"
4.1.2 使修改的 grub 内核配置生效
# grub2-mkconfig -o grub
4.2 将系统自动挂载的硬盘从使用 uuid 换成硬件路径
4.2.1 查看根分区的 UUID
# blkid
/dev/vda1: UUID="53ee2f87-89b8-4cd7-a4dc-0957d28f4831" TYPE="xfs" PARTUUID="3d8377ef-01"
(补充:这里的 UUID 是: 53ee2f87-89b8-4cd7-a4dc-0957d28f4831)
4.2.2 在自动挂载文件里将根分区的 UUID 换成硬件路径
# vi /etc/fstab
将以下内容:
......
UUID=53ee2f87-89b8-4cd7-a4dc-0957d28f4831 / xfs defaults 0 0
(补充:这里的 UUID 是: 53ee2f87-89b8-4cd7-a4dc-0957d28f4831)
修改为:
/dev/vda1 / xfs defaults 0 0
4.3 删除不用的软件
# zypper -n rm firewalld-*
4.4 进行分区扩展
4.4.1 安装分区扩展软件
# zypper -n in growpart
4.4.2 给开机自启配置文件相应的权限
# chmod 755 /root/growpart.sh
4.4.3 设置开机自动扩容根目录
4.4.3.1 让 systemctl 管理 /root/growpart.sh 脚本
4.4.3.1.1 创建 systemctl 管理 /root/growpart.sh 脚本的配置文件
# vim /etc/systemd/system/growpart.service
创建以下内容:
[Unit]
Description=growpart
After=default.target
[Service]
Type=oneshot
ExecStart=/root/growpart.sh
[Install]
WantedBy=default.target
4.4.3.1.2 让 systemctl 管理 /root/growpart.sh 脚本
# systemctl daemon-reload
4.4.3.2 设置开机自动扩容根目录
# systemctl enable --now growpart.service
4.5 只使用本地软件源(选做)
4.5.1 禁用所有软件源(选做)
# zypper mr -da
4.5.2 添加本地软件源(选做)
# zypper ar -fcg http://10.0.0.254/openSUSE-Leap-15/ lan
(注意: http://10.0.0.254/openSUSE-Leap-15/ 需要根据真实环境的情况进行更改)
4.5.3 添加本地软件源(选做)
# zypper ref
4.6 修改虚拟机系统的名称
# hostnamectl set-hostname template_opensuse_leap_15_10g
4.7 启用 serial 服务实现通过 virsh console 命令控制虚拟机
# systemctl start serial-getty@ttyS0
# systemctl enable serial-getty@ttyS0
4.8 清除虚拟系统的历史命令
# history -c
4.9 关闭虚拟机
# poweroff
步骤五:此时就可以将此虚拟机的硬件文件作为模板进行批量克隆虚拟机了
(只在真机上执行以下步骤)
(只在真机上执行以下步骤)
1) 一定要使用刚刚创建的 template_opensuse_leap_15_10g.qcow2 作为安装虚拟机的硬件文件
2) 虚拟机网络 “0” 要提前创建好
3) 只分一个分区,只设置一个挂载点挂载到根,使用标准硬盘,硬盘格式是 XFS
4) 选择最小化安装系统
(只在虚拟机上执行以下步骤)
# vi /etc/default/grub
将全部内容修改如下:
# If you change this file, run 'grub2-mkconfig -o /boot/grub2/grub.cfg' afterwards to update
# /boot/grub2/grub.cfg.
# Uncomment to set your own custom distributor. If you leave it unset or empty, the default
# policy is to determine the value from /etc/os-release
GRUB_DISTRIBUTOR=
GRUB_DEFAULT=saved
GRUB_HIDDEN_TIMEOUT=0
GRUB_HIDDEN_TIMEOUT_QUIET=true
GRUB_TIMEOUT=8
GRUB_CMDLINE_LINUX_DEFAULT="splash=silent mitigations=auto quiet"
GRUB_SERIAL_COMMAND="serial --unit=1 --speed=115200"
GRUB_CMDLINE_LINUX="biosdevname=0 net.ifnames=0 console=tty0 console=ttyS0,115200n8"
GRUB_DISABLE_LINUX_UUID="true"
GRUB_ENABLE_LINUX_LABEL="true"
GRUB_DISABLE_RECOVERY="true"
# Uncomment to automatically save last booted menu entry in GRUB2 environment
# variable `saved_entry'
# GRUB_SAVEDEFAULT="true"
#Uncomment to enable BadRAM filtering, modify to suit your needs
# This works with Linux (no patch required) and with any kernel that obtains
# the memory map information from GRUB (GNU Mach, kernel of FreeBSD ...)
# GRUB_BADRAM="0x01234567,0xfefefefe,0x89abcdef,0xefefefef"
#Uncomment to disable graphical terminal (grub-pc only)
GRUB_TERMINAL="gfxterm"
# The resolution used on graphical terminal
#note that you can use only modes which your graphic card supports via VBE
# you can see them in real GRUB with the command `vbeinfo'
GRUB_GFXMODE="auto"
# Uncomment if you don't want GRUB to pass "root=UUID=xxx" parameter to Linux
# GRUB_DISABLE_LINUX_UUID=true
#Uncomment to disable generation of recovery mode menu entries
# GRUB_DISABLE_RECOVERY="true"
#Uncomment to get a beep at grub start
# GRUB_INIT_TUNE="480 440 1"
GRUB_BACKGROUND=
GRUB_THEME=/boot/grub2/themes/openSUSE/theme.txt
SUSE_BTRFS_SNAPSHOT_BOOTING="true"
GRUB_DISABLE_OS_PROBER="false"
GRUB_ENABLE_CRYPTODISK="n"
GRUB_CMDLINE_XEN_DEFAULT="vga=gfx-1024x768x16"
(只在虚拟机上执行以下步骤)
# grub2-mkconfig -o grub
(只在虚拟机上执行以下步骤)
# blkid
/dev/vda1: UUID="53ee2f87-89b8-4cd7-a4dc-0957d28f4831" TYPE="xfs" PARTUUID="3d8377ef-01"
(补充:这里的 UUID 是: 53ee2f87-89b8-4cd7-a4dc-0957d28f4831)
(只在虚拟机上执行以下步骤)
# vi /etc/fstab
将以下内容:
......
UUID=53ee2f87-89b8-4cd7-a4dc-0957d28f4831 / xfs defaults 0 0
(补充:这里的 UUID 是: 53ee2f87-89b8-4cd7-a4dc-0957d28f4831)
修改为:
......
/dev/vda1 / xfs defaults 0 0
(只在虚拟机上执行以下步骤)
# zypper -n rm firewalld-*
(只在虚拟机上执行以下步骤)
# zypper -n in growpart
(只在虚拟机上执行以下步骤)
# chmod 755 /root/growpart.sh
(只在虚拟机上执行以下步骤)
# vim /etc/systemd/system/growpart.service
创建以下内容:
[Unit]
Description=growpart
After=default.target
[Service]
Type=oneshot
ExecStart=/root/growpart.sh
[Install]
WantedBy=default.target
(只在虚拟机上执行以下步骤)
# systemctl daemon-reload
(只在虚拟机上执行以下步骤)
# systemctl enable --now growpart.service
(只在虚拟机上执行以下步骤)
# zypper mr -da
(只在虚拟机上执行以下步骤)
# zypper ar -fcg http://10.0.0.254/openSUSE-Leap-15/ lan
(注意: http://10.0.0.254/openSUSE-Leap-15/ 需要根据真实环境的情况进行更改)
(只在虚拟机上执行以下步骤)
# zypper ref
(只在虚拟机上执行以下步骤)
# hostnamectl set-hostname template_opensuse_leap_15_10g
(只在虚拟机上执行以下步骤)
# systemctl start serial-getty@ttyS0
# systemctl enable serial-getty@ttyS0
(只在虚拟机上执行以下步骤)
# history -c
(只在虚拟机上执行以下步骤)
# poweroff
(只在真机上执行以下步骤)