实现MySQL数据库到Redis,以及HBASE的全量,以及增量同步
- 支持通过正则表达式指定需要导出的db以及表
- bus程序无状态,每一行有自己的位置点,位置点信息存储在下游db中
- 增量同步通过解析MySQL的行复制日志,完成增量数据的同步
- 通过编写so,实现转换的业务逻辑
- 上下游ip,端口,需要导出的schema信息都存储在configservice中,configservice是一个用redis作为存储的基于django的pythonweb程序
程序作为基础组件,在新浪以及微博的数据运维中,其可靠性得到了充分验证
使用方式如下:
一. 编译程序
- 代码中包含了链接mysql以及hbase的库,目前支持centos5/centos6,centos7暂不支持
- 进入mybus目录,执行make命令,如果make失败,请将结果贴出来
二. 启动configservice
2. redis官网下载redis随便一个版本, 安装,并运行,得到redis_ip, redis_port,暂不支持rediscluster
3. 进入bus_manager/business目录,修改views.py文件,填入具体的redis_ip, redis_port
4. 然后返回bus_manger目录,执行nohup python manage.py runserver 0.0.0.0:8888 &
三. 配置msg_test模拟业务
- 打开浏览器,执行http://host:8888, 打开configservice页面
- 添加业务msg_test
- 配置msg_test,配置较为复杂,后面会详细介绍,字符集转换慎用,最好下游和上游数据集一致
- 配置schema的时候,db和table的名字请用正则表达式,对于列,请采用c1#c2#c3的形式,统计开关,用来确定这个表的数据是否要统计
四. 编译转换插件并copy到具体位置
- 进入myso/msg 目录下,执行make命令,生成libprocess.so
- 进入src目录,执行mkdir msg && cp -ap ../myso/msg/libprocess.so msg
- 进入src目录,执行/usr/local/databus/bus -x msg_test -p 18889 -m 127.0.0.1:9999
五. 建立上游数据库,我们选用的mysql版本为5.5
- 启动mysql数据库,建立要导出的heart_beat表
六. 建立下游数据库,redis数据库版本没有具体要求
- 启动redis数据库
七. 根据设定配置,执行命令
- 在configservice页面选择info source,检查下上下游配置是否正确
- 在configservice页面选择info matchschema,检查导出对应的schema信息是否正确
- 然后执行启动全量复制就开始全量复制,全量后要增量复制,修改选项,再执行启动增量复制就可以了
- 选择info, 检查是否有error信息
这里说的这些对于真正要run起来还是不太够的,我们的思路其实很清晰
- 所有的配置都要存在configservice中,所以所有的配置都在页面上完成,配置有些复杂
- bus启动不需要配置文件,但是需要制定configservice的dns和port
- 我们的底层运维系统采用了salt, 我们的web服务器运行在master上,所以bus的启动,日志查看都在web页面上完成, 同时bus,支持采用redis协议对其监控,启动关闭传输,关闭程序等操作
关于同步到hbase的问题
- 支持的hbase版本0.96
- 需要hbase开启thrift server
- 支持配置多个thrift server,只要有一个thrift server活着,就能够保持同步
关于mysql部署问题
- 强烈建议采用两级结构,第一级mysql主库,开启行复制,然后直接挂databus,这样的好处是如果mysql crash, 方便恢复,如果采用三级结构,恢复的时候相当复杂
关于同步点的问题
1.同步点我们保存在下游数据库中,如hbase就保存在下游hbase中,需要单独建一个表databus, 保存位置点信息,如
下游是redis,就会直接将位置点存在redis中,这样位置点和数据库放在一个存储中,即使出现了问题,进行了恢复 数据和位置点也会保持一致