项目原因,最近在对MongoDB进行数据存储优化
 
原有问题:
日志数据量比较大,存到一张表,需要手工定时删除数据,且删除数据时间按天算
数据会定时打包到HDFS,查询时间很慢,需要优化
机器内存占用过大,副本集主节点内存占用超过90%,其他节点超过80%
 
解决方法:
对日志进行按天写表,定时删除历史表
对日志表增加TTL索引,定时删除过期数据
一次创建自动增加索引,索引查询
 
 
本次问题来自增加索引,数据量大表的,增加索引方式,应该为后台增加[background: true],TTL TimeToLive 创建方式为增加expireAfterSeconds,单位为秒
语句如下:
 db.KafkaFpInfo.createIndex({"TrackTime":1},{background: true,expireAfterSeconds: 1728000})
1、执行语句后,发现主节点,已经看到索引生成进度日志,服务器内存正常,CPU从100%升级到300%左右;
2、看到主节点索引生成完成后,开始同步从节点
3、此时,主节点日志报错,显示两个从节点心跳丢失;三副本,两个节点丢失,副本集进入恢复模式,废了
4、查看从节点机器进程,发现两台MongoDB进程已经崩溃;尝试启动服务,发现跑索引,跑到10%时,服务返回超时
 
Job for mongodb.service failed because a timeout was exceeded. See "systemctl status mongodb.service" and "journalctl -xe" for details.

查看明细 "systemctl status mongodb.service"
mongodb.service start operation timed out. Terminating.
mongodb.service stop-final-sigterm timed out. Killing.

 

5、查看索引只跑到了10%,猜测是原因是索引未完成,就超时了,尝试对服务增加超时配置;
TimeoutSec=0     # 单位是秒,0为不限制
 
cat /etc/systemd/system/mongodb.service
[Unit]

Description=mongodb_service
After=network.target remote-fs.target nss-lookup.target
[Service]
User=mongodbuser
Group=mongodbuser
# (open files)
LimitNOFILE=64000
Type=forking
ExecStart=/data/mongodb/mongobin/bin/mongod --config /etc/mongodb.conf
ExecReload=/bin/kill -s HUP $MAINPID
ExecStop=/data/mongodb/mongobin/bin/mongod --shutdown --config /etc/mongodb.conf
PrivateTmp=true
TimeoutSec=0     # 单位是秒,0为不限制

[Install]
WantedBy=multi-user.target

 

6、再次重启从节点mongoDB服务,日志显示索引生成中,直到报索引生成100%,启动服务命令未再报超时,服务启动成功。
 
正常情况下,该问题应该是解决了;但又有的如下的报错:
“could not find member to sync from” 

 

猜测可能是同步出问题了。
尝试关闭一个从节点的mongoDB服务,删除该从节点的上数据。让数据重新同步过来。
因数据比较大,启动后IO持续比较高。  [用iotop 查看磁盘IO]
 
经过漫长的几小时,这个从节点终于恢复了。