dongzide 发表于 2013-2-20 23:16 
有这么复杂么?
http://im.qq.com/online/index.shtml
1, 数据是qq自己的, 而且这部分只是统计qq在线
2, 统计qq在线人数只需要那几(十/百/千)组服务器在用户发现qq上下(包括超时)线状态的时候向归并服务器(组)发生状态而已, 但是你需要的是挖掘日志
3, 就算这样qq也得延时1分钟出结果
1, ISP不可能给你剥离出你需要的日志., 因为开销太大, 各级ISP raw logs总量可能是pb/秒这个级别, 不说分析, 怎么传输想过么.......
2, 假设ISP给你剥离出你需要的。 就你看上的那些站, 日志加起来每秒也几十G~几百G这个量吧 , 国内几个重部署hadoop的公司, 比如度娘,阿里啊, 秒处理量也就在x Gb/s.....
话说不差钱不差人的alexa摸了那么多年都没敢搞的东西, 你怎么想得出来....... |