博客
关于我
布隆过滤器,Redis之 bitmap,场景题【如果微博某个大V发了一条消息,怎么统计有多少人看过了】
阅读量:832 次
发布时间:2019-03-26

本文共 3269 字,大约阅读时间需要 10 分钟。

如何统计微博大V的消息阅读人数?从技术实现的角度浅析

在一次面试中,面试官提出了一个看似简单却颇具挑战性的技术问题:“如何统计微博大V发布的消息有多少人阅读?”面对这个问题,我一时间有些无所适从,但经过老干部的指导,我逐渐找到了答案。这篇文章将详细讲述我思考过程中的重点内容,以及相关技术实现的方法。

问题分析

每一个访问记录自然会被采集,但在页面展示时直接从数据库统计显然是不可行的。最初想到使用Redis的Set数据结构存储用户ID,但这会导致内存占用过大,难以承受。虽然解决方案本身正确,但并未充分优化。

Bitmap数据结构:高效的解决方案

Redis中的Bitmap数据结构是一个高效的选择。它通过二进制位存储布尔值信息,非常适合这种统计场景。其工作原理为:每条消息生成一个唯一ID作为键,对应的用户ID作为偏移量存储在二进制位中,1表示阅读,0表示未阅读。

基本命令

  • 插入数据

    setbit bitmap001 10000 1

    这个命令将用户ID偏移量10000位置的值设置为1。

  • 查询数据

    getbit bitmap001 10000

    获取指定位置的值,默认返回0。

  • 统计数据

    bitcount bitmap001
    bitcount bitmap001 0 100000

    返回指定范围内1的数量,支持默认全局统计。

与Set的对比

虽然Set可以实现同样的功能,但从内存消耗和运行效率上看,Bitmap优于Set。具体对比如下:

  • 内存消耗

    Bitmap占用的内存与其偏移量的数量有关,而Set则存储所有元素,这在大量数据时尤为明显。

  • 性能对比

    基于 Redis 提供的测试,Set在特定查询场景下表现稍好,但笼统对比并不足以说明问题。

布隆过滤器:解决大规模数据存储问题

布隆过滤器(Bloom Filter)是一种优化数据存储的技术,常用于大数据场景。其核心思想为:通过多次哈希计算生成虚拟索引,这样可以在批量增删改时减少实存操作的次数,从而提升系统性能。

技术原理

布隆过滤器的核心参数包括哈希函数和存储大小。哈希函数需要尽可能防止冲突,存储大小决定了虚拟索引的范围。如何搭建布隆过滤器?简单来说,首先定义哈希函数,将输入数据转换为多个虚拟索引,存储到前一定大小的Bitmap中。

代码实现

以下是Java实现的布隆过滤器示例代码:

import org.springframework.data.redis.core.RedisTemplate;
import org.springframework.data.redis.core.ValueOperations;
public class BloomFilter {
private RedisTemplate redisTemplate;
private final String filterKey;
private final int size;
private final int[] hashFunctions;
public BloomFilter(String filterKey, int size, int numHashFunctions) {
this.filterKey = filterKey;
this.size = size;
this.hashFunctions = new int[numHashFunctions];
initializeHashFunctions();
}
private void initializeHashFunctions() {
for (int i = 0; i < hashFunctions.length; i++) {
hashFunctions[i] = (int) (Math.random() * Integer.MAX_VALUE);
}
}
public void add(String element) {
for (int hashFunction : hashFunctions) {
int index = Math.abs(hashFunction % size);
redisTemplate.opsForValue().setBit(filterKey, index, true);
}
}
public boolean contains(String element) {
for (int hashFunction : hashFunctions) {
int index = Math.abs(hashFunction % size);
if (!redisTemplate.opsForValue().getBit(filterKey, index)) {
return false;
}
}
return true;
}
public void test() {
BloomFilter bloomFilter = new BloomFilter("bloomFilter", 10000, 3);
bloomFilter.add("element1");
bloomFilter.add("element2");
bloomFilter.add("element3");
System.out.println(bloomFilter.contains("element1")); // true
System.out.println(bloomFilter.contains("element4")); // false
}
}

哈希函数的选择

在实际应用中,选择好的哈希函数尤为重要。现实中常用Murmur Hash算法,这种算法不仅一致性好,还能显著减少冲突概率。以下是Murmur3算法的Java实现示例:

// 32位哈希函数
public static long hash_x86_32(byte[] data, int length, int hash) {
return murmurHash32(data, length, hash);
}
// 64位哈希函数
public static long[] hash_x64_128(byte[] data, int length, int hash) {
return murmurHash64_128(data, length, hash);
}

结论

通过上述分析,我们可以清晰地看出:在统计微博大V消息阅读人数这一场景下,Redis的Bitmap数据结构是一个理想的选择。它既保证了高效性,又有效控制了内存占用。尽管在某些场景下,Set数据结构也能接受,但经过性能对比,Bitmap的优势更加明显。

需要注意的是,布隆过滤器虽然在这里未直接应用,但它为类似的问题提供了灵感。此外,选择合适的哈希算法对于提高布 lodash过滤器的性能至关重要。

通过这次思考,我对解决类似网络流量统计问题有了更深入的理解,也对Redis的高级数据结构有了更全面的认识。这次经历让我意识到,在面对技术难题时,首先要明确需求,其次要熟悉可能用到的工具,最后要领悟其背后的原理。希望未来能有更多类似的挑战,持续提升自己的技术水准。

转载地址:http://gfmyk.baihongyu.com/

你可能感兴趣的文章
mysql 存储过程 注入_mysql 视图 事务 存储过程 SQL注入
查看>>
MySQL 存储过程参数:in、out、inout
查看>>
mysql 存储过程每隔一段时间执行一次
查看>>
mysql 存在update不存在insert
查看>>
Mysql 学习总结(86)—— Mysql 的 JSON 数据类型正确使用姿势
查看>>
Mysql 学习总结(87)—— Mysql 执行计划(Explain)再总结
查看>>
Mysql 学习总结(88)—— Mysql 官方为什么不推荐用雪花 id 和 uuid 做 MySQL 主键
查看>>
Mysql 学习总结(89)—— Mysql 库表容量统计
查看>>
mysql 实现主从复制/主从同步
查看>>
mysql 审核_审核MySQL数据库上的登录
查看>>
mysql 导入 sql 文件时 ERROR 1046 (3D000) no database selected 错误的解决
查看>>
mysql 导入导出大文件
查看>>
MySQL 导出数据
查看>>
mysql 将null转代为0
查看>>
mysql 常用
查看>>
MySQL 常用列类型
查看>>
mysql 常用命令
查看>>
Mysql 常见ALTER TABLE操作
查看>>
MySQL 常见的 9 种优化方法
查看>>
MySQL 常见的开放性问题
查看>>