Django中實(shí)現(xiàn)一個高性能計(jì)數(shù)器(Counter)實(shí)例

字號:


    計(jì)數(shù)器(Counter)是一個非常常用的功能組件,這篇blog以未讀消息數(shù)為例,介紹了在 Django中實(shí)現(xiàn)一個高性能計(jì)數(shù)器的基本要點(diǎn)。
    故事的開始:.count()
    假設(shè)你有一個Notification Model類,保存的主要是所有的站內(nèi)通知:
    代碼如下:
    class Notification(models.Model):
        """一個簡化過的Notification類,擁有三個字段:
        - `user_id`: 消息所有人的用戶ID
        - `has_readed`: 表示消息是否已讀
        """
        user_id = models.IntegerField(db_index=True)
        has_readed = models.BooleanField(default=False)
    理所當(dāng)然的,剛開始你會通過這樣的查詢來獲取某個用戶的未讀消息數(shù):
    代碼如下:
    # 獲取ID為3074的用戶的未讀消息數(shù)
    Notification.objects.filter(user_id=3074, has_readed=False).count()
    當(dāng)你的Notification表比較小的時候,這樣的方式?jīng)]有任何的問題,但是慢慢的,隨著業(yè)務(wù)量 的擴(kuò)大。消息表里面有了 上億條數(shù)據(jù) 。很多懶惰的用戶的未讀消息數(shù)都到了上千條。
    這時候,你就需要實(shí)現(xiàn)一個計(jì)數(shù)器,讓這個計(jì)數(shù)器來統(tǒng)計(jì)每個用戶的未讀消息數(shù),這樣 比起之前的 count() ,我們只需要執(zhí)行一條簡單的主鍵查詢(或者更優(yōu))就可以拿到實(shí)時的未讀消息數(shù)了。
    更優(yōu)的方案:建立計(jì)數(shù)器
    首先,讓我們得建立一個新表來存儲每個用戶的未讀消息數(shù)。
    代碼如下:
    class UserNotificationsCount(models.Model):
        """這個Model保存著每一個用戶的未讀消息數(shù)目"""
        user_id = models.IntegerField(primary_key=True)
        unread_count = models.IntegerField(default=0)
        def __str__(self):
            return '<UserNotificationsCount %s: %s>' % (self.user_id, self.unread_count)
    我們?yōu)槊恳粋€注冊用戶提供了一條對應(yīng)的 UserNotificationsCount 記錄來保存他的未讀消息數(shù)。 每次獲取他的未讀消息數(shù)的時候,只需要 UserNotificationsCount.objects.get(pk=user_id).unread_count 就可以了。
    接下來,問題的重點(diǎn)來了,我們?nèi)绾沃朗裁磿r候應(yīng)該更新我們的計(jì)數(shù)器?Django在這方面提供了什么捷徑嗎?
    挑戰(zhàn):實(shí)時更新你的計(jì)數(shù)器
    為了讓我們的計(jì)數(shù)器正常的工作,我們必須實(shí)時的更新它,這包括:
    1.當(dāng)有新的未讀消息過來的時候,為計(jì)數(shù)器 +1
    2.當(dāng)消息被異常刪除時,如果關(guān)聯(lián)的消息為未讀,為計(jì)數(shù)器 -1
    3.當(dāng)閱讀完一個新消息的時候,為計(jì)數(shù)器 -1
    讓我們一個一個來解決這些情況。
    在拋出解決方案之前,我們需要先介紹Django中的一個功能: Signals ,Signals是django提供的一個事件通知機(jī)制,它可以讓你在監(jiān)聽某些自定義或者 預(yù)設(shè)的事件,當(dāng)這些事件發(fā)生的時候,調(diào)用實(shí)現(xiàn)定義好的方法。
    比如 django.db.models.signals.pre_save & django.db.models.signals.post_save 表示的是 某個Model調(diào)用save方法之前和之后會觸發(fā)的事件,它和Database提供的觸發(fā)器在功能上有一點(diǎn)相似。
    關(guān)于Signals更多的介紹可以參考官方文檔,下面讓我們來看看Signals能給我們的計(jì)數(shù)器帶來什么好處。
    1. 當(dāng)有新的消息過來的時候,為計(jì)數(shù)器 +1
    這個情況應(yīng)該是最好處理的,使用Django的Signals,只需要短短幾行代碼,我們便可以實(shí)現(xiàn)這種 情況下的計(jì)數(shù)器更新:
    代碼如下:
    from django.db.models.signals import post_save, post_delete
    def incr_notifications_counter(sender, instance, created, **kwargs):
        # 只有當(dāng)這個instance是新創(chuàng)建,而且has_readed是默認(rèn)的false才更新
        if not (created and not instance.has_readed):
            return
        # 調(diào)用 update_unread_count 方法來更新計(jì)數(shù)器 +1
        NotificationController(instance.user_id).update_unread_count(1)
    # 監(jiān)聽Notification Model的post_save信號
    post_save.connect(incr_notifications_counter, sender=Notification)
    這樣,每當(dāng)你使用 Notification.create 或者 .save() 之類的方法創(chuàng)建新通知 時,我們的 NotificationController 便會得到通知,為計(jì)數(shù)器 +1。
    但是請注意,因?yàn)槲覀兊挠?jì)數(shù)器是基于Django的signals,如果你的代碼里面有地方 在使用原始sql,沒有通過Django ORM方法來添加新通知的話,我們的計(jì)數(shù)器是不會得到 通知的,所以,最好規(guī)范所有的新通知建立方式,比如使用同一個API。
    2. 當(dāng)消息被異常刪除時,如果關(guān)聯(lián)的消息為未讀,為計(jì)數(shù)器 -1
    有了第一個的經(jīng)驗(yàn),這種情況處理起來也比較簡單,只需要監(jiān)控Notification的post_delete 信號就可以了,下面是一段實(shí)例代碼:
    代碼如下:
    def decr_notifications_counter(sender, instance, **kwargs):
        # 當(dāng)刪除的消息還沒有被讀過時,計(jì)數(shù)器 -1
        if not instance.has_readed:
            NotificationController(instance.user_id).update_unread_count(-1)
    post_delete.connect(decr_notifications_counter, sender=Notification)
    至此,Notification的刪除事件也能正常的更新我們的計(jì)數(shù)器了。
    3. 當(dāng)閱讀一個新消息的時候,為計(jì)數(shù)器 -1
    接下來,當(dāng)用戶閱讀某條未讀消息的時候,我們也需要更新我們的未讀消息計(jì)數(shù)器。 你可能會說,這有什么難的?我只要在我的閱讀消息的方法里面,手動更新我的計(jì)數(shù)器不就好了?
    比如這樣:
    代碼如下:
    class NotificationController(object):
        ... ...
        def mark_as_readed(self, notification_id):
            notification = Notification.objects.get(pk=notification_id)
            # 沒有必要重復(fù)標(biāo)記一個已經(jīng)讀過的通知
            if notication.has_readed:
                return
            notification.has_readed = True
            notification.save()
            # 在這里更新我們的計(jì)數(shù)器,嗯,我感覺好極了
            self.update_unread_count(-1)
    通過一些簡單的測試,你可以會覺得你的計(jì)數(shù)器工作的非常好,但是,這樣的實(shí)現(xiàn)方式有一個 非常致命的問題, 這個方式?jīng)]有辦法正常處理并發(fā)的請求 。
    打一個比方,你擁有一個id為100的未讀消息對象,這個時候同時有了兩個請求過來,都要標(biāo)記這個通知為已讀:
    代碼如下:
    # 因?yàn)閮蓚€并發(fā)的請求,假設(shè)這兩個方法幾乎同時被調(diào)用
    NotificationController(user_id).mark_as_readed(100)
    NotificationController(user_id).mark_as_readed(100)
    顯而易見的,這兩次方法都會成功的標(biāo)記這條通知為已讀,因?yàn)樵诓l(fā)的情況下, if notification.has_readed 這樣的檢查無法正常工作,所以我們的計(jì)數(shù)器將會被錯誤的 -1 兩次 ,但其實(shí)我們只讀了一條請求。
    那么,這樣的問題應(yīng)該怎么解決呢?
    基本上,解決并發(fā)請求產(chǎn)生的數(shù)據(jù)沖突只有一個辦法: 加鎖 ,介紹兩種比較簡單的解決方案:
    使用 select for update 數(shù)據(jù)庫查詢
    select ... for update 是數(shù)據(jù)庫層面上專門用來解決并發(fā)取數(shù)據(jù)后再修改的場景的,主流的關(guān)系數(shù)據(jù)庫 比如mysql、postgresql都支持這個功能, 新版的Django ORM甚至直接提供了這個功能的shortcut 。 關(guān)于它的更多介紹,你可以搜索你使用的數(shù)據(jù)庫的介紹文檔。
    使用 select for update 后,我們的代碼可能會變成這樣:
    代碼如下:
    from django.db import transaction
    class NotificationController(object):
        ... ...
        def mark_as_readed(self, notification_id):
            # 手動讓select for update和update語句發(fā)生在一個完整的事務(wù)里面
            with transaction.commit_on_success():
                # 使用select_for_update來保證并發(fā)請求同時只有一個請求在處理,其他的請求
                # 等待鎖釋放
                notification = Notification.objects.select_for_update().get(pk=notification_id)
                # 沒有必要重復(fù)標(biāo)記一個已經(jīng)讀過的通知
                if notication.has_readed:
                    return
                notification.has_readed = True
                notification.save()
                # 在這里更新我們的計(jì)數(shù)器,嗯,我感覺好極了
                self.update_unread_count(-1)
    除了使用``select for update``這樣的功能,還有一個比較簡單的辦法來解決這個問題。
    使用update來實(shí)現(xiàn)原子性修改
    其實(shí),更簡單的辦法,只要把我們的數(shù)據(jù)庫改成單條的update就可以解決并發(fā)情況下的問題了:
    代碼如下:
    def mark_as_readed(self, notification_id):
            affected_rows = Notification.objects.filter(pk=notification_id, has_readed=False)\
                                                .update(has_readed=True)
            # affected_rows將會返回update語句修改的條目數(shù)
            self.update_unread_count(affected_rows)
    這樣,并發(fā)的標(biāo)記已讀操作也可以正確的影響到我們的計(jì)數(shù)器了。
    高性能?
    我們在之前介紹了如何實(shí)現(xiàn)一個能夠正確更新的未讀消息計(jì)數(shù)器,我們可能會直接使用UPDATE 語句來修改我們的計(jì)數(shù)器,就像這樣:
    代碼如下:
    from django.db.models import F
    def update_unread_count(self, count)
        # 使用Update語句來更新我們的計(jì)數(shù)器
        UserNotificationsCount.objects.filter(pk=self.user_id)\
                                      .update(unread_count=F('unread_count') + count)
    但是在生產(chǎn)環(huán)境中,這樣的處理方式很有可能造成嚴(yán)重的性能問題,因?yàn)槿绻覀兊挠?jì)數(shù)器在頻繁 更新的話,海量的Update會給數(shù)據(jù)庫造成不小的壓力。所以為了實(shí)現(xiàn)一個高性能的計(jì)數(shù)器,我們 需要把改動暫存起來,然后批量寫入到數(shù)據(jù)庫。
    使用 redis 的 sorted set ,我們可以非常輕松的做到這一點(diǎn)。
    使用sorted set來緩存計(jì)數(shù)器改動
    redis是一個非常好用的內(nèi)存數(shù)據(jù)庫,其中的sorted set是它提供的一種數(shù)據(jù)類型:有序集合, 使用它,我們可以非常簡單的緩存所有的計(jì)數(shù)器改動,然后批量回寫到數(shù)據(jù)庫。
    代碼如下:
    RK_NOTIFICATIONS_COUNTER = 'ss_pending_counter_changes'
    def update_unread_count(self, count):
        """修改過的update_unread_count方法"""
        redisdb.zincrby(RK_NOTIFICATIONS_COUNTER, str(self.user_id), count)
    # 同時我們也需要修改獲取用戶未讀消息數(shù)方法,使其獲取redis中那些沒有被回寫
    # 到數(shù)據(jù)庫的緩沖區(qū)數(shù)據(jù)。在這里代碼就省略了
    通過以上的代碼,我們把計(jì)數(shù)器的更新緩沖在了redis里面,我們還需要一個腳本來把這個緩沖區(qū) 里面的數(shù)據(jù)定時回寫到數(shù)據(jù)庫中。
    通過自定義django的command,我們可以非常輕松的做到這一點(diǎn):
    代碼如下:
    # File: management/commands/notification_update_counter.py
    # -*- coding: utf-8 -*-
    from django.core.management.base import BaseCommand
    from django.db.models import F
    # Fix import prob
    from notification.models import UserNotificationsCount
    from notification.utils import RK_NOTIFICATIONS_COUNTER
    from base_redis import redisdb
    import logging
    logger = logging.getLogger('stdout')
    class Command(BaseCommand):
        help = 'Update UserNotificationsCounter objects, Write changes from redis to database'
        def handle(self, *args, **options):
            # 首先,通過 zrange 命令來獲取緩沖區(qū)所有修改過的用戶ID
            for user_id in redisdb.zrange(RK_NOTIFICATIONS_COUNTER, 0, -1):
                # 這里值得注意,為了保證操作的原子性,我們使用了redisdb的pipeline
                pipe = redisdb.pipeline()
                pipe.zscore(RK_NOTIFICATIONS_COUNTER, user_id)
                pipe.zrem(RK_NOTIFICATIONS_COUNTER, user_id)
                count, _ = pipe.execute()
                count = int(count)
                if not count:
                    continue
                logger.info('Updating unread count user %s: count %s' % (user_id, count))
                UserNotificationsCount.objects.filter(pk=obj.pk)\
                                              .update(unread_count=F('unread_count') + count)
    之后,通過 python manage.py notification_update_counter 這樣的命令就可以把緩沖區(qū) 里面的改動批量回寫到數(shù)據(jù)庫了。我們還可以把這個命令配置到crontab中來定義執(zhí)行。
    總結(jié)
    文章到了這里,一個簡單的“高性能”未讀消息計(jì)數(shù)器算是實(shí)現(xiàn)完了。說了這么多,其實(shí)主要的知識點(diǎn)就是這么些:
    1.使用Django的signals來獲取Model的新建/刪除操作更新
    2.使用數(shù)據(jù)庫的select for update來正確處理并發(fā)的數(shù)據(jù)庫操作
    3.使用redis的sorted set來緩存計(jì)數(shù)器的修改操作
    希望能對您有所幫助。 :)