295. 数据流的中位数

Difficulty

Hard

Tags

堆

URL

https://leetcode-cn.com/problems/find-median-from-data-stream/

Star

中位数是有序列表中间的数。如果列表长度是偶数，中位数则是中间两个数的平均值。

例如，

[2,3,4] 的中位数是 3

[2,3] 的中位数是 (2 + 3) / 2 = 2.5

设计一个支持以下两种操作的数据结构：

void addNum(int num) - 从数据流中添加一个整数到数据结构中。

double findMedian() - 返回目前所有元素的中位数。

示例：


addNum(1)
addNum(2)
findMedian() -> 1.5
addNum(3)
findMedian() -> 2

进阶:

如果数据流中所有整数都在 0 到 100 范围内，你将如何优化你的算法？

如果数据流中 99% 的整数都在 0 到 100 范围内，你将如何优化你的算法？

通过次数80,872提交次数153,706

法1 堆

思路

在数据流中，数据会不断涌入结构中，那么也就面临着需要多次动态调整以获得中位数。因此实现的数据结构需要既需要快速找到中位数，也需要做到快速调整。

首先能想到就是二叉搜索树，在平衡状态下，树顶必定是中间数，然后再根据长度的奇偶性决定是否取两个数。

此方法效率高，但是手动编写较费时费力。

根据只需获得中间数的想法，可以将数据分为左右两边，一边以最大堆的形式实现，可以快速获得左侧最大数，另一边则以最小堆的形式实现。其中需要注意的一点就是左右侧数据的长度差不能超过1。这种实现方式的效率与AVL平衡二叉搜索树的效率相近，但编写更快

python,双堆法，一个大堆，一个小堆


满足两个特性：
1.大顶堆中最大的数值小于等于小顶堆中的最小数，也就是小于小顶堆的堆顶
2.两个堆中元素数量相差为0，或者为1,不能>1

然后，我们观察可以发现，如果，数据总数是偶数，那么大顶堆，和小顶堆，
一边占一半元素，而且，还是有序的，很像二分法，这时，中位数为两堆顶平均值
如果数据个数为奇数，则，中位数出现在元素个数多的堆的堆顶中


python默认小顶堆，对于如何实现大顶堆，
1.添加元素进去时，取反，
2.取出元素时，也取反

题解


import heapq
class MedianFinder:

    def __init__(self):
        self.max_h = []
        self.min_h = []

    def addNum(self, num: int) -> None:
        """
        每次都插入到最小堆，然后，将最小堆里面的栈顶元素，
        取出来，放到最大堆中去，这样就能保证最小堆的堆，都比最大堆的堆顶大
        （因为最大堆是最小堆，一泡屎一趴尿，拉扯大的。）
        下面的调整，使得最小最大堆元素相差最多为1，而且永远是 最小堆元素个数大于  等于最大堆元素个数
        """
        heapq.heappush(self.min_h, num)
        heapq.heappush(self.max_h, -heapq.heappop(self.min_h))
        if len(self.min_h) < len(self.max_h):
            heapq.heappush(self.min_h, -heapq.heappop(self.max_h))
            

    def findMedian(self) -> float:
        if len(self.min_h) == len(self.max_h):
            return (self.min_h[0] - self.max_h[0]) / 2
        else:
            return self.min_h[0]


# Your MedianFinder object will be instantiated and called as such:
# obj = MedianFinder()
# obj.addNum(num)
# param_2 = obj.findMedian()