295. 数据流的中位数

中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。
例如,
[2,3,4] 的中位数是 3
[2,3] 的中位数是 (2 + 3) / 2 = 2.5
设计一个支持以下两种操作的数据结构:
  • void addNum(int num) - 从数据流中添加一个整数到数据结构中。
  • double findMedian() - 返回目前所有元素的中位数。
示例:
addNum(1) addNum(2) findMedian() -> 1.5 addNum(3) findMedian() -> 2
进阶:
  1. 如果数据流中所有整数都在 0 到 100 范围内,你将如何优化你的算法?
  1. 如果数据流中 99% 的整数都在 0 到 100 范围内,你将如何优化你的算法?
通过次数80,872提交次数153,706

法1 堆

思路
在数据流中,数据会不断涌入结构中,那么也就面临着需要多次动态调整以获得中位数。 因此实现的数据结构需要既需要快速找到中位数,也需要做到快速调整。
首先能想到就是二叉搜索树,在平衡状态下,树顶必定是中间数,然后再根据长度的奇偶性决定是否取两个数。
此方法效率高,但是手动编写较费时费力。
根据只需获得中间数的想法,可以将数据分为左右两边,一边以最大堆的形式实现,可以快速获得左侧最大数, 另一边则以最小堆的形式实现。其中需要注意的一点就是左右侧数据的长度差不能超过1。 这种实现方式的效率与AVL平衡二叉搜索树的效率相近,但编写更快
python,双堆法,一个大堆,一个小堆
满足两个特性: 1.大顶堆中最大的数值小于等于小顶堆中的最小数,也就是小于小顶堆的堆顶 2.两个堆中元素数量相差为0,或者为1,不能>1 然后,我们观察可以发现,如果,数据总数是偶数,那么大顶堆,和小顶堆, 一边占一半元素,而且,还是有序的,很像二分法,这时,中位数为两堆顶平均值 如果数据个数为奇数,则,中位数出现在元素个数多的堆的堆顶中
python默认小顶堆,对于如何实现大顶堆, 1.添加元素进去时,取反, 2.取出元素时,也取反
题解
import heapq class MedianFinder: def __init__(self): self.max_h = [] self.min_h = [] def addNum(self, num: int) -> None: """ 每次都插入到最小堆,然后,将最小堆里面的栈顶元素, 取出来,放到最大堆中去,这样就能保证最小堆的堆,都比最大堆的堆顶大 (因为最大堆是最小堆,一泡屎一趴尿,拉扯大的。) 下面的调整,使得最小最大堆元素相差最多为1,而且永远是 最小堆元素个数大于 等于最大堆元素个数 """ heapq.heappush(self.min_h, num) heapq.heappush(self.max_h, -heapq.heappop(self.min_h)) if len(self.min_h) < len(self.max_h): heapq.heappush(self.min_h, -heapq.heappop(self.max_h)) def findMedian(self) -> float: if len(self.min_h) == len(self.max_h): return (self.min_h[0] - self.max_h[0]) / 2 else: return self.min_h[0] # Your MedianFinder object will be instantiated and called as such: # obj = MedianFinder() # obj.addNum(num) # param_2 = obj.findMedian()