We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
自我感觉信息熵解释不太清楚,所以自己写了一个例子: ● 熵的计算公式:H(X) = - Σ P(x) * log2(P(x)),其中,H(X)表示随机变量X的熵,P(x)表示X取值为x的概率。 ● 以骰子为例,每面出现的概率如下:P(1) = 1/6;P(2) = 1/6;P(3) = 1/6;P(4) = 1/6;P(5) = 1/6;P(6) = 1/6 ● 带入公式得到:H(X) = - log2(1/6),大约为2.58496比特(bits) ● 这个结果表示了骰子的信息熵,由于骰子是均匀的,所以熵到达了最大值,如果骰子不均匀,某个面的概率更高,那么熵就会减少,不确定性降低了。 ● 硬币均匀的信息熵为:H(X) = - (0.5) * log2(0.5) - (0.5) * log2(0.5),计算结果约为1比特(bits);假设不均匀,其中一面概率是0.8,则:H(X) = - (0.8) * log2(0.8) - (0.2) * log2(0.2),计算结果约为0.721928比特(bits)。可见,在硬币不均匀的情况下,不确定性更小,只猜概率大的那面猜中的可能性更大。 这样理解没有问题吧
The text was updated successfully, but these errors were encountered:
@Day333 感谢您对信息熵解释不清楚这个问题的指出。这块的数学问题我们会进一步解释,我稍后阅读完您的整体的推导并验证正确后,在下一版本中采纳这个建议。
Sorry, something went wrong.
分享一下我的解释:
交叉熵也可以看作是对于一个事物的不断提问。以底数为$2$的交叉熵定义为例,$\log q(x)$可看作是提问的次数(假设每一个问题被回答‘是’或‘否’的概率相同),而$p(x)$则是对应答案的真实概率。对所有$x$求期望就得到了交叉熵的定义。从交叉熵的观点看信息熵,可见$H(p) = H(p,p)$,可见信息熵是一个通过$n$叉树对目标概率分布的完全建模——这是看起来一个极其理想的情况,而其最优性则由负对数函数的凸性保证:
$$ \begin{align} H(p,q) &= -\sum\limits_{x \in \mathcal{X}} p(x) \log q(x) \&= -\sum\limits_{x \in \mathcal{X}} p(x)\log p(x) - \underbrace{\left( \sum\limits_{x \in \mathcal{X}} p(x) \log \frac{q(x)}{p(x)} \right)}{-D{\mathrm{KL}}[p|q]}\ &\geqslant -\sum\limits_{x \in \mathcal{X}}p(x) \log p(x) - \log \left[ \sum\limits_{x \in \mathcal{X}} \frac{p(x)q(x)}{p(x)} \right] \ &= H(p) - \log \left[ \sum\limits_{x \in \mathcal{X}- A}q(x) \right] \ &\geqslant H(p) \end{align} $$
需要注意的是,这里的最后一步依然是小于号,这是因为如果$p(x)$在某些点等于零,则这些点对应的$q(x)$将会丢失,于是有$\displaystyle \sum\limits_{x \in \mathcal{X}-A} q(x) \leqslant 1$.
No branches or pull requests
自我感觉信息熵解释不太清楚,所以自己写了一个例子:
● 熵的计算公式:H(X) = - Σ P(x) * log2(P(x)),其中,H(X)表示随机变量X的熵,P(x)表示X取值为x的概率。
● 以骰子为例,每面出现的概率如下:P(1) = 1/6;P(2) = 1/6;P(3) = 1/6;P(4) = 1/6;P(5) = 1/6;P(6) = 1/6
● 带入公式得到:H(X) = - log2(1/6),大约为2.58496比特(bits)
● 这个结果表示了骰子的信息熵,由于骰子是均匀的,所以熵到达了最大值,如果骰子不均匀,某个面的概率更高,那么熵就会减少,不确定性降低了。
● 硬币均匀的信息熵为:H(X) = - (0.5) * log2(0.5) - (0.5) * log2(0.5),计算结果约为1比特(bits);假设不均匀,其中一面概率是0.8,则:H(X) = - (0.8) * log2(0.8) - (0.2) * log2(0.2),计算结果约为0.721928比特(bits)。可见,在硬币不均匀的情况下,不确定性更小,只猜概率大的那面猜中的可能性更大。
这样理解没有问题吧
The text was updated successfully, but these errors were encountered: