第二章    信息的表示和存储   

[      浏览次数:0 ]

 

信息

 

案例1:请从信息量的高低排列以下书籍

 

(1)500页的电话簿
(2)1000页空白纸
(3)1000页写满“废话 废话 废话”的纸
(4)1000页的电话簿

 

思考:一本1000页的书有多少信息呢?

 

案例2在那天人们知道美国纽约世贸大厦被炸和 在今天人们知道美国纽约世贸大厦被炸的信息量那个大

                                         

案例3:回答以下问题:

   

       (1) 通过截屏截取同样大小的两张照片,一张空白,另一张有内容,这两张图片的像素是相等的,但那张图片包含的信息多?

 

      (2)你要到电影院去找一个人。甲告诉你两条消息:1、他不坐在前10排   2、他也不坐在后10排;而乙只告诉你一条消息:他坐在第15排。问甲和乙谁提供的信息量大?

 

      (3)在盛夏季节,气象台突然预报“明天无雪”,这条信息包含的信息量是多少?  

   

        在事件发生前有不确定度、在事件发生时有惊讶度、在事件发生后有信息量,当一个概率很低的随机事件发生,我们就会感到非常惊讶,并得到很大的信息量。

 

         一条信息的信息量大小和它所消除的不确定有直接的关系。例如:要搞清楚一件非常不确定的事,或者一无所知的事情,就需要大量的信息。相反,如果对某件事情已经有了较多的理解,则不需要太多的信息就能把它搞清楚。所以,从这个意义上说,可以认为信息量的大小就等于它所消除的不确定性的程度。

 

         对概率有所了解的人都知道,不确定性是与“多种结果的可能性”相联系的。而在数学上,这种可能性正是以概率来度量的。在日常生活中,极少发生的事件一旦发生是容易引起人们的关注的,而司空见惯的事不会引起注意,这意味着罕见事件所带来的信息量比较多。如果用统计学的术语来描述,这就出现概率小的事件的信息量大。例如:海啸带来的信息量要比下雨事件带来的信息量大的多。因为海啸很少见,容易形成新闻热点,而下雨是司空见惯的。

 

      由于小概率事件的发生比大概率事件的发生更使人感到惊讶,所以计算机科学家常用一段消息的“惊奇度”来衡量该消息中所含有的信息量。例如:你的朋友问你你今天是怎么来学校的,而他正好是走路来上学的,你很可能就第一次就猜中。如果要猜中乘私家车来的话,大概需要多猜几次,如果是乘坐直升飞机的话,大概会更难猜。由此可知,“走路来上学”、“乘私家车”、“乘坐直升飞机”这三条信息所包含的信息量是依次增大的,也就是说你猜测的次数会依次增加。

 

案例4:(1)将学生分成每两人一组。每组中一个人任意想一个1~100之间的数字,另一个来猜,猜的人可以问任意问题,前者只能回答yes/no。试用最少的次数猜出答案,估计用几次才能猜到正确答案?

           

      (2)如果要猜的数是你搭档的年龄,换需要才那么多次吗?如果猜的数在1~10000之间,猜的次数要增加100倍吗?

 

        在猜测中只能回答yes/no,因此也可以用二进制1和0来取代这两种提示答案,从而可以将比特或二进制位作为计算信息量的单位。下表是锁定某一数值范围之间的任意一个数字所包含的信息量。

 

                                                                                        表2-1

 数值范围(十进制) 信息量(比特)    数值范围(十进制)      信息量(比特)
              1~10          4            1~10000            14
             1~100           7           1~1000000             17
            1~1000         10    

 

        上表示如何构造出来的啊?如何将该表扩展到任意数值范围?如果你能找到使猜测最少的办法,实际就找到了问题的答案了。图2-1是一个解决猜测0~7之间任意一个数的决策树,猜测方法是从树的顶部开始提问,然后根据得到的答案沿着树枝的走向提出下一个问题,直到得到答案。

 

                                      

                                                                              图2-1

 

案例5(1)如果目标数字为5,yes/no的序列应该是什么?该序列包含几个回答?回答的个数和目标值有什么 关 系?

            

            (2)如果将决策树中的yes用1表示,no用0表示,0~7均用二进制数来表示。回答以上的问题。

 

         可以看出,决策树的最底层的二进制数字就是问题的一系列yes/no回答。如果每个数字出现的概率相同的话,那么得到目标数字所需长长的次数,就等于二进制表示该数字所采用的位数。

 

好的策略:(1) 每次提问将消息范围缩小一半。

 

                    (2)如果范围从0-100扩大到0-1000,不用多花10倍的努力来找到答案——只需要比原来多问三个问题即可。

                    (3)每当范围加倍时只需要多提一个问题即可找到答案。

 

        猜想:(1)在一个范围内,比如[1, 1,000,000],秘密地选定一个数字

 

                    (2)每一次观众都可以问一个问题,而回答只能是“yes” 或者“no”。重复进行,最终,观众往往能得到基于x的正确答案。

                     (3)为了找出x,观众需要提问多少次

 

案例6Shannon对使用自然语言(如英语)表达的消息所含信息量的多少这个问题十分入迷,他做了一个实验,让人们通过逐个猜字母的方式来猜句子。向实验者展示部分文本,让他猜下一个字母,如果猜错了,告诉他并让其再猜,直到正确。:如Shannon实验中的文本“there is no reverse on a motorcycle. a friend of mine found this out rather dramatically the other day.”(为了容易猜,他省略了标点和大写),一个典型的实验结果如下:

 

                                

 

案例7:甲乙两人玩掷棋子游戏,甲准备在8*8的方格上随意放一个棋子,在乙看来所放的位置是不确定的。

 

           (1)在乙看来棋子放在某方格的不确定性为多少?

 

           (2)若甲告知乙所放位置的行号。这时在乙看来棋子放在某方格的不确定性为多少?

    

           (3)若甲将棋子所放方格的行号和列号都告诉乙,在乙看来棋子在某方格的不确定性为多少?

 

有多种关于信息的定义,从其关注的角度大体可分为3类:

 

1)信息论角度

 

消息中所含有的对接受者而言的“未知性”或“不确定性”则称为信息。

 

2)哲学角度(钟义信教授)

 

本体论层次——事物的运动状态及其变化方式的自我表述。
认识论层次——认知主体所表述的关于该事物的运动状态及其变化方式,包括这种状态/方式的形式、含义和效用。

 

3)知识管理角度-DIKW(Data, Information, Knowledge, Wisdom) 体系信息是经过加工处理的、具有一定含义的,存在逻辑关联的、有时效性的、对决策有价值的数据。 它回答了“who”, “what”, “where”, and “when” 等问题。
 

案例8 :我们以一届世界杯决赛的冠军队的信息为认知对象来举例说明。

 

         认知者:没有看比赛的某个人来猜测冠军

 

         边界:已知32个球队的队名,按0~31顺序编号

 

         随机性:有热门队,也有黑马队,尽管夺冠可能性不同,但结果出来之前一切皆有可能。

 

          判决: “猜不中A”的机会与“A夺冠的可能性”成反比。若32支队伍的实力相当,每个队夺冠的概率均为pi=1/32。

 

        每次猜测的过程为:把当前对象分为下半区和上半区两个部分,分别以二进制数“0”、“1”标记,猜冠军在哪一个区。每猜一次都只有对或错两种可能,由已知结果的人作为裁判(判决器),错误用“F”标识、正确用“T”标识,每次判决获得1位二进制数信息。猜测结束后可以由各次猜测的结果精确地确定冠军队编号。“猜中”所需的猜测次数越多,“猜中”得到的信息量就越大。
  

        保证“猜中”所需的猜测次数可以推算如下:


       

 

         总共判断了5次,结果清楚地标识出具体的队号。

 

         参赛队越多,“猜中”需要的次数也就越多,结果需要用更多位数表示。

 

         队数多了,每个队夺冠的概率就变小,而“猜中”的信息量就变大。若只有一个参赛队,不用猜也能知道结果,故猜中的信息量为0。

 

         每猜一次,获得一位信息,“不确定性”就会减少一半,=>香农在其《通信的数学理论》一文中把信息量定义为随机不确定性减少的程度。

 

数的二进制表示

 

案例9:  有16种溶液,其中有且只有一种是有毒的,这种有毒的溶液与另一种试剂A混合会变色,而其他无毒溶液与A混合不会变色。已知一次实验需要1小时,由于一次混合反应需要使用1个试管,问最少使用多少个试管可以在1小时内识别出有毒溶液?

 

          如果没有1小时的时间限制,那么利用二分搜索的思想既可以解决问题。(第一次取16种溶液中的8种放入一个试管,然后加入试剂A,看有没有反应,根据结果再进行细分。这样只需4个试管,但是需要4个小时)有了这个1小时的时间限制后这种方法就不管用了。一种正确的解答如下:

 

         首先,将16种溶液编号为0到15编号的二进制形式表示:0001、0010、0011、0100、0101、0110、0111、1000、1001、1010、1011、1100、1101、1110、1111。

 

       然后,取4个试管,第一个试管加入编号二进制形式中第一位(指最低位)是1的溶液,第二个试管加入编号第二位是1的溶液,其他2个试管分别加入编号第3,4位为1 的溶液。然后再将试剂A加入4个试管中,看那些试管发生了反应,就可以知道有毒溶液的编号了。例如:第1、2、4号试管内发生了反应,则我们知道是第7号溶液是有毒的。原因是7的二进制编码是1011,因此7号溶液是唯一加入了1、2、4号试管,而没有加入3号试管的溶液。

 

案例10准备5张卡片,反面空白,正面有不同的点数,样子和排列顺序如下图所示。请用它们表示0~31中任意一个数,如25(注意卡片顺序不要改变,只翻转正反面)。

 

                                                       具有不同点数的卡片数

 

          如果将反面反面朝2上的记做0,正面朝上的记做1,例如15用"正/反“表示为”反正正正正正“, 而用0/1序列表示为”011111“。

    

在以上的练习的基础上,回答以下问题。

 

(1)在上述序列的左面再增加若干张卡片,它们的点数应该是多少?规律是什么?

 

(2)5张卡片能表示的最大数和最小数是多少?写出对应的0/1序列表示。

 

(3)5张卡片的点数分别是2的多少次方?如果从右向左给卡片编号为0~4,那么卡片编号与卡片的方次数之间的关系是什么?


                                                                                                                              上一页                 下一页