漫話:如何給女朋友解釋為什么計(jì)算機(jī)從0開(kāi)始計(jì)數(shù),而不是從1開(kāi)始?






當(dāng)我們想要寫(xiě)一個(gè)循環(huán)體,期望執(zhí)行10次的時(shí)候,我們會(huì)使用以下方式:
for?(int?i=0;?i<10;?i++){
}可以看到,為了保證循環(huán)10次,我們定義了一個(gè)整數(shù)變量從0開(kāi)始。
還有,當(dāng)我們定義數(shù)組的時(shí)候,在常見(jiàn)的C語(yǔ)言、Java、Python等語(yǔ)言中,都是使用下標(biāo)0來(lái)表示第一個(gè)元素的。




Dijkstra通過(guò)分析,得出在進(jìn)行范圍表達(dá)的時(shí)候,使用左閉右開(kāi)的方式更加合理。
但是,Dijkstra在分析出2 ≤ i < 13這種形式更加合理之后,他有陷入了另外一個(gè)思考,那就是:
當(dāng)處理長(zhǎng)度為 N 的序列時(shí),到底第一個(gè)元素的下標(biāo)使用0還是1更加合適?
關(guān)于這個(gè)分析,他的出發(fā)點(diǎn)很簡(jiǎn)單,那就是哪種方式更加漂亮,更加優(yōu)雅。
他認(rèn)為,使用左閉右開(kāi)的表達(dá)方式,當(dāng)下標(biāo)從 1 開(kāi)始時(shí),下標(biāo)范圍為 1 <= i < N+1;當(dāng)下標(biāo)從 0 開(kāi)始時(shí)則是 0 <= i < N;
而顯然后面這種表達(dá)式更加漂亮、優(yōu)雅一些。所以,他建議我們使用0作為第一個(gè)下標(biāo)。




很多人學(xué)習(xí)編程都是從C語(yǔ)言開(kāi)始的,那么,C語(yǔ)言就是一個(gè)典型的0-base語(yǔ)言(以0作為計(jì)數(shù)的開(kāi)始),其實(shí),這一約定早在BCPL時(shí)代就是這樣的了。
在C語(yǔ)言還不叫C語(yǔ)言,還叫BCPL的時(shí)候,他的作者馬丁·理察德就設(shè)計(jì)了數(shù)組從0開(kāi)始的索引方式。
當(dāng)我們?cè)贐CPL(C語(yǔ)言)中定義數(shù)組int arr[8]的時(shí)候,編輯器會(huì)在內(nèi)存中開(kāi)辟一塊空間(這個(gè)空間中可能包含多個(gè)內(nèi)存單元)供該數(shù)組使用。
為了能讓數(shù)組找到編譯器為自己開(kāi)辟的空間,會(huì)把這塊內(nèi)存空間中第一個(gè)內(nèi)存單元的地址(0X0000001)賦值給這個(gè)數(shù)組,當(dāng)我們使用&arr的時(shí)候,就可以拿到這塊地址。

BCPL最初是用IBM 7094機(jī)器編譯的;它在編譯時(shí)會(huì)優(yōu)化這些數(shù)組索引提供的指針?lè)磪⒖歼\(yùn)算(indirection),即可以通過(guò)指針取出地址中存儲(chǔ)的值,這個(gè)特性也一直延續(xù)到今天。
有了指針之后,我們可以使用int *pr = arr的方式初始化一個(gè)指針,那么,這時(shí)候,指針pr也會(huì)指向數(shù)組的內(nèi)存空間的第一個(gè)內(nèi)存單元的地址。

那有了數(shù)組和指針,想要使用這塊內(nèi)存第一個(gè)內(nèi)存單元存儲(chǔ)一個(gè)變量的時(shí)候,就需要想辦法表示這第一個(gè)空間。
那么,BCPL的作者采用了0作為數(shù)組第一個(gè)元素的下標(biāo),因?yàn)樗J(rèn)為,數(shù)組的下標(biāo)應(yīng)該和指針的偏移量是相對(duì)應(yīng)的。這樣在使用第一個(gè)內(nèi)存單元的時(shí)候,直接使用arr[0]或者*(p+0)就可以了。



因?yàn)橹羔?/span>*(p+0)這種表達(dá)形式中的0表示的是偏移量,所以,無(wú)論數(shù)組的下標(biāo)從幾開(kāi)始,*(p+0)都是用于存取內(nèi)存中的p+0位址的值,也就是0X0000001這塊內(nèi)存單元的值。
試想一下,如果使用1作為數(shù)組的起始下標(biāo),那么arr1就應(yīng)該指向0X0000001這塊內(nèi)存,但是*(p+1)按照偏移量的計(jì)算方式,需要指向0X0000005這塊內(nèi)存。這種情況下,如果想要讓*(p+1)和arr[1]指向同一塊內(nèi)存,就需要額外做一次減法指令。
因?yàn)閹缀跛杏?jì)算機(jī)結(jié)構(gòu),都借由位址和偏移量來(lái)表示直接引用內(nèi)存,所以,像C語(yǔ)言這種使用0做為數(shù)組的第一個(gè)下標(biāo)使得語(yǔ)言的實(shí)現(xiàn)上更加容易。
但是值得一提的是,在C語(yǔ)言流行起來(lái)之前,還是有很多1-base的編程語(yǔ)言的,如FORTRAN、BASIC等編程語(yǔ)言的數(shù)組下標(biāo)都是從1開(kāi)始的。
隨著C語(yǔ)言的發(fā)揚(yáng)光大,很多語(yǔ)言都參考了C語(yǔ)言的做法。



關(guān)于這個(gè)問(wèn)題,之前也有網(wǎng)友在Twitter上詢問(wèn)過(guò)Python之父——Guido van Rossum,他給出過(guò)正面回答,我把回答內(nèi)容的翻譯版貼在下面:
我記得自己就這個(gè)問(wèn)題思考過(guò)很久;Python的祖先之一ABC語(yǔ)言,使用的索引是從1開(kāi)始的(1-based indexing),而對(duì)Python語(yǔ)言有巨大影響的另一門語(yǔ)言,C語(yǔ)言的索引則是從0開(kāi)始的。
我最早學(xué)習(xí)的幾種編程語(yǔ)言(Algol, Fortran, Pascal)中的索引方式,有的是1-based的,有的是從定義的某個(gè)變量開(kāi)始(variable-based indexing)。而我決定在Python中使用0-based索引方式的一個(gè)原因,就是切片語(yǔ)法(slice notation)。
讓我們來(lái)先看看切片的用法??赡茏畛R?jiàn)的用法,就是“取前n位元素”或“從第i位索引起,取后n位元素”(前一種用法,實(shí)際上是i==起始位的特殊用法)。如果這兩種用法實(shí)現(xiàn)時(shí)可以不在表達(dá)式中出現(xiàn)難看的+1或-1,那將會(huì)非常的優(yōu)雅。
使用0-based的索引方式、半開(kāi)區(qū)間切片和缺省匹配區(qū)間的話(Python最終采用這樣的方式),上面兩種情形的切片語(yǔ)法就變得非常漂亮:a[:n]和a[i:i+n],前者是a[0:n]的縮略寫(xiě)法。
如果使用1-based的索引方式,那么,想讓a[:n]表達(dá)“取前n個(gè)元素”的意思,你要么使用閉合區(qū)間切片語(yǔ)法,要么在切片語(yǔ)法中使用切片起始位和切片長(zhǎng)度作為切片參數(shù)。
半開(kāi)區(qū)間切片語(yǔ)法如果和1-based的索引方式結(jié)合起來(lái),則會(huì)變得不優(yōu)雅。
而使用閉合區(qū)間切片語(yǔ)法的話,為了從第i位索引開(kāi)始取后n個(gè)元素,你就得把表達(dá)式寫(xiě)成a[i:i+n-1]。
這樣看來(lái),1-based的索引方式,與切片起始位+長(zhǎng)度的語(yǔ)法形式配合使用會(huì)不會(huì)更合適?這樣你可以寫(xiě)成a[i:n]。事實(shí)上,ABC語(yǔ)言就是這樣做的——它發(fā)明了一個(gè)獨(dú)特的語(yǔ)法,你可以把表達(dá)式寫(xiě)成a@i|n。
但是,index:length這種方式在其它情況下適用嗎?說(shuō)實(shí)話,這點(diǎn)我有些記不清了,但我想我是被半開(kāi)區(qū)間語(yǔ)法的優(yōu)雅迷住了。
特別是當(dāng)兩個(gè)切片操作位置鄰接時(shí),第一個(gè)切片操作的終點(diǎn)索引值是第二個(gè)切片的起點(diǎn)索引值時(shí),太漂亮了,無(wú)法舍棄。
例如,你想將一個(gè)字符串以i,j兩個(gè)位置切成三部分,這三部分的表達(dá)式將會(huì)是a[:i],a[i:j]和a[j:]。




有道無(wú)術(shù),術(shù)可成;有術(shù)無(wú)道,止于術(shù)
歡迎大家關(guān)注Java之道公眾號(hào)
好文章,我在看??
