傳說人類建造通天塔觸怒上帝,上帝施法使人類語言混亂彼此之間無法交流。這就是說各種各樣的語言其實就是禍亂之源——只會導致交流的不便。可是看看如今的程序設計語言的數量,你會懷疑人類是否又在造“通天塔”了?真的有這么多語言的必要嗎?我到底要學習多少種程序設計語言才夠用呢?
根據維基的資料,可以稱得上相對“主流”(有人用、有文檔)的程序設計語言至少有600種, 還有大量的商業化失敗、實用性不高、語言小眾(這里的“語言”指的是編碼的語言,一般的程序設計語言都習慣用拉丁字母集合或其超集來作為源碼的字符集,也 有用日文、俄文編程、漢語編程的,比如易語言)就難以統計了(保守估計可以上萬種),盡管已經有了這么多種程序設計語言,仍然有大量的人投入了大量的時間 來研發新的語言,這難道不是重復通天塔的故事嗎?
為了解釋“為什么會有這么多種程序設計語言”這個問題,想讓我們來看一份較新的最流行編程語言流行榜:
排行榜上排名前十的依次是:C、Java、Object-C、C++、C#、PHP、Python、Javascript、Perl和VB。下面我會根據這份排行榜來回答我們的問題。首先闡述一個基本觀點:程序設計語言被創造的目的主要有三個——實用目的、學術目的、商業及特殊應用需要。且聽一一分解:
一、實用目的
可以看見在排行榜中,C,Java,C++這樣的語言幾乎是年年穩居前五。這些語言的實用性都是非常高的。讓我們回顧一下C語言的歷史:1973年AT&T的Ken Thompson因為研發和維護操作系統的需要,要求一種高效簡潔的程序設計語言,于是在BCPL語言的基礎上創造了C語言。Java、C++等語言也都是在有著類似的高要求的任務下臨時創造出來,然后再不斷發布標準進行改進的(C語言是為了操作系統,Java是為了嵌入式應用和網絡開發……) 如果現有的輪子不夠好,那么就去自己造一個輪子,也正是因為這個特殊的原因,所有這些以實用為目的的語言都很高效,語法構造方法、編程邏輯和配套的編譯技術都很成功,所以能夠切切實實地解決工程上的問題。另外,這些實用目的語言的語法都很自由(Python因為“明確”、“簡單”的哲學所以算個例外),正好符合了不同性格的程序員的需要。另外非常重要的一點是:“決定一種程序設計語言是否強大的是這個語言的庫(標準程序庫、類庫、包、組件、單元、模塊……每種語言都有自己的叫法)而不是程序設計語言本身”;這可能會讓很多人不高興:說實話,C語言在語言的優雅性和友好性上(比如==和=)完全和Ada、Pascal比不了(Ada是軍方人員設計的,Pascal是數學家設計的),但是C語言依然非常流行,這是因為你想要寫一個含有系統調用的程序,用C語言是最佳選擇,Ada和Pascal這樣的語言想要直接和內核交流是很麻煩的。同理也可以解釋C++、Java、Perl等語言的流行,你想要寫多線程的程序用C++的多線程庫和Java的包就行了,你想寫正則表達式相關的程序用Perl或者C++ boost庫就好了……懂得不要重復造輪子是很重要的,遇到不能解決的問題,先去查查資料看有沒有人已經寫好了類似的程序,直接把他的函數抄過來就是了——這恐怕是很多人都會做的吧?這些實用性的語言,在長期使用的廣泛的使用過程中積累了大量優秀的庫(C++的STL、BOOST和有些編譯器自帶的庫,Object-C專門針對Mac OS X的庫,Fortran的便于科學計算的函數等等),而且還有越來越多的程序員在不斷增加更好的庫,這些都使這些“語言”越來越強大。
這些程序設計語言在發展過程中既有一些公共的庫(比如文件的I/O),也有一些特有的庫(比如線程庫、RE庫), 這些特有的庫往往是某一語言的最大優勢,可以說正是這些各自獨立的庫把不同的語言區別開來,長此以往,解決某些特定問題時程序員就傾向使用某一特定語言。 這并不是說這些特有的庫無法移植到其它的語言上,只是由于代碼量巨大,移植是在是個不小的工程(況且,在某種語言中表述很方便的語言在另一種中就會難以表 示,比如C語言有很多語言都沒有的顯示指針,在Lazarus項目中,程序員開發了一個程序用以把C頭文件自動轉換成Pascal單元,即使這樣,實現代碼的量依舊很大,這種源到源的語言翻譯的介紹可以參見龍書的引論部分,不學編譯原理的請略過)。因為有如此多的專用庫,這些實用目的語言越來越多也就不稀奇了。
二、學術目的
不管什么程序設計語言,在本質上都不過是機器級別的0或1。所謂的高級語言不過是機器眼中的胡言亂語(這也正是編譯技術存在的價值)。
然而,人不是機器,也不可能也沒必要成為機器。創造程序設計語言的目的是為程序員服務的,應該說,一個程序員所用的語言很大程度上決定了他的思維方式——程序設計語言本身就是一種嚴謹的數學模型、一種高效的思維方式。為了說明這個道理我以一個物理題為例來解釋:一輛汽車做勻速直線運動,以2m/s的速度經過了6m,問汽車用了多少時間?顯然t=s/v=6/2=3(s),這也可以列方程來解決:
設運動用時t s,則 tv=s,即 2t=6,解得t=3,這好像多此一舉。如果把問題稍微“復雜”一下:一輛汽車以1m/s的初速度做加速為2m/s2的勻加速直線運動,經過了6m,問汽車用時多少時間?根據運動學公式列方程 V0*t+1/2*a*t2=s,即 1*t+0.5*2*t2=6,解得 t=2,也就是要用2s。又或者可以這樣做:由速度與時間的關系可以得到 v(t)=v0+a*t,而
解這個等式同樣也可以求出t。這個時候使用方程就很自然了,用定積分卻顯得多余。從中我們知道什么?人的思維能力是有限的,面對復雜的新問題,要么用就用原來老方法麻煩地進行計算,要么提出新的高效的模型來解決問題。不管是算術、方程還是微積分、傅立葉變換或是其它高級的數學方法、模型都只是一個簡化問題的抽象層(數學家看到了我說這句話恐怕會很生氣的,但這就是事實),作為類比,程序設計語言就好比這里的數學模型,越是復雜的問題、越是大的規模(指問題規模),才越能體現出高級語言的價值(有人用過幾十多種語言寫”hello world”,這有什么意義呢?我用機器語言都能寫hello world)。知道了語言模型對于思維方式的影響,我們就能解釋這么多語言的學術上(或者說是研究上)的目的了:
機器語言/匯編語言意味著程序員專注的是寄存器、內存地址、狀態、位的打開或關閉,因此思維重在每一條實際的指令;而C、Pascal這樣的命令式語言注重每一個“計算過程”,因此思維重在將計算方法、算法、數學模型表達出來;
而Java、C++這樣的面向對象的程序設計語言,試圖用對象、類、屬性、方法這些概念來統一的描述算法和數據結構,OO語言的思維因此能夠重在算法和數據;還有像Lisp、Haskell、Erlang、Prolog這樣的函數式、邏輯式語言,強調的是數學的推演、函數的運算、邏輯的證明,我認為它們才是最接近人的思維的語言;而像SQL這樣的語言,強調是“高產出”,它們是對常用的指令進行了簡化、“宏化”(Macronize,本人自己造的一個詞),它們的思維是“要做什么”而不是“怎么做”;
最后,是像HTML這類Markup語言(有人說HTML不是程序設計語言……)個人認為是一種glue(膠水語言,最有名的glue算是Lua了),它對文本(比如網頁)的格式進行描述,同時又把Javascript、Applet等等擴展“連接”在一起,它們的思維是“組合”,是怎樣才能協調各個組件、把組件的功能發揮到極致(說起排版不得不提提TeX了,它和HTML的 思維類似,各種開發好的宏集就是它的“組件”)。
最后我還想再談一談“學術風味”很濃的函數式語言,函數式語言歷史悠久,但多年以來一直在學術界活躍,少有能夠成功商業化的,多年來一直處于不溫不火的的狀態。但隨著今年來編譯技術的發展,函數式語言的執行效率已經很高了,加上大數據時代對于大量數據處理的 需求、機器深度學習的成熟、現代架構計算機的發展,僅僅依靠程序執行的單線程性能提升已經不能夠滿足實際需求了,只有并發和并發才能滿足這樣的高負荷計算 要求,純函數語言處理起多線程來十分方便,能夠“榨干”處理器的運算潛力,這也是近年來Erlang之類的語言大放異彩的重要原因。在現代計算機結構和工藝發展難度大的情況下,這些函數式語言可能會成為推動計算力的重要動力,這一點可以參見本人的論文《AACOS:基于編譯器和操作系統內核的算法設計與實現》(由于版權的問題,我暫時不能把論文貼出來:-))。
三、商業及特殊應用需要
(以下言論僅僅是本人個人觀點,沒有任何指責的意思)
開發一種編程語言是可以賺錢的,你信嗎?
實際上開發一種新的語言意味著建立自己的“統一標準”(說起標準就不得不談高通了,高通從“標準”上撈了多少銀子?),一方面可以方便維護自己的產品,另一方面可以借助市場地位強迫程序員學習某種語言進而達到自己(至少在某一領域)的霸主地位。為什么這么多年以來微軟對BASIC情有獨鐘?在DOS時代,QBASIC——一種BASIC的變種,是每臺PC上必裝應用,也是當時很多人必學的一種語言,QBASIC無論是從程序執行效率還是語言的思維性上都不好,但是因為是預裝的,本著“不夠好但夠用”的原則,許多用戶居然湊合下來了(慚愧本人就是從QBASIC開始接觸編程的)!這恐怕和IE用戶如此眾多的原因是異曲同工的吧?就這樣QBASIC居然一時成為了最受歡迎的入門編程語言工具。
到后來,微軟推出Visual Basic實際上是為了和Borland(現已被收購)的Delphi競爭入門級編程工具市場(在相當長的一段時間內VB都不是Delphi的對手,可以參見本人的另一片隨筆《Borland和Microsoft的對話》,這直接導致了C#的誕生——C#——一種C++、Java、Object Pascal雜交的到的混血兒),憑借自己在BASIC用戶上的積累,在RAD領域混得不錯了,微軟又趁熱打鐵的推出了VBS/VBE、VBA等等腳本語言,目的就是拉攏自己的VB用戶,使這種糟糕的語言能夠勉勉強強適應系統GUI編程、辦公套件編程、數據庫編程,好了現在形成了一個有機的整體。一個程序員要么學多種語言來完成不同的任務,要么學一種不夠好但夠用的語言——然后,一招鮮,吃遍天……學習一種語言的成本是很高的(要時間和電費),所以有很多程序員會選擇微軟指定的這一標準。還有近幾年大紅的Object-C、Swift、Go,雖然名義上是開源的,但是誰知道他們的真正目的?除此之外,還有很多DSL(Domain-Specific Language,專業領域語言),比如sed和awk是為了處理文本,PHP是為了處理Web開發、Emacs Lisp和Vim腳本是為了擴展編輯器功能,Postscript是為了排版,batch和各種shell script是為了shell編程等等。這里介紹一個典型:Adobe的Actionscript,它的作用就是為了支持Adobe自己的Flash,主要用于Flash動畫和應用程序,不論Actionscript語言自身發展的多好不過是一個擴展罷了。
好 了,已經介紹完了實用目的、學術目的、商業及特殊需要,相信各位對“為什么會有這么多種程序設計語言”這個問題有了更深刻的理解,也可能有了更多的疑惑。 如果你有任何疑惑或者愿意和我交流,歡迎留言。對了,除了我說的三個目的之外還有沒有別的創造新語言的原因?有,我自己設計了一種名為Grove的語言,用“樹”來完成過程編程和lambda表達式,改天把解釋器的源碼發出來交流一下。我的目的呢?Just for fun…
不要想你能為世界做什么,想想你該為世界做什么!
延伸閱讀:
- TIOBE編程語言5月排行榜發布