P.S. 那些網上轉載我的文章不寫明出處的傻眼了吧?!老子更新了!
發現現在很多人(找工作的或者讀博的)都想要學習或者正在學習Matlab,問我要怎麼學習。其實我雖然寫Matlab代碼的經驗還算豐富,但是還不能說是一個很好的Matlab編程人員,這裡有一些心得,分享給大家希望對大家有所幫助。
關于如何學習Matlab
我的學習方法很簡單:Matlab是練出來的,而不是看出來的。很多人問我有沒有比較好的Matlab教材,我說随便找一本吧,都可以。隻要書裡面有最基本的語法和命令,對于一個有編程基礎的人,Matlab可以在一個下午的時間内學會。當然,僅僅是學會。如果想要對Matlab比較得心應手,那麼最好的辦法就是練習。練習的素材很多,比如對于學經濟學的,可以做一些simulation之類的,也可以試着把計量或者宏觀教材裡面的一些算法寫寫出來。一開始可能很慢,但是當你完成了一個比較大的project的時候,你的Matlab的功力将會有巨大的提升。
當然,在你寫程序之前,多讀一些别人寫的好的code是非常有幫助的。
一些Matlab的經驗
1、适當了解一些數值計算、數值分析以及最優化的理論
用Matlab的無非是做數值計算或者最優化,這也是Matlab的強項,Matlab有足夠多的工具箱解決這些問題。但是在使用這些工具箱之前,應該首先了解一些數值計算以及最優化的理論。這一點在程序碰到問題或者計算結果不理想的時候尤為重要。很多時候結果不理想并不是自己的理論出了問題,而是盲目或者錯誤使用Matlab的工具箱而導緻的。比如我曾經做過一個單純形法的優化程序,但是結果總是不理想,這個時候就要返回到單純形法具體是一種什麼樣的算法來考慮這個問題,最後發現是由于目标函數的某一部分十分平緩導緻的。
當然更重要的是如果你不理解理論,很多問題根本不知道如何處理。有個學化學同學就曾問我一個程序怎麼寫,說matlab肯定可以完成的。了解清楚之後才明白原來他想做的就是一個受限最小二乘。但是他不懂得什麼是最小二乘(因為沒怎麼學過數學),當然面對這個問題無從下手。
2、理解Matlab中時間空間的轉化
這個問題沒有人強調,但我覺着蠻重要。這裡的關鍵點其實很簡單,就是盡量減少重複計算,哪怕是多項式複雜度以内的計算。重複計算的内容應該适時保存到内存中,以後直接調用。一個程序可能會重複運行幾千次幾萬次,一點點的浪費時間都可能被放大很多。空間(内存)我們是可以擴充的,但是時間不是,所以絕大多數時候我們需要放棄空間,獲得時間上的迅捷。
這裡有個故事,曾經在某技術論壇上看到的,說騰訊公司早期做的QQ實在太過垃圾,他們追蹤過QQ的行為,發現在幾分鐘時間裡重複調用了某同一注冊表項幾百次。顯然注冊表的内容所占内存是有限的,甚至是可以忽略的,但是每次讀注冊表項可能都要讀硬盤,這裡的時間花費是很大的,為什麼不把這項内容直接存儲在内存裡呢?
一個比較經典的例子:考慮交換兩個變量a,b的值,有如下寫法:
c=a;
a=b;
b=c;
或者:
a=a+b;
b=a-b;
a=a-b;
第一種寫法多占了内存,因為需要多申請一個c的内存空間;第二種寫法節省了内存空間,但是卻多了三次計算時間。請問哪種好?不一定,看你的時間空間的權衡。但是具體到這個例子來說,第二種是不推薦的,因為:首先,第二種程序晦澀難懂,難以維護,内存不至于低到不能存儲一個變量;第二,如果兩個數字都特别特别大,計算a的時候會有溢出的危險。
3、形成良好的編程規範
我想幾乎所有學過編程的人都被這樣告誡過。比較好的是Matlab自帶的編輯器本身就可以自動縮進之類的,程序十分易讀。但是還有一些東西是有些人不曾注意過的。比如變量名,一個好的變量名一定要有清晰的含義,讓人一看就能明白,否則日後的修改維護必然要花費更多的時間去識别這些變量名的含義。這一點可以參考http://coolshell.cn/articles/1038.html http://coolshell.cn/articles/1990.html 這裡面詳細列舉了很多命名的規則和技巧。
還有一點就是注釋。好的注釋可以極大的方便以後的維護以及代碼的重用。我的習慣是在代碼的開頭都要交代這個代碼是幹什麼用的,怎麼用等等。在程序中一個大塊的功能模塊也要加上注釋告訴大家你在做什麼。如果某個語句很複雜,可以加注釋告訴大家這句到底在幹什麼。這樣寫出來的程序維護起來或者他人使用起來将非常方便。
另有一篇十分有趣的文章分享給大家:如何寫出無法維護的代碼http://coolshell.cn/articles/4758.html
4、如果拿到一個任務而又沒有思路,試着把問題分解或者轉化。
之所以叫做程序,是因為我們所做的工作就是告訴計算機要做什麼,該怎麼做。所以如果你的腦子裡根本不知道這個問題該怎麼解決的時候,你就更加無法寫出程序。找思路的一般方法是分解問題,然後逐個擊破。或者在特殊情況下,需要把問題轉化。
分解與轉化的第一步是把實際問題轉化為數學問題。這一步可能已經做好,可能沒有。如果沒有,那麼這一步就叫做數學建模。絕大多數問題都可以轉化為兩類問題,一類是最優化問題,一類是求解問題。如果你能知道你在最優化什麼東西或者求解什麼東西,問題就簡單很多。
轉化問題的第二步是把數學問題轉化為程序(不是代碼)。也就是說,你要想清楚這個問題(最優化或者求解)是怎麼一步步實現的。這個過程可能很簡單,有現成的方法用,也有可能很複雜,還可能涉及多種轉化。比如我們經濟學中遇到的求解動态最優化,經常要把連續的東西離散化(離散化很重要!)。
最後,考慮怎麼把你的程序轉化為真實的代碼。這一步說簡單很簡單,因為隻要你做好了以上兩步,這一步是順其自然的。但是當然會有很多小的細節,也許這就是所謂的technique。但是我還是覺着,學習編程不是學習technique,而是學習第二步,雖然本文關注的更多的是technique。
5、如果程序出錯了,而又查不到語法的錯誤,使用斷點
編程中最可怕的錯誤不是語法,而是邏輯錯誤,因為邏輯錯誤是最難debug的。一個很有用的工具就是斷點。
斷點應該是debug中最常用的工具。Matlab的編輯器中可以很方便的實現(在每一行的開頭有個小橫線,單擊一下變成紅點,然後就設置成斷點了)。當程序運行到斷點之後就會中斷,然後會在主窗口顯示K>>的标志,這時你可以輸入命令查看内存情況等等。一步步的跟蹤,直到變量值跟你的預期不一樣,這時你就可以很容易的找到錯誤在什麼地方發生了。
6、如果試了很多辦法還是不能找到錯誤,那就嘗試一下終極debug方法,适用于各種語言
真的有這麼強大的debug方法麼?有的!這個方法很簡單,離開你的電腦,找一個人,随便什麼人,說一遍你的程序的思路,說的越具體越好。多數情況下,你在闡述的過程中,程序的錯誤就會突然從你的大腦裡冒出來了。
如果實在找不到就找大街上的乞讨人員吧,給他們十塊錢他們應該很樂意聽你說的,并且說不定還可以給你一些很好的建議,然後告訴你,十年前他們也在做同樣的工作。
7、 理解通用與專用之間的權衡
你可以寫一個通用的程序,也可以寫一個專用的程序,這需要你的權衡。一般情況下,專用的程序你可以研究清楚其結構,從而找到最快的算法,而通用的程序則不能達到這點,因為要考慮到很多很多特殊的情況。
比如給定一個分布函數F(x),我想要寫一個随機數生成器是的生成的随機數的分布函數為F(x).方法很簡單,先生成一個均勻分布的随機數a,是的a~U(0,1),然後計算F的反函數在a處的值。很多人可能會用fsolve之類的辦法,但是這不是最快的。如果我們已經知道F是一個單增的函數,那麼這個解有且僅有一個。這樣我們就可以直接使用一些算法去解決他。
類似的問題還有如果我們知道導數,那麼求最優化最好的方法也許是牛頓法,而不是用單純形法去尋找,那樣既不精确又慢
但是通用的程序也是非常吸引人的,因為可以大大的減少開發的時間,如果計算時間不是首要考慮的問題的話。
8、盡量使你的程序更通用
也就是說,盡量使你的代碼能被重複利用。這樣可以節省很多寫程序的時間,而你發現這些東西都是你寫過很多遍的。
很多人沒有一個寫通用程序的好的習慣。比如說下面一個最簡單的例子:
x=randn(10000,1);
y2=zeros(10000,1);
for i=1: 10000
y2(i)=exp(x(i));
end
這樣寫的問題在于,如果你的x需要改變了,比如改成100維,那麼你需要修改不止一次。但是如果你寫成這樣:
x=randn(10000,1);
y2=zeros(length(x),1);
for i=1:length(x)
y2(i)=exp(x(i));
end
那麼是不是僅僅修改一個地方就可以了呢?
9、 盡量使你的程序模塊化
把需要重複進行的程序盡量寫成函數,便于修改和維護。寫成函數的好處是使你在同一時間隻關注一個問題,但是如果你把所有的東西都放在一個程序裡,你可能需要考慮的問題就不止一個了。
10、在使用變量之前先進行聲明,盡量少使用矩陣變維操作
這不是matlab必須的,但是是十分建議的。比如如果你寫下了如下的代碼:
for i=1:10000
y=y+i;
end
你沒有聲明y,而是直接試用了它,很可能會出現問題。比如你的内存裡之前已經有y,y=10,那麼你的計算結果是不是會大10呢?更有可能的情況是你之前已經運行了這個程序,但是你的開頭沒有clear(開頭使用clear也是很好的習慣)
此外,盡量少使用矩陣變維的操作。因為每次聲明變量或者矩陣變維,Matlab總要申請一個新内存空間,頻繁進行變維操作會很快侵蝕掉你的内存空間,這點在大矩陣的時候特别重要。
11、計算盡量多的使用矩陣,盡量少的使用循環
循環的好處是比較容易想,比較容易些,但是也比較難以維護,最重要的,速度很慢。
比如下面一個例子:
x=randn(10000,1);
tic
y1=exp(x);
toc
tic
y2=zeros(length(x),1);
for i=1:length(x)
y2(i)=exp(x(i));
end
toc
輸出結果:
Elapsed time is 0.000287 seconds.
Elapsed time is 0.000963 seconds.
可見使用矩陣比使用循環快了三倍。
12、如果進行大量的重複操作,可以考慮使用并行計算
比如在做MonteCarlo模拟的時候,你的每次循環都是獨立的(每次循環不影響下一次循環的結果),那麼可以考慮使用并行處理,如果你的電腦是多核的。
首先,你要用以下命令創建幾個并行的進程:
matlabpool local 4
其中4是你的計算機核心數。然後,使用parfor代替for循環就可以了。但是使用這個命令一定要注意使用前提和不要每次循環訪問同樣的可變的變量。
13、盡量少的涉及符号運算
Matlab最強大的是其數值運算能力,而不是符号運算。如果你需要處理諸如求導求極限之類的工作,用Mathematica或者Maple。特别是盡量少的使用符号定義的函數, 比如用fsolve之類的,如果隻是計算一次兩次非常方便,但是如果進行大量重複的此類運算,其速度很慢,最好研究清楚要解的函數的性質,用專門的算法進行處理,matlab大多數時候也有專門的工具箱。
14、壓縮你的内存空間
Matlab的内存管理方式使得内存經常“碎片化”,特别是當一個變量被清除出内存,留下的空間又不足以裝下下一個變量,内存就變成了“碎片”,這個跟硬盤碎片是一個道理。可以用"pack"命令。如果你的内存裡面有很大的矩陣,不要忘了經常用"clear"命令清除不用的矩陣。當然pack命令比較耗時,不要再循環裡面或者函數裡面使用。還有一個辦法就是先用save命令保存内存,然後全部清除掉,再用load命令載入。
15、使用稀疏矩陣
如果碰到一個矩陣很大,但是多數數字都是0,試着用sparse命令轉化為稀疏矩陣。一個例子是空間計量裡面的權重矩陣,一般來說多數是0,LeSage的空間計量工具箱裡面就是用的稀疏矩陣。
有話要說...