一、網(wǎng)絡爬蟲
首先,
什么叫網(wǎng)絡爬蟲
網(wǎng)絡爬蟲又稱網(wǎng)絡蜘蛛,是指按照某種規(guī)則在網(wǎng)絡上爬取所需內(nèi)容的腳本程序。眾所周知,每個網(wǎng)頁通常包含其他網(wǎng)頁的入口,網(wǎng)絡爬蟲則通過一個網(wǎng)址依次進入其他網(wǎng)址獲取所需內(nèi)容。
?爬蟲有什么用
做垂直搜索引擎
科學研究:在線人類行為,在線社群演化,人類動力學研究,計量社會學,復雜網(wǎng)絡,數(shù)據(jù)挖掘,等領域的實證研究都需要大量數(shù)據(jù),網(wǎng)絡爬蟲是收集相關數(shù)據(jù)的利器。
爬蟲是搜索引擎的第一步也是最容易的一步。
用什么語言寫爬蟲
C,C++。高效率,快速,適合通用搜索引擎做全網(wǎng)爬取。缺點,開發(fā)慢等
腳本語言:Perl, Python, Java, Ruby。簡單,易學,良好的文本處理能方便網(wǎng)頁內(nèi)容的細致提取,但效率往往不高,適合對少量網(wǎng)站的聚焦爬取
Python優(yōu)勢很多,總結(jié)兩個要點:
1)抓取網(wǎng)頁本身的接口
相比與其他靜態(tài)編程語言,如java,c#,C++,python抓取網(wǎng)頁文檔的接口更簡潔;相比其他動態(tài)腳本語言,如perl,shell,python的urllib2包提供了較為完整的訪問網(wǎng)頁文檔的API。
此外,抓取網(wǎng)頁有時候需要模擬瀏覽器的行為,很多網(wǎng)站對于生硬的爬蟲抓取都是封殺的。這是我們需要模擬user agent的行為構造合適的請求,譬如模擬用戶登陸、模擬session/cookie的存儲和設置。
2)網(wǎng)頁抓取后的處理
抓取的網(wǎng)頁通常需要處理,比如過濾html標簽,提取文本等。python的beautifulsoap提供了簡潔的文檔處理功能,能用極短的代碼完成大部分文檔的處理。
二、網(wǎng)站開發(fā)
1、python基礎,因為用python開發(fā)的,所以python指定要會,最起碼你也得會條件判斷,循環(huán),函數(shù),類這些知識;
2、html、css的基礎知識,因為要開發(fā)網(wǎng)站,網(wǎng)頁都html和css寫的,最起碼這些知識你得會,就算不會寫前端,開發(fā)不出來特別漂亮的頁面,網(wǎng)站,最起碼要能看懂html標簽是;
3、數(shù)據(jù)庫基礎知識,因為開發(fā)一個網(wǎng)站的話,數(shù)據(jù)存在哪里,就是在數(shù)據(jù)庫里
三、人工智能
它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。 人工智能是計算機科學的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。
Python正在成為機器學習的語言。大多數(shù)機器語言課程都是使用Python語言編寫的,大量大公司使用的也是Python,讓許多人認為它是未來的主要編程語言。
四、自動化運維
Python能滿足絕大部分自動化運維的需求,又能做后端C/S架構,又能用WEB框架快速開發(fā)出高大上的WEB界面,只有當你自已有能力做出一套運維自動化系統(tǒng)的時候,你的價值才體現(xiàn)出來。