硅谷風(fēng)投大牛Peter Thiel真的了解中國嗎? |
發(fā)布時(shí)間:2015-08-10 文章來源: 瀏覽次數(shù):4401 |
Google使用兩個(gè)探測(cè)器來抓取網(wǎng)站上的內(nèi)容:Freshbot和Deepbot。深度探測(cè)器(Deepbot)每月出擊一次,受訪內(nèi)容在Google的主要索引之中。刷新探測(cè)器(Freshbot)是持續(xù)不斷地發(fā)現(xiàn)新的內(nèi)容,例如新的網(wǎng)站、論壇、博客等。看起來,Google是發(fā)現(xiàn)了一個(gè)新的網(wǎng)頁,之后再頻繁地再訪,來看看是否還有什么新的更新。假如有,這個(gè)新網(wǎng)站就會(huì)被加入到刷新探測(cè)器的名單中進(jìn)行訪問。 刷新探測(cè)器取得的結(jié)果是匯總在一個(gè)單獨(dú)的數(shù)據(jù)庫里。每一次刷新探測(cè)器進(jìn)行新的一輪輪回的時(shí)候都被重寫。刷新探測(cè)器和Google的主要索引是合在一起提供搜索結(jié)果的。 Google的操縱模式 收集---->采編/索引---->反饋的工作程序。事實(shí)上,搜索引擎包括以下幾個(gè)元素。 ·抓取狀態(tài):搜索引擎派出探測(cè)器到互聯(lián)網(wǎng)上不知倦怠地搜集網(wǎng)頁。 ·網(wǎng)頁倉庫:搜索來的網(wǎng)頁要集中在一個(gè)地方存儲(chǔ),等候索引處理。 ·索引收拾整頓:將網(wǎng)頁分門別類,進(jìn)行壓縮,等候進(jìn)行索引編類,而未壓縮的原始網(wǎng)頁資料被刪除掉。 ·索引狀態(tài):將壓縮后的網(wǎng)頁編目在不同的索引之下。 ·問詢狀態(tài):將用戶問詢所用的口語轉(zhuǎn)換成搜索引擎讀的懂的計(jì)算機(jī)語言,來咨詢各個(gè)索引求得相關(guān)謎底。 ·排名狀態(tài):搜索引擎將相關(guān)謎底根據(jù)一定的尺度以列表的形式排列給用戶。搜索引擎以為最好的謎底被推薦在首位,較次的排列隨后,以此類推。 SEO是逆向搜索推理 網(wǎng)站首先要知道搜索引擎是怎樣判斷網(wǎng)站質(zhì)量的,這個(gè)揣度搜索引擎的過程是逆向推理。這個(gè)逆向推理是從搜索引擎的搜索排名開始,去探索畢竟搜索引擎會(huì)將一些網(wǎng)站排列在搜索結(jié)果的前列,為什么一些網(wǎng)站連顯示的機(jī)會(huì)都沒有。最后推理出的結(jié)論是知道搜索引擎判斷和排名網(wǎng)站存在著哪些普遍規(guī)律,進(jìn)而知道網(wǎng)站的設(shè)計(jì)和推廣中哪些是應(yīng)該做的,哪些是不應(yīng)該做的。 Google的PageRank(PR) PageRank并非是“頁面等級(jí)”,而是“佩奇等級(jí)”。由于這里的Page指的是Google的創(chuàng)始人之一拉里·佩奇(Larry Page),從名字可以看出有的人生成就是為互聯(lián)網(wǎng)而存在。 公式 PR(A) = (1-d) + d(PR(Ti)/C(Ti)+...+PR(Tn)/C(Tn)) PR(A):網(wǎng)頁A的佩奇等級(jí)(PR) PR(Ti):鏈接網(wǎng)頁A的網(wǎng)頁Ti的佩奇等級(jí)(PR)。i可以是0-n,n是鏈接的總數(shù)。這個(gè)鏈接可以是來自任何網(wǎng)站的導(dǎo)入鏈接 C(Ti):網(wǎng)頁Ti往其他網(wǎng)站鏈接的數(shù)目(導(dǎo)出鏈接) d:阻尼系數(shù),介于0-1之間,Google設(shè)為0.85。 可以看出,網(wǎng)頁A的PR是由鏈接它的其他網(wǎng)頁Ti所決定的。假如在網(wǎng)頁Ti中有一個(gè)鏈接指向網(wǎng)頁A,那么A就得到了一個(gè)“投票”。但是假如網(wǎng)頁Ti中的導(dǎo)出鏈接假如越多,點(diǎn)擊指向A的可能性就越小。所以網(wǎng)頁Ti的PR只需要用C(Ti)來加權(quán)均勻。 當(dāng)然,決定網(wǎng)站排名的不僅僅是PR值,還有其他的因素。但是PR在google判定網(wǎng)站質(zhì)量中起著很重要的作用。 |
|