在從網(wǎng)站優(yōu)化中自動抽取描述的過程中,文本中的一些內(nèi)容和對象非常重要,這將直接影響摘要的質(zhì)量。例如,標題中的關(guān)鍵詞、詞頻、詞位、句長、句子結(jié)構(gòu)和排版特征在描述自動生成過程中起著重要的作用,對摘要句的選擇和摘要的組織起著重要的作用。因此,有必要在市網(wǎng)站建設(shè)大會上對其進行更多的分析。
詞頻是指單詞出現(xiàn)在文本中的頻率。Jcy強調(diào),具有標引價值的詞往往是中頻詞,高頻詞是反映句子語法結(jié)構(gòu)的虛詞,低頻詞不適合作標引詞。同樣,在摘要中起重要作用的詞也是高頻詞(重要詞),這些詞在整篇文章中屬于中頻詞。根據(jù)這些“中頻詞”的個數(shù),計算句子的權(quán)重來確定候選句子。
有許多短語(詞)用來擴展反映課文內(nèi)容的摘要句。這樣的短語或單詞被稱為指示語。這種指示語有以下幾種形式:“本文論述”、“本文目的”、“總結(jié)”等。因此,這些句子很有可能被選為網(wǎng)站建設(shè)的候選句。
不同位置的句子對文章和段落主題的貢獻是不同的。Jcy已經(jīng)做了一些研究。我們認為段落的_句話是段落的主題句的概率是85%,段落末尾的句子的概率是7%。因此,這些位置的句子很可能會變成摘要句。在自動文摘過程中,需要增加這些特殊位置的句子權(quán)重。
摘要是短小精悍的,也就是說,用簡短的文字概括文章的主要內(nèi)容。因此,在選擇摘要句時,應(yīng)選擇簡潔短句,不宜選擇過長的句子。
文本信息的標題是文本內(nèi)容的重要體現(xiàn)。文本各個層次的標題在不同程度上反映了文本所討論的主要內(nèi)容。因此,網(wǎng)站優(yōu)化服務(wù),標題中的詞匯是摘要的重要素材,其中的關(guān)鍵詞往往與原文內(nèi)容和討論主題密切相關(guān)。去掉標題中的虛詞后,剩下的關(guān)鍵詞可以作為抽象句中的“重要詞”。
文章中的句式多種多樣,如陳述句、疑問句、感嘆句等,但文章主題的真實反映主要是陳述句,這也說明文章摘要主要由陳述句構(gòu)成。因此,在選擇抽象句時,應(yīng)盡量提取陳述句,避免疑問句、感嘆句等句子形式進入抽象句。
隨著網(wǎng)頁設(shè)計軟件的發(fā)展,對機讀文獻的排版格式也提出了更高的要求。編輯在確定一個詞或句子的權(quán)重時,經(jīng)常使用特殊的格式來突出文學作品的主題內(nèi)容,如增加字體大小、改為粗體或特殊字體、添加下劃線、文本中心排列、標記、增加縮進、添加陰影、添加邊框、超鏈接等,我們應(yīng)該考慮這些特殊的格式特性,適當增加權(quán)重。站點優(yōu)化對于整個SEO優(yōu)化項目來說,占有非常大的比例。外部環(huán)節(jié)只能在內(nèi)部優(yōu)化的基礎(chǔ)上起到錦上添花的作用。網(wǎng)頁描述的優(yōu)化與網(wǎng)站優(yōu)化中的重要內(nèi)容