1. 制定背景
中央政府門戶網(wǎng)站內(nèi)容主要來源于國務(wù)院辦公廳和地方政府網(wǎng)站、部門兩站。中央政府門戶網(wǎng)站獲取各級(jí)政府及部門網(wǎng)站內(nèi)容的形式主要有網(wǎng)上抓取、信息報(bào)送、網(wǎng)站鏈接和欄目共建等方式。其中網(wǎng)上抓取是中央政府門戶網(wǎng)站從各級(jí)政府及部門網(wǎng)站獲取信息的主要方式之一。
網(wǎng)上抓取所面臨的問題是,各級(jí)政府及部門網(wǎng)站缺乏統(tǒng)一的內(nèi)容格式規(guī)范,不利于采集工具自動(dòng)抓取和分析信息,部分屬性不易準(zhǔn)確提取。為了更準(zhǔn)確地采集和分析各級(jí)政府及部門網(wǎng)站信息,需要規(guī)范網(wǎng)站的頁面內(nèi)容格式。各級(jí)政府及部門網(wǎng)站按照統(tǒng)一要求經(jīng)過規(guī)范化修改后,中央政府門戶網(wǎng)站可以通過采集工具
實(shí)現(xiàn)準(zhǔn)確的網(wǎng)上信息自動(dòng)抓取。
同時(shí),為了構(gòu)建政府網(wǎng)站服務(wù)體系,實(shí)現(xiàn)政府網(wǎng)站群的聯(lián)合檢索功能,需要制定各級(jí)政府及部門網(wǎng)站檢索系統(tǒng)的接口規(guī)范。
2 名詞解釋
服務(wù)系統(tǒng):指各級(jí)政府及部門網(wǎng)站上提供的網(wǎng)上辦事服務(wù)系統(tǒng)、網(wǎng)上申報(bào)服務(wù)系統(tǒng)、網(wǎng)上數(shù)據(jù)查詢系統(tǒng)等網(wǎng)上應(yīng)用服務(wù)系統(tǒng)。網(wǎng)上采集工具的目標(biāo)不是把其中的數(shù)據(jù)內(nèi)容進(jìn)行采集,而是從網(wǎng)站群上自動(dòng)發(fā)現(xiàn)這些服務(wù)系統(tǒng),獲取入口URL和相關(guān)描述信息,從而提供鏈接服務(wù)。
聯(lián)合檢索:在中央政府門戶網(wǎng)站提供的聯(lián)合檢索功能指,系統(tǒng)能夠?qū)z索請(qǐng)求分發(fā)給各級(jí)政府及部門網(wǎng)站的站內(nèi)檢索系統(tǒng),并將各網(wǎng)站站內(nèi)檢索系統(tǒng)的結(jié)果統(tǒng)一合并處理后返回給查詢用戶。這樣,用戶得到的檢索結(jié)果是各級(jí)政府及部門網(wǎng)站檢索結(jié)果的合集。
3 制定目標(biāo)
為了實(shí)現(xiàn)各級(jí)政府及部門網(wǎng)站的網(wǎng)上信息抓取,制定政府網(wǎng)站的建設(shè)規(guī)范是關(guān)鍵環(huán)節(jié)。本規(guī)范圍繞信息采集和網(wǎng)頁分析功能,在保持現(xiàn)有網(wǎng)站建設(shè)模式、不增加信息通道的前提下,使符合規(guī)范的網(wǎng)站可被中央政府門戶網(wǎng)站采集工具程序自動(dòng)識(shí)別,實(shí)現(xiàn)網(wǎng)站和網(wǎng)頁屬性自動(dòng)標(biāo)引,最大限度減少人工介入。
本規(guī)范配合中央政府門戶網(wǎng)站采集工具的功能,實(shí)現(xiàn)以下目標(biāo):
(1)收集并驗(yàn)證網(wǎng)站信息;
(2)準(zhǔn)確收集各級(jí)政府及部門網(wǎng)站的政務(wù)信息;
(3)自動(dòng)發(fā)現(xiàn)并登記網(wǎng)上服務(wù)系統(tǒng);
(4)實(shí)現(xiàn)政府網(wǎng)站群聯(lián)合檢索;
(5)準(zhǔn)確分析網(wǎng)頁屬性信息。
為實(shí)現(xiàn)上述目標(biāo),本規(guī)范制定了五方面條款,具體含義和作用說明如下:
1.網(wǎng)站信息:用于標(biāo)注網(wǎng)站和欄目的信息,比如名稱、行業(yè)、地區(qū)、欄目名稱、分類等。通過對(duì)網(wǎng)站信息的標(biāo)注,不但可以使采集程序獲得網(wǎng)站的基本信息,更重要的是,可以把這些信息作為政府網(wǎng)站的檢驗(yàn)標(biāo)志之一,實(shí)現(xiàn)政府網(wǎng)站驗(yàn)證校對(duì)。
2.政務(wù)信息:指各級(jí)政府及部門網(wǎng)站發(fā)布的與政府業(yè)務(wù)相關(guān)的信息,包括但不限于機(jī)構(gòu)信息、法律法規(guī)、規(guī)范性文件、辦事指南等。政務(wù)信息是政府網(wǎng)站所發(fā)布的主要信息,在中央政府門戶網(wǎng)站建設(shè)中,需要將各級(jí)政府及部門網(wǎng)站所發(fā)布的政務(wù)信息進(jìn)行匯總、分類,提供導(dǎo)航、檢索等服務(wù)。
3.服務(wù)系統(tǒng):在中央政府門戶網(wǎng)站建設(shè)中,需要提供網(wǎng)上服務(wù)系統(tǒng)的準(zhǔn)確定位地址信息,方便公眾通過中央政府門戶網(wǎng)站查詢并快速到達(dá)該服務(wù)系統(tǒng)的入口網(wǎng)頁。
4.檢索系統(tǒng)接口:許多政府網(wǎng)站提供站內(nèi)內(nèi)容檢索服務(wù)。但是網(wǎng)站所采用的檢索入口以及結(jié)果展示頁面各不相同,需要統(tǒng)一檢索系統(tǒng)接口,實(shí)現(xiàn)政府網(wǎng)站群的聯(lián)合檢索功能。
5.網(wǎng)頁內(nèi)容:網(wǎng)頁中包含標(biāo)題、正文、作者、發(fā)表日期、正文、來源等信息,但是如果沒有格式規(guī)范,網(wǎng)頁分析程序難以準(zhǔn)確提取這些信息。通過制定統(tǒng)一的網(wǎng)頁內(nèi)容格式規(guī)范,可以實(shí)現(xiàn)網(wǎng)頁內(nèi)容的準(zhǔn)確分析和提取。
實(shí)現(xiàn)規(guī)范的基本方法是,在網(wǎng)頁HTML中,嵌入特定意義的標(biāo)識(shí)信息,用于標(biāo)注各項(xiàng)有意義的內(nèi)容,這些嵌入的標(biāo)識(shí)信息采用HTML的meta置標(biāo),在實(shí)現(xiàn)屬性標(biāo)注功能的同時(shí),不影響網(wǎng)頁的顯示效果。
4 適用對(duì)象和范圍
本規(guī)范適用于各級(jí)政府及部門網(wǎng)站的建設(shè),包括國務(wù)院各部門網(wǎng)站,副省級(jí)以上地方政府網(wǎng)站。中央政府門戶網(wǎng)站采集工具將全面支持本規(guī)范,實(shí)現(xiàn)對(duì)符合規(guī)范的政府網(wǎng)站的準(zhǔn)確數(shù)據(jù)采集。
5 制定原理和原則
5.1 制定原理
構(gòu)成網(wǎng)頁的HTML文件邏輯上可以分為內(nèi)容(Content)和頁面展示(Style)兩部分,內(nèi)容部分包括網(wǎng)頁的標(biāo)題、日期、正文、作者等數(shù)據(jù)元素,它決定了網(wǎng)頁所包含的信息;頁面展示部分包括每個(gè)元素的位置、字體、大小、顏色等,它決定了網(wǎng)頁在瀏覽器中的顯示效果。HTML文件能夠?qū)?nèi)容和頁面展示有機(jī)地結(jié)合為一體。
本規(guī)范的制定主要從網(wǎng)頁內(nèi)容標(biāo)注入手,從內(nèi)容層面對(duì)網(wǎng)頁進(jìn)行標(biāo)注,而忽略頁面展示層面。具體方法是,利用HTML文件的特性,在不影響網(wǎng)頁展示效果的前提下,加入各類屬性置標(biāo),規(guī)定網(wǎng)站發(fā)布內(nèi)容必須包含的信息。例如,在網(wǎng)頁中標(biāo)注網(wǎng)站信息、欄目信息、標(biāo)題、日期、作者、來源、服務(wù)系統(tǒng)等元數(shù)據(jù)內(nèi)容,從根本上保證其它應(yīng)用對(duì)該網(wǎng)頁屬性的準(zhǔn)確識(shí)別和提取。
5.2 規(guī)范制定原則
各級(jí)政府及部門網(wǎng)站已經(jīng)經(jīng)歷了多年的建設(shè),花費(fèi)了設(shè)計(jì)和管理維護(hù)人員的大量心血。為了盡量減少網(wǎng)站的改動(dòng),規(guī)范制定過程中充分考慮了各級(jí)政府及部門網(wǎng)站的實(shí)際特點(diǎn)和改造難度,提供可行的操作規(guī)范。
規(guī)范條款簡單明了,貼近實(shí)際應(yīng)用,提供明確的操作步驟,方便維護(hù)人員實(shí)施。
5.2.2 劃分等級(jí)
為了使本規(guī)范具有更好的可行性,避免一刀切所帶來的網(wǎng)站改造壓力,采用了劃分等級(jí)的方法,方便分階段、分步驟實(shí)現(xiàn)對(duì)規(guī)范的支持。具體等級(jí)劃分和含義如下:
● 1級(jí):重要程度高,實(shí)現(xiàn)緊急度高。
● 2級(jí):重要程度中,實(shí)現(xiàn)緊急度高。
● 3級(jí):重要程度高,實(shí)現(xiàn)緊急度低。
5.3 條款描述方法
每項(xiàng)規(guī)范條款從以下方面給出描述:
編號(hào):規(guī)范條款編號(hào)。
用途:給出規(guī)范條款的用途。
等級(jí):給出規(guī)范條款的等級(jí)。
范圍:給出規(guī)范條款的影響范圍,范圍的描述方法包括:
主頁:指各級(jí)政府及部門網(wǎng)站的主頁。
欄目:指各級(jí)政府及部門網(wǎng)站上的欄目頁面。
內(nèi)容頁:指非主頁、非欄目,包含政務(wù)信息等實(shí)際內(nèi)容的網(wǎng)頁。
各級(jí)網(wǎng)頁:泛指各級(jí)政府及部門網(wǎng)站上的網(wǎng)頁。
網(wǎng)頁索引文件:為向網(wǎng)站外部提供站內(nèi)網(wǎng)頁信息而專門設(shè)置的XML索引文件,它包含網(wǎng)站所發(fā)布網(wǎng)頁的索引信息。
服務(wù)系統(tǒng)主頁:特指各個(gè)服務(wù)系統(tǒng)的入口網(wǎng)頁。
系統(tǒng)接口:指系統(tǒng)可以提供某種形式的調(diào)用接口,實(shí)現(xiàn)請(qǐng)求的接收和執(zhí)行結(jié)果的返回。
內(nèi)容:給出具體的規(guī)范內(nèi)容及標(biāo)注方法。
5.4 其它說明
規(guī)范條款描述中使用“*”號(hào)來區(qū)分必標(biāo)注項(xiàng)和可選標(biāo)注項(xiàng),帶有“*”號(hào)的meta置標(biāo)為必須標(biāo)注項(xiàng),不帶“*”號(hào)的屬性為可選項(xiàng)。
條款中涉及“地區(qū)”屬性,應(yīng)按照中國行政區(qū)劃中的規(guī)范地名名稱進(jìn)行標(biāo)注。省和市之間用半角“/”符號(hào)分隔,比如“山東省青島市”應(yīng)標(biāo)注為“山東省/青島市”。
條款中涉及“行業(yè)”、“分類”等屬性,目前各單位可以自行填寫(或者暫時(shí)省略不填),在中央政府門戶網(wǎng)站制定統(tǒng)一的相關(guān)規(guī)范之后,再按統(tǒng)一規(guī)范執(zhí)行。分類標(biāo)注可以支持多級(jí),類和類之間采用半角“/”分隔。
條款中有關(guān)“地區(qū)”、“分類”、“作者”等屬性,均可以填寫多值,多值之間采用半角分號(hào)“;”分隔。
當(dāng)有多項(xiàng)條款需要作用在一個(gè)網(wǎng)頁上時(shí),把各項(xiàng)條款需要在網(wǎng)頁上所作的標(biāo)注內(nèi)容進(jìn)行簡單累加即可。
為了滿足政府網(wǎng)站將來發(fā)展的需要,本規(guī)范中網(wǎng)頁置標(biāo)的格式遵循XHTML規(guī)范,網(wǎng)頁標(biāo)簽的元素和內(nèi)容全部采用英文小寫,并且網(wǎng)頁標(biāo)簽閉合。
6 規(guī)范條款
6.1 網(wǎng)站信息規(guī)范
6.1.1 主頁標(biāo)注
編號(hào):No.1
說明:在各級(jí)政府及部門網(wǎng)站的主頁上給出網(wǎng)站名稱、主頁URL、行業(yè)、地域、分類等屬性。
用途:該屬性是網(wǎng)站的一項(xiàng)重要屬性,用于標(biāo)注網(wǎng)站的名稱和屬性。
等級(jí):1。
范圍:主頁。
內(nèi)容:在主頁(一般為index.html/index.htm/index.asp/index.jsp等)HTML文件中,在<head>區(qū)域內(nèi)用meta置標(biāo)的方式給出網(wǎng)站名稱、主頁URL、行業(yè)、地區(qū)、分類。格式描述:
*<meta name="sitename"content="[網(wǎng)站名稱]"/>
*<meta name="siteurl"content="[URL地址]"/>
<meta name="guild"content="[行業(yè)]"/>
*<meta name="district"content="[地區(qū)]"/>
<meta name="sitecatalog"content="[分類]"/>
其中,“網(wǎng)站名稱”是指網(wǎng)站的正式名稱。例如:
<meta name="sitename"content="中國農(nóng)業(yè)信息網(wǎng)"/>
<meta name="siteurl"content="http://www.agri.gov.cn/"/>
<meta name="guild"content="農(nóng)業(yè)"/>
<meta name="district"content="北京市"/>
<meta name="sitecatalog"content="農(nóng)業(yè)"/>
6.1.2 欄目標(biāo)注
編號(hào):No.2
說明:在各級(jí)政府及部門網(wǎng)站的欄目頁面上標(biāo)注欄目屬性。
用途:利用該標(biāo)注可以獲得網(wǎng)頁所屬的欄目信息。
等級(jí):3。
范圍:欄目。
內(nèi)容:在欄目HTML文件中,在<head>區(qū)域內(nèi)用meta置標(biāo)的方式標(biāo)注欄目名稱。
格式描述:
*<meta name="channel"content="[欄目名稱]"/>
*<meta name="chnlcatalog"content="[分類]"/>
例如:
<meta name="channel"content="三講教育"/>
<meta name="chnlcatalog"content="政治/三講教育"/>
6.2 政務(wù)信息規(guī)范
6.2.1 政務(wù)信息標(biāo)注(1)
編號(hào):No.3
說明:在各級(jí)政府及部門網(wǎng)站的主頁上標(biāo)注政務(wù)信息。
用途:對(duì)網(wǎng)站的政務(wù)信息進(jìn)行標(biāo)注。
等級(jí):l。
范圍:主頁。
內(nèi)容:在主頁HTML文件中,用meta置標(biāo)的方式,將包含政務(wù)信息的欄目列出,如果多個(gè)欄目中包含政務(wù)信息,則可以為每個(gè)欄目填寫一個(gè)meta置標(biāo)。格式描述:
*<meta name="serve"content="[欄目URL],[分類],[地區(qū)]"/>
其中,“分類”是指政務(wù)信息的分類屬性,可以是法律法規(guī)、政策解釋、辦事指南等;“地區(qū)”是指政務(wù)信息的地域?qū)傩裕粚傩灾g用半角逗號(hào)“,”分隔。
例如:
<meta name="serve"content="http://www.beijing.gov.cn/fg/def
ault.htm,法律法規(guī),北京市"/>
6.2.2 政務(wù)信息標(biāo)注(2)
編號(hào):No.4
說明:在網(wǎng)頁中標(biāo)注本網(wǎng)頁為一條政務(wù)信息。
用途:用于對(duì)網(wǎng)站中政務(wù)信息網(wǎng)頁進(jìn)行標(biāo)注。
等級(jí):3。
范圍:內(nèi)容頁。
內(nèi)容:在內(nèi)容頁的HTML文件中,在<head>區(qū)域內(nèi)用meta置標(biāo)的方式標(biāo)注政務(wù)信息。格式描述:
*<meta name="serve"content="[分類],[地區(qū)]"/>
其中,“分類”是指政務(wù)信息的分類屬性,可以是法律法規(guī)、政策解釋、辦事指南等;“地區(qū)”是指政務(wù)信息的地域?qū)傩裕粚傩灾g用半角逗號(hào)“,”分隔。
例如:
<meta name="serve"content="法律法規(guī),北京市"/>
6.3 服務(wù)系統(tǒng)規(guī)范
6.3.1 服務(wù)系統(tǒng)標(biāo)注
編號(hào):No.5
說明:在各級(jí)政府及部門網(wǎng)站的主頁上給出所包含的服務(wù)系統(tǒng)信息。
用途:對(duì)于包含應(yīng)用系統(tǒng)(比如“機(jī)動(dòng)車違章查詢系統(tǒng)”,“在線招投標(biāo)系統(tǒng)”等)的網(wǎng)站,通過在主頁上對(duì)這些服務(wù)系統(tǒng)的基本信息進(jìn)行標(biāo)注,即可實(shí)現(xiàn)這些服務(wù)系統(tǒng)被自動(dòng)收集和整合的目的。
等級(jí):1。
范圍:主頁。
內(nèi)容:在主頁的HTML文件中,在<head>區(qū)域內(nèi)用meta置標(biāo)的方式給出本網(wǎng)站服務(wù)系統(tǒng)的基本信息。如果一個(gè)網(wǎng)站有多個(gè)服務(wù)系統(tǒng),則可以為每個(gè)應(yīng)用填寫一個(gè)meta置標(biāo)。格式描述:
*<meta name="services"content="[網(wǎng)上服務(wù)名稱],[服務(wù)入口URL],[分類],[地區(qū)]"/>
屬性之間用半角逗號(hào)“,”分隔。例如:
<meta name="services"content="北京市公安局公安交通管理局車輛違法查詢,http://www.bjjtgl.gov,cn,公安,北京市"/>
6.4 檢索系統(tǒng)規(guī)范
6.4.1 檢索系統(tǒng)接口
編號(hào):No.6
說明:對(duì)各級(jí)政府及部門網(wǎng)站的站內(nèi)檢索服務(wù)提出規(guī)范化要求。
用途:用于實(shí)現(xiàn)政府網(wǎng)站群聯(lián)合檢索。
等級(jí):2。
范圍:系統(tǒng)接口。
內(nèi)容:為了實(shí)現(xiàn)政府網(wǎng)站群的聯(lián)合檢索,對(duì)各級(jí)政府及部門網(wǎng)站目前的站內(nèi)檢索系統(tǒng)提出規(guī)范化要求。基本思想是,各網(wǎng)站實(shí)現(xiàn)一套統(tǒng)一的檢索接口,包括能夠接受統(tǒng)一格式要求的HTTP檢索請(qǐng)求,并返回統(tǒng)一格式要求的檢索結(jié)果頁面。
(1)接收統(tǒng)一的HTTP檢索請(qǐng)求:
站點(diǎn)檢索系統(tǒng)能夠接收以下格式提交的檢索請(qǐng)求:
http://[hostname]/[程序名]?query=[檢索條件]&page=[頁碼]&
count=[每頁數(shù)目]&export=xml
其中,“程序名”、“檢索條件”、“頁碼”、“每頁數(shù)目”是可變參數(shù),可由聯(lián)合檢索程序設(shè)置,分別表示調(diào)用的檢索程序名、檢索條件、取結(jié)果的頁碼編號(hào)、每頁包含的網(wǎng)頁數(shù)。
“檢索條件”是gb18030(兼容gb2312和gbk)或utf-8兩種編碼之一;檢索的詞間關(guān)系支持“and”運(yùn)算,使用半角空格分隔(比如“北京 美國”表示檢索“中國”和“美國”同時(shí)出現(xiàn)的文章)。頁碼取值范圍l—l0;每頁數(shù)目取值范圍10—20,一般取10或20,對(duì)于超出上述取值范圍的請(qǐng)求,檢索系統(tǒng)可以不支持。
聯(lián)合檢索應(yīng)用程序會(huì)將經(jīng)過URL編碼的請(qǐng)求發(fā)送給站點(diǎn)檢索系統(tǒng)。例如,檢索詞為“北京”的檢索請(qǐng)求可能為:
http://www.xinhuanet.com/search?query=%B1%B1%BE%A9&page=l&count=20&export=xml
為了實(shí)現(xiàn)站點(diǎn)檢索系統(tǒng)的安全調(diào)用,除了上述基本檢索方式之外,系統(tǒng)還提供一種安全檢索方式,對(duì)于對(duì)安全性有較高要求的網(wǎng)站,通過實(shí)現(xiàn)安全訪問接口,達(dá)到安全訪問的目的。
安全調(diào)用的基本思路是,中央政府門戶網(wǎng)站的聯(lián)合檢索應(yīng)用程序?qū)z索請(qǐng)求進(jìn)行加密處理,各級(jí)政府及部門網(wǎng)站的站內(nèi)檢索系統(tǒng)對(duì)檢索請(qǐng)求進(jìn)行解密,只有經(jīng)過正確解密的請(qǐng)求才被認(rèn)為是合法的檢索請(qǐng)求,其它檢索請(qǐng)求不被響應(yīng)。這樣可以屏蔽非法的檢索請(qǐng)求,減輕系統(tǒng)的運(yùn)行壓力。
具體做法是,利用RSA加密算法生成一對(duì)鑰匙——公鑰和私鑰,公鑰由中央政府門戶網(wǎng)站公開給各級(jí)政府及部門網(wǎng)站的站內(nèi)檢索系統(tǒng)使用,私鑰在中央政府門戶網(wǎng)站聯(lián)合檢索應(yīng)用中使用。聯(lián)合檢索應(yīng)用程序首先利用私鑰對(duì)正常檢索請(qǐng)求的URL串進(jìn)行加密,形成一個(gè)加密的URL串,表現(xiàn)為:
http://[hostname]/[程序名]?search=[加密字符串]
其中,“加密字符串”為原表達(dá)式“query=[檢索條件]&page
=[頁碼]&count=[每頁數(shù)目]&export=xml”經(jīng)過私鑰加密后的字符串。
聯(lián)合檢索應(yīng)用程序?qū)ι鲜黾用?/span>URL進(jìn)行URL編碼后發(fā)送給各級(jí)政府及部門網(wǎng)站的站內(nèi)檢索系統(tǒng)。
站內(nèi)檢索系統(tǒng)接收到加密URL的檢索請(qǐng)求后,首先進(jìn)行URL解碼,獲得加密的URL串,然后進(jìn)行認(rèn)證——使用公鑰對(duì)URL串進(jìn)行解密,如果能夠正確還原出“query=[檢索條件]& page=[頁碼]&count=[每頁數(shù)目]&export=xml”這樣格式的字符串,則執(zhí)行檢索并返回檢索結(jié)果,否則,認(rèn)證失敗,站內(nèi)檢索系統(tǒng)不執(zhí)行檢索操作。
轉(zhuǎn)載:西安市人民政府網(wǎng)