1、項目背景及建設目標
1.1項目背景
隨著互聯網技術和應用的普及和發展,新聞、論壇、博客、微博客、視頻網站等輿情產生速度、傳播渠道等均呈現出爆炸式快速增長的態勢,據初步統計,2009年以來,互聯網網上具有負面影響的輿情數量同比增長了近 2倍以上。目前主要存在以下問題拯待解決:
1)網絡輿情監測導控工作幾乎完全是通過人工的方式開展的,手工發現關注網站的局部性、時間上的滯后性與信息發布的隨意性、隨時性之間的矛盾日益嚴重。
2)缺乏輿情信息綜合分析,導致分析關聯能力不足。例如,特定輿情事件在新聞、論壇、微博、博客等不同來源上的關聯分析。
3)各分支在輿情信息的管理上缺乏統一的信息報送、輿情導控任務下發等業務流程的信息化工具支撐。
4)目前,輿情導控體系中缺乏可量化的考核數據作為各級領導年底評分的依據;
在經過多次現場充分調研的基礎上,提出建設輿情綜合導控系統的規劃,制定一個統一的元數據標準和數據交換接口規范,作為輿情分析研判和考核統計的元數據,從而對互聯網上傳播的輿情信息進行準確查找、歸類、排重、分析、研判、導控和核查,實現對互聯網上各類海量數據快速分析處理,更加準確的掌握各類輿情信息傳播的數量、范圍、趨勢、影響等情況,最終形成一套科學、全面、高效地掌握網上輿情監測導控系統。
1.2建設目標
系統建設總體實現目標是:能夠全面、準確、及時的獲取與“我”有關的網絡信息,深層次的對互聯網輿情信息進行分析和挖掘,通過統一的綜合指揮系統實現輿情的及時上傳和導控任務的集中下達,并從在線率、引導發帖、信息報送及任務下發等多方面綜合考核,確保以互聯網輿情監測小組為核心的整體監測成效。
2、總體架構
2.1軟件架構

整個系統設計分為數據采集子系統、輿情信息數據倉庫、輿情研判分析子系統、引導指揮子系統、引導考核子系統幾個部分。
2.1.1數據采集子系統
負責對信息源頭采集,采集子系統主要實現多線程、集群采集模式。滿足項目采集深度和廣度要求,采集深度按照需求可采集到新聞評論、微博轉發數、粉絲數以及論壇的評論樹回帖數等。
采集廣度本系統提供通用采集配置,支持大部分新聞、論壇的采集,只需要配置 URL即可實現采集。采集性能可以靈活配置策略,分為指定調度和隨機調度兩個模式。采集時效性可以定制。
2.1.2輿情信息數據倉庫
按照系統制定的數據規范支持外圍系統數據接入,數據倉庫設計分布式架構,通過集群方式擴展項目的規模。主要分為分布式儲存與全文索引、關系數據庫。同時對外提供 API訪問接口。數據入庫經過數據的加工處理包括自動摘要、實體抽取、內容分類等操作為后續研判提供標準數據。
2.1.3輿情研判分析子系統
側重業務需求根據各項指標綜合計算輿情熱點、負面信息、專題分析等。系統創新設計了基于多層關鍵字不同權重的數據推送算法實現海量數據中自動推送用戶真正關心的輿情線索。
2.1.4引導指揮子系統
融合輿情管控業務流程。實現重大、敏感輿情信息的逐級上報及領導審核;可通過系統下發導控任務且短信提醒功能,確保導控任務通知及時、到位;
2.1.5引導考核子系統
針對任務完成情況、導控情況、信息報送及在線等進行多角度考核,對網評員工作量和工作效果提供科學評估依據。
2.2關鍵技術
2.2.1自動摘要
在輿情分析過程中,通過自動摘要簡明、確切地描述聚出來話題的中心內容,摘要是以提供文獻內容概括為目的,不加評論和補充解釋。
基于統計的自動摘要也稱為自動摘錄,是將文本視為句子的線性序列,將句子視為詞的線性序列。包括以下步驟:

原始文本處理:
按照計算機能夠識別的形式輸入文本信息,比如:鍵盤輸入、手寫錄入、文本掃描、圖形識別、語音識別等。
詞語權重計算:
關鍵詞"進行詞頻統計。對原始文本信息中的"句子權重計算:根據句子中詞頻等信息計算句子權重。其標準為:句子權重與句中所含"關鍵詞"的數量成正比;文本信息中包含提示詞,則提高句子權重;文本信息中特殊位置上的句子權重增加;若句子中包含廢棄指示詞則句子權重減小;句子長度與句子權重成反比。
文摘句提取:
對原文中所有句子按權值高低降序排列,權值最高的若干句子被確定為文摘句。
文摘句輸出:
將所有文摘句按照它們在原文中的出現順序輸出。
2.2.2自動聚類
采集回的互聯網數據包羅萬象,為減輕人工巡檢輿情事件的負擔以及撐控輿情事件的發展態勢,系統定期對采集回的互聯網數據進行自動聚類,形成近期互聯網上最新、最熱、敏感等話題。
自動聚類是基于相似性算法的自動聚類技術。根據文本內容的相似度,將內容聚合成不同的類別,同時對每一個聚得的類別,給出精確的類別主題詞,包括最熱話題、最新話題、敏感話題。主要包括以下幾個步聚:
特征提取。
建立聚類相似矩陣,因為相似度是定義一個聚類的基礎。
用算法進行聚類。
2.2.3自動分類
目前,大部分網站采用了 AJAX架構,頁面代碼分析無法獲取網站分類信息,為了更加清楚的展示各類輿情信息,如涉警、維穩等在互聯網上的分布情況,準確的分析輿情的傳播范圍,清晰的展現輿情信息,對互聯網輿情信息進行分類就顯得極為重要。
自動分類技術根據文獻內容進行類別劃分的功能,可以用于地域分類、涉警分類、維穩分類、治安分類等諸多應用??梢宰詣拥貙ξ臋n進行分類,賦予文檔一個預先定義的類別主題詞,便于文檔的組織,不需人工干預。類分析模式共抽出了四種,以后可以通過增加、覆蓋或繼承來擴展:
地域分析模式:地域詞典分為三層,第一層是具有唯一性的詞,比如在中國,深圳是唯一的一個地方;第二層是地域中的下一級地名,比如市下的區或省下的市都可以,看具體怎么布局。第三層是地域中地名,但有可能在各個地方都存在的或該詞還有可能是其它性質的詞。比如:萬福佳可能是地名,也有可能是人名。根據句中出現各層的詞的情況,得分情況也不同,最后再對文檔中的所有句子地域得分進行匯總。
一層詞典分析模式:
詞典只分為一層,根據文檔中出現詞典中的詞和詞頻情況進行計算相關度。
二層詞典分析模式:
詞典分為二層,一個句子首先根據查找出現第一層的詞,再根據出現第一層詞的前后幾個詞判斷是否是第二層的詞,這樣根據第一層的詞前后識別第二層的詞的情況計算該句相關度,最后對所有句子進行匯總分析得到文檔相關度。
三層詞典分析模式:
詞典分為三層,一個句子首先根據查找出現第一層的詞,再根據出現第一層詞的前后幾個詞判斷是否是第二層的詞,再根據第二層詞的前后判斷第三層的詞,這樣根據第一層的詞前后識別第二層的詞,再根據第二層詞識別第三層詞的情況計算該句相關度,最后對所有句子進行匯總分析得到文檔相關度。

2.2.4數據推送
互聯網信息的傳播速度快、范圍廣的特點,為正確引導互聯網的發展,必須第一時間內將公安機關關心的涉警、涉穩、治安等輿情信息檢測與預警出來,系統采用數據自動推送技術在輿情事件第一爆發點時以短信或郵件形式通知工作人員,以便進行正確引導。
數據推送分析是綜合研判中的一部分,主要綜合考慮兩個方面:
數據來源:根據數據來源的不同,各個類的相關度會根據不同閥值做調整。
相關度:地域與其它類之間的相互影響,最后得出一篇文檔的相關度。根據地域相關度的大小,對其它類的相關度根據不同閥值重新計算。
總體上通過這樣的邏輯就很容易實現兩種效果,一是分類,具體分什么類、類的詞典等都可以通過配置實現,這樣就不分受地域和類別的影響而影響源碼。二是數據推送,通過分類之后進行各個類之間的分析和研判,得到一個總的相關度,通過閥值控制是否推送,是否要這功能可以配置來實現。

2.2.5實體抽取
互聯網為輿情事件傳播的高發載地,其中包含了很多有價值的線索信息,為有利于公安民警能快速、準確的從網頁信息中獲取有價值的線索信息,系統采用實體抽取技術,將頁網信息人名、地名、機構名、專有名詞等提取出來存入數據庫中。
實體抽取任務是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等,從而提取這些實體。
主要涉及到三個方面的問題:
分詞的選擇:
是不分詞還是采用自動分詞系統或人工分詞;
領域的取舍:
比如:老鷹大戰雄鹿。"老鷹"和"雄鹿"均為 NBA 隊名;也可以均指動物,這就涉及到領域問題;
方法的選擇:
在方法的選擇上主要分為語言學方法和統計學方法兩種;
2.2.6情感傾向分析
根據業務的不同,把負面范圍也相應進行劃分,基于這些考慮負面詞典分為二層詞典:主體詞和負面行為詞典。只有符合這樣的模式句子片段才被認為有效負面語義。

負面詞典分為二層,一個句子首先根據查找出現第一層的詞,再根據出現第一層詞的前后幾個詞判斷是否是第二層的詞,這樣根據第一層的詞前后識別第二層的詞的情況計算該句相關度,最后對所有句子進行匯總分析得到內容的負面性。
2.2.7相似分析
相似分析原理圖

2.2.8分布式存儲
由于互聯網上的數據量非常龐大,而網上信息之間關聯的情況錯綜復雜,所以有必要將爬行到的數據存儲起來再做進一步的分析以及備案,但對這些數據進行存儲將是海量的。對如此大量的數據進行高效查詢就用到了全文檢索技術,這里需要額外建立一個索引文件,通過空間換時間的方式來用戶查詢的速度。
為了應對這樣的業務需求,采用基于sphinx內核算法優化的全文檢索技術,支持分布式的海量數據應用;基于中文分詞和一元分詞結合的辦法在數據查準率、查全率上進行大方面的技術突破。且支持分布式的應用部署。
3、系統業務模型
針對互聯網輿情監管的業務特點,本項目提出了一個整體化的監管業務模型。首先,在監管對象的定義方面,本項目將以如圖1所示的三個監管對象為目標:以傳播源頭(論壇、微博等)、傳播內容(輿情信息)和傳播主體(網民)為監管對象,以時間為分析維度對互聯網輿情的相關因素進行全方位統一的監管。
通過快速準確的定位傳播源頭,以及對傳播內容的采集、分析、追蹤,并監控傳播主體的網上行為,確保傳播信息的合法性從而在整個的信息傳播過程中,多層次多角度的進行有效的監管,并與實際工作業務緊密結合,使整個監管平臺能有效的實現“發現傳播源頭、追蹤傳播內容、監控傳播主體”的職能。

互聯網輿情監管對象示意圖
考慮到輿情的特征——本地站點或全國熱門站點上首發,然后被轉載到各大主流站點,企圖擴大事態影響面。
系統通過監控全國熱門(例如:百度貼吧、天涯論壇、鳳凰論壇、騰訊論壇、網易論壇等)、本地站點來發現輿情信息,作為輿情線索。對發現的重大、敏感輿情通過專題進一步跟蹤,通過在各主流站點的站內搜索對輿情進行專項補存,從而發現有哪些站點、板塊上在傳播相關輿情信息,為輿情的處置提供了依據。

系統業務流程圖
輿情系統 :輿情線索發現,重大輿情補存,全局掌控輿情散布、傳播及擴散態勢,掌握輿情處置主動權,規避事態持續升級的被動處理局面;
監控人員:結合系統輔助研判 , 上報重大輿情,執行處置任務并向領導反饋結果;市局領導:關注重大輿情,以專報為決策點,決策并下發輿情處置任務,考核監控人員。
4、部署架構

互聯網輿情綜合管理系統部署架構圖
服務器:包括輿情采集服務器、數據庫服務器、輿情分析服務器和 WEB管理服務器。
輿情采集服務器用來采集關注的論壇、博客、微博、境內 (外)網站、 QQ群等海量數據,支持分布式采集和多線程并發采集。將數據實時發布到全文數據庫和數據庫服務器中;
數據庫服務器用來存儲采集的元數據,并執行內容去重、無用信息過濾及關鍵信息提取等動作;同時響應 WEB管理服務器的輿情查詢;為了提高建設速度,全文檢索采用分布式技術,采取基于 SPINXS內核擴展的專用檢索技術保障業務需要;
輿情分析服務器用來實現數據推送、相似分析、實體抽取及自動摘要等相關分析,可集成部署到數據庫服務器中,可根據實際情況選擇;
WEB管理服務器進行用戶管理、組織架構管理、關鍵詞維護、系統管理、分類管理等,同時展現各種輿情信息、熱點話題、輿情分布與趨勢統計報表。
5、系統功能
5.1采集子系統
5.1.1采集范圍
數據采集是輿情工作的首要任務,互聯網傳播特點和網民行為特征要求系統全面獲取網絡信息,信息時效性要求系統及時采集到網絡信息。
系統內置數千個影響程度大、傳播面廣、網民參與度高的網站,從廣度和深度全面抓取信息;
監測本地網站中的重點板塊,搜索本地有害信息;
監測全國熱門重點網站及省廳下發的責任網站;
實現對網站、博客、微博等的監測,拓展輿情廣度;
采集國內、外新聞網站,以便實時掌握國、內外要聞;
不僅支持對文本信息的采集,也支持音視頻輿情信息的發現,系統內置百度視頻、56網、土豆網等近百個視頻站點;
不同來源采用不同采集方式保障采集高效及實時性;
5.1.2采集速度
采集系統主要基于多線程、集群采集模式。滿足項目采集深度和廣度要求,同時滿足采集時效性能要求;公安部要求重點站點采集速度小于 5分鐘;根據已實施項目的實際運行情況來看,大部分重點站點的采集速度在 2-3分鐘左右,個別特別關注的站點數據采集 1分鐘即可完成。
采集性能可通過靈活配置調度模式來保障。調度策略分為指定調度和隨機調度兩個模式。采集時效性可以定制,可根據不同網站的重要程度按需設置對應的調度任務。調度的類型分為按天調度和按周調度,這兩種調度模式可滿足不同的應用需求。
幾種不同策略的常見應用舉例如下:
CASE1:重點站點連續性采集
天涯、百度等全國性熱門網站可配置為連續性采集且5分鐘采集一次。
CASE2:一般站點間隔性采集
蕪湖論壇、江門論壇等地方性網站,主要特點是數據量更新較少。如果配置采集太頻繁也會浪費有限的服務器資源;可配置為連續性采集且 1小時采集一次。
5.1.3增加站點
針對關注的站點列表,通過網站管理模塊進行站點的維護。支持各來源站點:
新聞網站
論壇
博客
微博
視頻站點
境外媒體
元搜索
與此同時,可配置站點的區域(全國、省級、地方等)及重要程度(非常重要、重要、一般、不重要);
5.1.4增加板塊
分析目前互聯網上新聞、論壇等站點的自身特點,大多數網站采用同樣的模板,基于這一特征開發出支持大多數網站的“通用論壇解析模板”和“通用爬蟲解析模板”,因此,僅輸入關注板塊的入口 URL并選擇對應的解析模板即可實現大部分站點的配置;
個別比較復雜的站點,目前均已定制開發針對性的解析器來實現站點數據的采集,這些解析器內置在系統中,可根據實際需要進行選擇;例如:選擇全國熱門的站點、本地站點及行業相關的站點。
在實際增加站點的過程中,可能存在極個別的站點系統無對應的解析器且通用解析器也不支持,可通知廠家由廠家快速支持。
針對不同站點進行關注板塊的配置,根據板塊的熱度及關注程度可按需設置每次爬取指定的站點、主貼列表及回帖列表的爬取范圍,同時支持對采集性能進行配置,新增板塊時選擇對應的調度模式來滿足數據采集性能需求,例如可以對重點關注的網站設置快頻率采集,同時結合系統提供的代理 IP池模塊來解決爬行服務器高頻度爬取指定站點導致IP被封的問題。
5.1.5采集監控
系統自動統計每一臺采集服務器每天完成的調度趨勢。通過趨勢輔助判斷服務器運行任務是否飽和,以便根據監控的數據動態調優各服務器的采集任務,確保在保障采集時效性的前提下,合理利用每臺服務器資源。
服務器調度任務數可細化到每小時,同時通過選擇時期可對歷史調度任務數進行查閱,通過對全局數據的掌握,使得任務調配決策更科學化。
與此同時,采集監控模塊提供了按周統計全部服務器調度總數及每臺服務器調度任務數的趨勢,多臺采集服務器可以通過比對動態調配任務,以便資源合理利用。
5.1.6網站采集監控
可通過網站采集監控模塊監控各論壇中各板塊,目前的調度模式、目前總調度次數、發現資源數量、采集資源數量、所耗時間及任務狀態等各種關注的數據。
例如:發現資源數量可輔助分析每天各板塊中更新(當日發布的新貼子及當日回復的舊貼子)的帖文數量,以及每天發布的新貼文的數量等,且通過歷史數據的統計結果,綜合分析各網站及各板塊的熱度,為后續確定熱門網站及板塊的增加數據依據。
與此同時,論壇經常會遇到改版而導致采集不到數據的情況,通過該模塊可看出來,且改版的會自動發郵件給廠家工程師及時處理,對用戶透明;
6、輿情預警子系統
6.1信息推送
系統支持業務類預警輿情自動推送,無需事先設置關鍵字,基于語義推送行業關注的輿情信息。例如:針對公安類業務數據的智能推送如下圖所示,包括涉警、涉恐、維穩、涉槍、涉搶、涉毒、涉偷、涉騙、涉黃等各類業務分類信息。
6.2關鍵字預警
不同用戶關注的輿情有所不同,提煉關注事件的特征關鍵字并預先配置,系統根據關鍵字規則自動匹配相關帖文,并智能展現給對應用戶,代替手工逐條篩選的現狀,不僅提高工作效率且獲取的信息更全面;作為信息推送的互補,可隨時自定義關鍵字來關注重點關注的事件;
6.3事件輿情信息推送
可根據事先配置的事件關鍵字自動推送預警事件輿情。在輿情規劃時將關注事件的特征關鍵字進行初始化,在使用過程中可隨時增加事件關鍵字來關注突發的事件。
6.4領導人輿情信息推送
可根據事先配置的領導人關鍵字自動推送預警領導人輿情。在地方性突發事件中,通過網絡的轉載及個別心懷叵測人員的推波助瀾,其地方最高領導人往往無辜的推上輿論的“制高點”,為保護領導及地方政府的聲譽,將地方相關領導設置為輿情監測對象,在某些居心叵測的人員策劃事件升級前,及早發現并預警輿情,才能將這些非正當事件扼殺在萌芽狀態。
6.5敏感輿情個性化推送
不同分支的用戶關注的輿情有所不同,因此個性化定制自己關注事件的關鍵字是必要的,自定義關鍵字預警推送的輿情信息只有自己可以看到,以達到敏感輿情的保密性與輿情預研判的雙重效果;
6.6輿情報警
針對敏感或需要重點關注的事件,系統支持界面報警、短信報警、郵件報警等多樣化報警方式,及時掌握已知需要重點關注的輿情和未知的敏感輿情。根據系統關鍵字設置的分類——事件關鍵字、領導關鍵字和自定義關鍵字;其中自定義關鍵字為每個用戶各自關注的關鍵字,根據不同級別事件設置的關鍵字,可定義是否發送郵件、是否發送短信;
針對事件關鍵字和領導人關鍵字為系統所有用戶均需關注的輿情事件,由系統管理員統一指定報警郵箱和手機號;針對不同的事件關鍵字和領導人關鍵字組合,可事先定義是否發送短信。針對重要的或敏感的輿情事件,可發送短信實時提醒,以便快速掌控最新輿情信息;針對低級別輿情事件,不需要即可知道,系統不發送短信,避免短信騷擾;
7、輿情分析研判子系統
7.1熱點分析
1)熱點發現的原理概述
輿情是指一定時期內一定范圍內的社會群體對某些社會想象和現實的主觀反映,實時地計算輿情能夠及時掌握輿情動態、積極引導社會輿論。因此輿情熱點自動發現和分析技術的研究和應用是其中重要的一環,可以幫助用戶及時快捷地了解和掌握互聯網熱點,為掌握社情民意起到推動作用。
本系統計算熱點主要目的是為了找出互聯網全網范圍內與公安相關行業的熱點輿情事件。該發現過程分為基于中文分詞技術、采集內容的聚類、對聚類結果進行敏感熱點的計算。
系統通過已經采集的數據結合各大重要網站的實時信息進行分詞、相似度計算、以及信息爆發度綜合計算當前的互聯網輿情熱點。同時系統還可以根據計算的熱點結合系統的預警類別實現熱點分類;針對各媒體的重要度自動判斷熱點值;這對信息媒體根據媒體類別國外和國內的屬性,自動計算國內外熱點劃分;針對自動抽取的作者、發布人等信息,進行熱點活躍源頭分析和判斷;以及媒體類型重度及 WEB2.0媒體判斷媒體的參與度。
2)算法描述
熱點計算法主要基于以下幾方面的關鍵技術:
1.基于詞性的中文分詞
對于采集的信息實現基于詞性的中文分詞后,統計不同詞性的詞頻做為熱點一個維度進行計算。
2. 聚類算法
系統利用 k-means算法進行聚合;結合相似度相關算法,得到各熱點的傳播量,根據時間軸計算爆發量作為熱點的一個維度計算。
3. 熱度算法
本系統主要依據媒體的重要、報道數量、爆發量以及發布時間等多個因素綜合計算當前的熱點。系統采取定時后臺運行方式,不影響前臺業務應用。
3)數據分類
對于系統采集到的數據,都會對已設定的類別進行識別。系統從以下幾個角度來保證實現的效果:
1. 在準確性方面,這些類別中的關鍵詞中支持與或非關系的組合,可以有效的對數據進行篩選。
2. 在及時性方面,對于新采集到的信息,都會進行相應的分類篩選,被命中的信息會記錄下來。
3. 在靈活性方面,這些類別可以讓用戶自己設定,也可以由管理員設定。個人設定的類別只有自己可以看到,管理員設定的類別可以讓所有人看到。為了減免系統自 動識別的誤判等問題,系統提供人工進行對分類后的信息進行修改。
4. 在便捷性方面,對于這些分類出來的內容,查看正文后會變成已審閱狀態,也可以手動將所有的文本置為審閱狀態。同時提供批量操作的方式。
5.對于無關信息的過濾
為了找到用戶關心的熱點信息,系統是從前面發現出來的熱點中進行篩選。系統中包含一份行業字典,對于已經發現的熱點會進行相應的過濾。同時結合全文檢索中的相似度原理,智能進行數據過濾。
7.2專題分析
系統運用主題聚類方法將同一事件的信息匯聚成專題。主題聚類方法具有如下三個方面的優勢。首先主題聚類以主題分析、主題提取和描述為基礎, 可以發揮主題法在組織信息方面的優勢,對聚類特征進行主題或語義控制,提高信息服務的質量。
其次,主題聚類是在聚類對象的主題提取基礎上進行的, 通過主題提取可以對聚類對象進行維度約簡,從而避免高維數據計算問題,大大縮短信息服務的響應時間。最后, 主題聚類方法不同于傳統的文本聚類方法在于 :它還可以對聚類的結果進行基于主題的描述 ,提高聚類結果的可讀性與可理解性。
7.3輿情報告
包含今天、昨天、前天監測日報,本周、上周監測周報,本月上月監測月報及自定義時間簡報。每個簡報包含以下內容:輿情概況、數據概況、總體輿情統計、負面輿情統計、負面信息來源網站排名 Top10、各主題信息量統計、確認負面信息、已選信息。
7.4溯源分析
每一件互聯網輿情事件的發現,都是由網名或網名組織在互聯網上快速、大量發布輿情信息導致的,為避免有害輿情帶來的危害,必須找到相應源頭采取相應的封堵措施,通過分析專題中網絡輿情信息傳播的時間、空間結構,發現網絡輿情話題源頭。在用戶手動設定的專題中將獲取到的所有貼子,根據貼子的發表時間前后追蹤到第一個發表相關信息的網站、網名及發表的所有貼子并按照時間順序展示出來,以flash的方式圖形形象化表示。
7.5重點網民
1)重點人監控
研究網民的特點不難發現,總存在一大類網民——長期持續發布或散播某輿論事件或針對某領導的負面輿論。這類網民在輿情事件的發布及傳播的過程中,起著關鍵的作用,輿論會隨其在網上活動的頻繁度產生波動,這些網民必須重點關注,系統提供手工增加重點網民的功能,系統自動采集該網民在微博、博客等信息發布渠道上發布的所有帖文;
2)重點網民關聯關系
通過其它渠道獲取到重點網民的關系,可將關系添加到系統中,以便系統呈現各重點網民的關系,圖形化展現方便快速定位出敏感輿情發布與傳播的組織圖;
3)重點事件
針對重點網民在互聯網上發布的所帖文,可設置為需要重點關注的對象,進行重點跟蹤,系統可統一展示某重點網民發布的所有重點事件,并可根據重點網名的虛擬身份查詢在互聯網上發布輿情信息的分布情況;
8、輿情引導指揮子系統
8.1輿情任務下達
針對新發現的輿情,通過系統的任務下發模塊,向全體“網評員”發布引導指令和引導內容,發布引導任務的同時可進行短信提醒,確保所有網評員第一時間內接收到導控任務。下發任務后,可查詢“我下發的所有任務”,同時可查看所有“下發給我的任務”;“下發任務”界面及“我下發的所有任務”。
8.2輿情信息上報
各分支機構發現的重要輿情可通過系統分級上報,支持三級報送平臺;監控人員上報的信息給分管領導,分管領導對輿情信息進一步過濾,同時將領導關注的信息進一步上報;考慮到監控人員或分支的不唯一性,存在重復報送同一條信息的情況,為降低分管領導審核報送信息的工作量,同一條輿情信息不同的監控人員每天只能上報一次。
系統支持快捷上報和手工上報功能。在瀏覽帖文時,針對人工研判為負面的輿情信息可直接在頁面進行報送,系統直接將報送帖文的標題、正文、URL等信息直接關聯到報送頁面,無需人工再次拷貝或輸入,僅需選擇上報的機構或人員即可,上報簡單、方便;系統提供基于業務的上報機制,除上報輿情信息外,同時系統支持上報信息的類別至少支持工作報告、綜合信息、重點網民和其它信息幾類;
系統同時支持對歷史上報的信息進行查詢,分為我上報的信息和上報給我的信息,不僅可查詢到所有的報送信息,而且可查詢到各報送信息目前的狀態。
針對監控人員上報給分管領導的輿情信息不夠詳細或缺少內容等,分管領導可將上報的該信息直接退回;被上級機構或領導退回的信息,在信息報送用戶的首頁右下角彈出關聯的退回標簽,該標簽必須簽收,否則每次登錄系統均會重新提醒;
9、輿情引導考核子系統
9.1引導考核
數據庫自動存儲了引導員的發貼列表及內容,用來存放所有網評員在各網絡陣地中的發貼及回貼數據;目前各大網站基本都支持基于虛擬賬號站內搜索發貼(例如:天涯、百度等),針對該類主流網站可通過系統引導員定時采集模塊輪巡引導員表中的所有虛擬賬號,在虛擬賬號對應的站點上完成站內檢索及采集、入庫,實現對引導員發貼數據的自動記錄;針對個別不支持基于站內搜索采集的站點,可根據虛擬賬號通過采集系統實現采集與識別,智能發現引導員發貼并同步到引導員發貼表中,在保障采集數據完整性的情況下實現引導員發貼數據的考核。
系統支持通過在線考核、引導員發帖考核、信息報送考核及任務下發考核等多角度進行考核,并支持按單位考核、按部門考核及按個人考核等多個緯度,作為年底考核輿情監控人員的依據;
9.2網評員管理
將虛擬賬號預先錄入到系統中,并與網評員的系統登錄賬號實現關聯,實現引導員系統賬號與發帖虛擬賬號的對應關系;針對首次實施支持通過 EXCEL表批量導入,降低人員工作強度。
9.3網站核查
輿情導控工作執行后,必須有核查機制對導控工作的效果進行檢查,輿情工作核查模塊的功能可能通過系統設置核查任務或以 excel表的形式導入核查任務,通過系統自動核查。
1.系統設置核查任務:系統提供按新聞、論壇等信息的核查,設置核查任務名、站點名、信息的 URL、數據類型、核查項 (新聞網站首頁是否消失、新聞評論否關閉、數量減少或停止增長、論壇首頁是否已消失、論壇列表頁是置頂是否已取消、論壇信息主題以及回貼是否已刪除、論壇信息是否已經關閉回貼、網民觀點是否變化,觀點變化的內容)、任務執行時間;通過系統設置的核查任務后,爬蟲任務根據任務執行時間定期到互聯網將導控任務的執行結果收集回來。
2. Excel核查任務導入:系統支持將批量的導控任務導入系統進行核查,按核查任務名、站點名、信息的 URL、數據類型、核查項、任務執行時間格式,批量將核查任務導入系統后,系統自動將導入的任務核查結果收集回來。