“8·12天津濱海新區爆炸事故”已經過去了近3年,大量的人員傷亡與財產損失給我們帶來了慘痛的教訓,同時也令我們開始反思城市危險品管理中存在的問題。當時,事故調查組從企業違規、政府枉法、危化品監管不力等方面給出了事發原因。
與其不同的是,本文將以一個更加宏觀的層面,從大數據的角度,探討城市危險品管理中存在的問題,并提出相關的防范建議。本文的相關工作已經發表在SIGKDD 2017上。
對于城市安全來講,
哪些危險品最需防范?
最需要防范的是離我們最近的危險品。
首先給出結論:比起易燃易爆程度、毒性程度等危險品本身的性質,危險品與我們的距離才是更能威脅我們生命財產安全的因素。以兩個事故為例。
一如前文所提,2015年8月12日,天津濱海新區危險品倉庫發生爆炸,造成了173人死亡、8人失蹤、797人受傷的嚴重事故。事故原因是涉案公司在靠近住宅區的地點違規存儲了近3000噸的危化品并發生自燃。
另外一則事故是,2001年9月,位于法國西南部工業城市圖盧茲的AZF化工廠發生強烈爆炸,事故造成31人死亡和2500人受傷。時任圖盧茲市市長事后表示,此次事故說明圖盧茲市民實際上是在“與炸彈同眠”。
長久以來,由于危險品存儲與運輸不當而造成的城市安全事故層出不窮,而令我們刻骨銘心的事故都包含了一個特點,那就是“離我們太近了”。
不考慮倫理問題,僅就事件后果而言,我們害怕的不是落在戈壁灘上的原子彈,而是家園旁的一公斤TNT。
定義了危險品對于我們的危險性,那么如何尋找城市中由于危險品的不合理規劃導致的危險區域?如何得知造成城市區域危險的原因?如何預測危險的發生?
為了解決這些問題,BIGSCity興趣組的相關研究者研發了Dangerous Goods Eyes(DGeye)系統,其從大數據的角度為這些問題的解決提供了新的方法。
系統介紹
DGeye系統主要由多源數據融合、危險模式挖掘、因果依賴網絡及其應用構成。
多源數據融合的目標是區域危險性的評估,危險模式挖掘的目標是發現城市中長期存在的、穩定的危險模式,因果依賴網絡及其應用的目標是研究模式間的因果關系以及預測城市區域危險性。下面我們將具體介紹這些部分。
1、數據來源
DGeye系統的數據來源由危險品運輸車輛軌跡和手機信令數據兩部分構成。
首先是危險品車輛的軌跡數據。2010年7月,國務院印發《關于進一步加強企業安全生產工作的通知》,要求自2011年8月1日起,所有新出廠的危險品運輸車輛,均需安裝北斗衛星定位裝置。
定位數據由地方交通管理部門進行分級收集管理,并接入交通部運營平臺,從而實現了對于全國危險品車輛位置的實時管理。
然而只了解危險品車輛的位置并不能完全滿足危險品管理的要求。DGeye系統除了需要知道危險品在哪里之外,還需要了解“人”在哪里。
手機信令數據(手機和基站之間進行信號連接的次數記錄,不記名、不含隱私信息)能夠統計城市中手機用戶的數量,DGeye系統使用手機信令數據作為第二個主要的數據來源。
DGeye系統使用柵格化方法,將城市地圖劃分為500m×500m的正方形區域,并對每一個區域的危險品車輛數據和手機用戶所代表的人口數據進行了統計。
下圖使用2015年1月的數據,展示了北京和天津兩座城市中人口數量的分布和危險品車輛的分布情況(左圖為人口分布,右圖為危險品車輛分布)。
圖1 京津兩市人口與危險品車輛分布
2、數據融合
從圖1中可以看出,如果我們只考慮危險品車輛而不考慮人口的分布,會因為絕大多數危險品車輛都分布在城市外圍,而認為城市中心區域并沒有太嚴重的危險品運輸危險。因此需要對兩種數據進行融合。
數據融合的主要挑戰是兩類數據在尺度上的異構性。全北京的總人口超過兩千萬,但是危險品車輛的總數不超過一千輛,如果直接將兩種數據進行融合,危險品車輛的信息會完全淹沒在巨量的人口數據當中。
為了解決這一問題,DGeye使用馬氏距離將兩種數據進行尺度歸一化。對于一個區域,我們使用人口和危險品數量在馬氏距離空間上的乘積作為該區域的危險評(Risky Score)。當一個區域的危險評分高于某個閾值時,系統就認為該區域是一個危險區域(Risky Zone)。
下圖展示了京津兩地某日早晨10點的危險區域分布和每個區域的危險評分。顏色由綠到紅,表示Risky Score由低到高。從圖中可以看出,一些位于市中心的高危險區域被檢測了出來。
圖2 京津兩市的Risky Zone分布
3、危險模式挖掘
對于一個城市來說,相比于突發的不可控事件,我們更加關心長期存在的、穩定的危險,并且以此作為研究城市危險品危險的基石。
上一節中,Risky Zones每時每刻都在發生著變化,其對于危險的實時監控十分重要。然而,也正是因為這一原因,使得Risky Zones僅能反映城市中短暫的危險事件,而不能反映出較為穩定的城市危險模式。
事實上,一個穩定的危險模式,對應的是危險在時間上的頻繁性和空間上的局部性。時間上的頻繁,才能保證危險模式的危險性與穩定性;空間上的局部,才能保證同一模式下危險的產生肌理相同。
為了挖掘危險模式,我們提出了一種Apriori-like算法來挖掘城市中危險區域的時空模式。
該算法的功能是發現城市中“空間上相鄰”(co-location)、“時間上頻繁”(co-occurrence)的危險區域組合,如下圖所示。
圖3 危險模式挖掘
通過Apriori-like算法,DGeye系統提取出了穩定的城市危險模式。下圖為北京和天津兩座城市在危險模式上的比較。
圖4 京津兩市的危險模式空間分布
從圖中可以看出,北京較大規模的危險模式集中在城市中心區域,而天津較大規模的危險模式則集中在天津港區。
這種差異反映出兩座城市具有不同的危險品運輸需求:北京的危險品需求多為加油站、餐飲燃氣等民用燃料為主,運輸車輛需要穿行市區,因此在市中心造成連片的危險模式;而天津的危險品需求主要是天津港的危化品進出口,因此危險模式集中在天津港區。
在時間分布上,京津兩市的危險模式也極為不同。
如下圖所示,北京的危險品需求內在驅動力為市民的生活需求,因此危險模式的時間分布和市民作息高度相關,具有有著很強的節律性;而天津的危險品需求為進出口工業需求,由于港口能夠進行三班倒的連續運營,因此天津的危險模式在時間上的分布比較均勻。
圖5 京津兩市的危險模式時間分布
4、危險模式依賴網絡
危險模式包含兩個語義信息,一個是模式對應的區域內危險品密度大,一個是人群密度大。
于是自然而然出現了一個問題,為什么危險品要去人群密度大的地方呢?
如上圖所示,其實無論是在北京還是天津,危險品的運輸的目的地往往是諸如加油站、餐館以及危險品生產地等。而在危險品到達目的地的過程中,很可能需要途經城市中人群密度較大的區域。
換言之,造成城市危險模式的原因就在于危險品目的地的危險貨物需求!
因此,在若干城市危險模式中,有些是危險品運輸的目的地,而有些則是由于危險品需求所導致的沿途風險。也就是說,城市危險模式之間存在著很強的因果依賴關系。
為了便于城市管理部門對危險模式進行治理,我們需要進一步地分析危險模式之間的依賴關系。
如下圖所示,我們構建了一個模式之間的依賴網絡,該網絡中每一個節點代表一個危險模式,當一輛危險品運輸車從A模式經過并駛向B模式時,我們會對A到B模式之間構建一條邊,并對邊的權重加1。
以此方法構建出的網絡,假設 p_xto p_y 有一條邊,那么我們可以認為區域 p_y 是危險品的下一目的地, p_y (或其下游節點)對危險品的需求其導致了區域 p_x 的危險,因此我們也稱該網絡為危險模式的因果依賴網絡。
基于危險模式的因果依賴網絡,為了得到網絡中“重要”的節點,我們使用帶重啟動的隨機游走算法(Random Walk with Restart),對危險模式進行了重要性排名。下圖是排名獲得的兩個例子。
圖6 危險模式排名案例分析
左圖為北京市的危險模式區域排名,其中紅色的模式為排名第一的危險模式。該模式覆蓋了北京市東四北大街和建國門內大街的一片區域。
生活在北京的朋友們都知道,該區域是北京的休閑和娛樂區,著名的“簋街”特色小吃一條街就在這里。該區域火鍋、烤魚、麻辣小龍蝦等特色餐飲吸引了眾多的食客(人口密度大)。同時,眾多餐館對煤氣罐等危險貨物的需求導致該區域危險品和人口聚集高度重合,形成了危險品安全危險。
左圖中綠色和藍色的兩個模式是因果依賴網絡中依賴于紅色區域的兩個主要模式。可以看出,這兩個模式覆蓋了從市區外到達紅色區域的幾條主干道路。
紅色區域對于危險品的迫切需求,導致了這兩個區域發生了危險品運輸危險。2016年1月17日,一輛輸液化氣運輸車在綠色區域發生了燃燒事故,其目的地就是紅色區域的特色餐館。
由于我們使用的是歷史數據,我們也想看看天津爆炸案發生前的危險排名情況。
在圖6的右圖中,我們可以看到當時天津市排名第一的危險模式覆蓋了沿著天津港的一條南北走向的主干道,該道路直接和天津港碼頭的內部鐵路相連。由該模式引起的兩個模式覆蓋了通往碼頭的一條東西主干道路,該道路穿過了天津濱海新區人口密度較高的城市中心。
東西道路和南北道路的交叉點,就是天津濱海新區爆炸事故的爆炸點!
此外,基于因果依賴網絡,我們提出了基于Expectation-Maximization (EM) 算法的貝葉斯模型,以當前一小時的危險模式分布來預測未來的一個小時的危險模式分布。由于我們的因果依賴網絡能夠很好的建模模式之間的因果依賴關系,因此獲得了非常好的預測效果。
總結
以城市危險品安全問題的發現與防范為動機,BIGSCity興趣組的相關研究者提出了一個新型系統DGeye用于城市危險品危險檢查和預測。其重點技術在于危險模式的挖掘、Apriori-like算法以及因果網絡的構建和應用。
危險模式揭示了歷史數據中京津兩市危險品管理危險的時空間分布規律。基于因果依賴網絡的應用能夠指導城市管理部門進行城市危險品治理和城市安全改造。
注:
本論文所使用的數據均為歷史數據,實驗結果只用于驗證模型和算法的有效性,并不代表京津兩市的當前城市危險品危險。在天津爆炸事故發生之后,政府對天津港的危險品管理進行了重點治理,目前隱患已經排除。
對北京簋街地區存在的液化氣運輸危險,大家也完全不必擔心。2016年,北京市啟動了包括鋪設天燃氣管道在內簋街的改造工程。目前,簋街已經完全告別了罐裝氣時代。
關于BIGSCity
北航智慧城市興趣組BIGSCITY是隸屬于北京航空航天大學計算機學院的一個學術研究小組,小組致力于研究機器學習與數據挖掘在城市科學、社會科學等領域的交叉應用技術。BIGSCITY的研究興趣包括:城市計算,時空數據挖掘,機器學習可解釋性,以及AI在交通、健康、金融等領域的應用等。本專欄將介紹BIGSCITY的一些研究成果,不定期更新與課題組研究相關的研究工作介紹,以及介紹與BIGSCITY相關的一切有趣的內容。
掃一掃在手機上閱讀本文章