導讀:當前物聯網進展中,從技術發展趨勢呈現出智能化的特征,從管理應用發展趨勢呈現標準化的特征。伴隨著物聯網的應用場景的拓展,會對企業的自動化、信息化進程產生重要的影響。在物聯網的應用必然會產生海量數據,那么我們該如何有效的處理這些海量數據呢?
物聯網,即“萬物相連的互聯網”,是互聯網基礎上的延伸和擴展的網絡,將各種信息傳感設備與互聯網結合起來而形成的一個巨大網絡,實現在任何時間、任何地點,人、機、物的互聯互通。
當前物聯網進展中,從技術發展趨勢呈現出智能化的特征,從管理應用發展趨勢呈現標準化的特征。伴隨著物聯網的應用場景的拓展,會對企業的自動化、信息化進程產生重要的影響。在物聯網的應用必然會產生海量數據,那么我們該如何有效的處理這些海量數據呢?
什么是數據處理?
為了理解物聯網傳感器收集的大量數據,我們需要對其進行處理。換句話說,數據處理是對數據的采集、存儲、檢索、加工、變換和傳輸,目的是將原始數據轉換為有用的信息。其中,數據是數字、符號、字母和各種文字的集合。數據處理的輸出的是信息,并能以不同的形式呈現,例如純文本文件、圖表、電子表格或圖像。
數據處理過程通常遵循一個由三個基本階段組成的循環:輸入、處理和輸出。
輸入:輸入是數據處理周期的第一階段,這是一個將收集到的數據轉換成機器可讀形式以便計算機處理的階段。
處理:在處理階段,計算機將原始數據轉換成信息。轉換是通過使用不同的數據操作技術來執行的。
輸出:這是處理后的數據轉換成人類可讀形式并作為有用信息呈現給最終用戶的階段。
那么,數據處理是如何工作的呢?
數據處理的方法
物聯網的大規模應用會產生海量的數據,為了減輕系統的負荷,可以對數據的分級處理和降維處理。分級處理可以有效的減輕系統的負荷;降維處理可以有效的壓縮數據量,是處理一些數據必須進行的步驟,并且已在大規模的圖像處理算法中得到應用。
數據的分級處理
從信息處理的角度,物聯網可以分為三個層次:
1.底層是局部區域的協同感知。多個同類或異類的傳感器辦同感知被測目標,獲得立體的豐富的感知數據,通過局部區域的信息處理和融合,能夠獲得高精度的、可靠的感知信息;2.第二層是傳輸過程中的數據處理。包括面向無線傳輸網絡狀態的感知信息的進一步聚合和融合處理,自適應傳輸鏈路狀態的應用層編碼和傳送協議優化,以及數據的安全傳輸處理,使得海量信息能夠高效的、可靠和安全的傳輸;3.第三層是應用支撐層上的基于各類物聯網應用的共性支撐、服務決策、協調控制等。物聯網的信息是超大規模的海量信息,需要利用感知信息具有的時間和空間的關聯特性,實現不同空間區域上的多粒度的分級存儲和檢索,提高資源利用率和信息獲取效率。提出一種基于多級數據處理的嵌人式中間件系統的解決方案,系統集合了數據過濾、數據聚合和數據處理等功能,可在一定程度上提高大型應用系統的整體效率。
數據的降維處理
隨著信息技術的發展,特別是物聯網技術的應用,人們將會不分時間和地點,可以方便的獲得大量的信息,人們獲得的數據量將以指數形式快速增長。這些數據具有快速更新、數據維數更高、非結構化等特點。
目前人們對這些數據的處理還沒有形成相應的有效方法,傳統的數據分析方法在處理這些數據集合時,往往效果并不好,甚至在某些情況下失效。蘊含在數據中的知識和規律我們無法得知,將會導致數據災難問題。因此,人們就迫切希望去認識和探索這些數據之間的奧秘。而如何能有效的利用這些高維數據是人們面臨的基本問題。
在很多情況下,我們可以首先將數據的維數將到一個合理的大小,同時盡可能多的保留原始的信息,然后再將降維處理后的數據送入信息處理系統。這樣的做法是非常有用的。而降維算法也是一些機器學習、數據挖掘方法的組成部分。對數據降維處理,結合一些具體的業務需求,是一個行之有效對海量數據進行處理的方法。
降維算法主要分為線性降維算法和非線性降維算法。降維的實質就是尋找投影變換:從高維空間到低維空間變換。現在有一種最小量嵌入算法,在保持局部等距和角度不變的約束條件下,就能很好的揭示數據內在的流形結構。
數據處理的注意事項
既然我們已經知道了數據的分級和降維處理,那么在物聯網中涉及到這些問題時,有注意事項需要我們了解:
期望的輸出
即使數據處理周期從輸入階段開始,我們也應該首先考慮想要的輸出。換句話說,我們對什么樣的信息感興趣?一個示例是,在機器的溫度超過閾值時接收警報。
數據的存儲
一旦我們弄清楚想要的輸出是什么,我們就必須找到一種方法來獲得它。傳感器收集的數據必須以適當的形式存儲,以便將其轉換為我們正在尋找的信息。
例如,當機器運行時,我們可以定期(例如每10分鐘)接收數據。我們可能希望利用這些數據來計算自上次維護以來機器已經運行了多少小時。我們還可以檢測這些數據中的趨勢,并對何時達到特定的小時數進行預估(如果使用量保持在相同的水平)。
由于傳感器收集的數據量可能很大,我們應該購買可擴展的云服務來存儲數據。此外,我們還應該制定一個數據保留政策,以便定時清理不必要的數據。我們擁有的數據越多,保存的時間越長,存儲數據的成本就越高。另一方面,更少的數據意味著更少的見解和歷史參考。因此,我們必須在成本和想要存儲的數據量之間進行優先級排序和平衡。
更新頻率
在執行數據處理之前,重要的是要確定更新頻率和資源消耗(如計算能力、功率)之間的良性平衡。“良性平衡”完全取決于物聯網用例。
在某些用例中,必須立即知道收集的數據是如何影響輸出的,然而,這需要實時的數據處理,這可能非常消耗資源。在其他一些用例中,收集到的數據,每天處理一次就足夠了。
小結
在物聯網數據處理方面,我們正處于一個充滿挑戰的時刻,這個時刻充滿了機遇,也充滿了風險。通過收集、處理和分析物聯網數據,消費者和組織可以獲得有價值的見解,幫助他們成長并對未來做出更好的決策。
掃一掃在手機上閱讀本文章