地理空間數據工程
GIS 中的數據工程為分析準備空間數據。例如,此過程填充缺失值、添加字段、地理豐富和清理值。通常,整個數據科學工作流程從數據工程和必要的ETL 工作流程開始。數據工程方面可能是數據科學中最耗時的方面。但也是分析中最關鍵的部分之一,因其與輸入的數據一樣好。
在本文中,我們將探討地理空間數據工程的基本組成部分,并討論如何優化空間數據以進行分析。
數據工程中的關鍵術語
地理空間數據無處不在,是許多數據驅動的關鍵業務任務的核心。從繪制屬性邊界到分析作物產量,地理空間分析可以幫助組織理解他們的數據。就如任何類型的數據一樣,可以進行常規流程,據科學家/分析師能夠為業務團隊提供洞察力。以下是數據工程過程中通常附帶的一些關鍵術語:
- DATA WAREHOUSE:來自各種來源的數據庫 *** , 就像一個數據庫,每個人都可以擁有多個數據倉庫。
- DATA LAKE:非結構化數據的存儲庫,將其視為數據的傾倒場。
- DATABASE:表、列和行形式的結構化數據。
- 數據管道:一系列任務,每個任務都在一個數據集上運行, 將數據從一個系統傳遞到另一個系統,通常用于收集、 存儲和處理數據以用于分析目的。
- EXTRACT, TRANSFORM, LOAD (ETL):從一個系統中提取數據, 將其轉換為另一個系統可以使用的格式, 并將其加載到最終系統中用于業務分析的過程。
ETL——提取、轉換、加載
ETL(提取、轉換加載)是一系列流程,可讓數據為分析和業務洞察做好準備,將數據從一個數據庫移動到一個或多個數據庫作為管道項目。可將 ETL 視為接力賽。數據在某一時刻進入系統,并進行轉換,后從一個跑步者傳遞到下一個跑步者,直到到達最終目的地。

添加微信好友, 獲取更多信息
復制微信號

數據工程工具
數據工程是從各種來源收集數據并創建將數據從原始 來源移動到數據倉庫的數據管道的過程。盡管空間分析是許多數據驅動過程的核心,但地理空間分析可能具有挑戰性且乏味。盡管增加了復雜性,但 GIS 中的數據工程在過去幾年中一直受到關注。以下是一些對地理空間數據具有原生支持的關鍵數據工程軟件應用程序。
Snowflake
Snowflake 是基于云的數據倉庫和數據湖,從各種來源收集數據。它是一種軟件即服務 (SAS),可實現可擴展的數據存儲和處理。同樣,提供了更快速、更易于使用的靈活分析解決方案。它自己的 SQL 查詢引擎是專門為云設計的。Snowflake 支持的一些地理空間數據類型包括 Geo *** ON 和 PostGIS。
Apache AirFlow
這個基于 Python 的開源 ETL 工具專為構建和準備數據管道而設計。每個進程都是一個用有向無環圖 (DAG) 表示的任務,該有向無環圖 (DAG) 將進程從一個連接到另一個。此外,Apache AirFlow具有一組獨特的工具,可編寫、調度、迭代和監控數據管道。
Feature Manipulation Engine (FME)
SAFE Software 的 FME 的核心是空間 ETL 專家。通過利用 FME Cloud,是一種控制數據流的靈活解決方案。但也允許在其云基礎設施之外工作,例如使用 AWS。通過讀取器、寫入器和轉換器構建工作臺,可通過地理空間格式的更大互操作性來完善 ETL 過程。

Alteryx
這是數據工程工具的另一個示例,可在其中如 Apache Airflow 一樣將作業作為 DAG 執行。Alteryx專門從事 ETL 處理。這意味著也可以從其他來源提取和豐富數據,將轉換后的數據移動到 Snowflake 或任何基于云的平臺。
Elasticsearch
Elasticsearch 是免費的開源工具,用于搜索和分析所有類型的數據,包括文本信息和其他數據類型。這種數據工程工具也被廣泛用于 GIS 集成,因其將Elastic Maps 應用程序與 Kibana 相結合,允許分析和可視化地理空間數據。
Databricks
Databricks Geospatial Lakehouse 是用于大規模空間數據科學和 協作的數據工程平臺。Databricks是數據工程的主要參與者之一。甚至可以通過 CARTO Spatial Extension for Databricks 連接,以挖掘甚至靜音的潛力來解鎖云中的空間分析。
GIS中的數據工程
空間數據工程側重于管理、處理、清理和分析地理空間數據。它與空間數據科學密切相關。但數據工程師更關注數據工程過程的實施,而數據科學家更專注于數據的發現和探索。
GIS中的數據工程是從多個源中提取和編譯數據,將空間數據轉換為對業務有用的格式,后將其加載到數據倉庫中的過程。這種注重實踐、注重細節的職業要求數據工程師是耐心的問題解決者,喜歡細致的工作。但是,當將地理空間添加到等式中時,這會增加云中空間分析的復雜性。
來源:開源地理空間基金會中文分會
來源鏈接:https://www.osgeo.cn/post/1ea53
本站聲明:網站內容來源于 *** ,如有侵權,請聯系我們,我們將及時處理。