1.GeoPandas是什么
geopandas是一个开源项目,它的目的是使得在Python下更方便的处理地理空间数据。geopandas扩展了pandas的数据类型,允许其在几何类型上进行空间操作。geopandas主要结合了pandas和shapely框架的能力。
shapely 有一个名为 geometry 的类,也是python 中一个非常重要的类库,其中包含不同的几何对象。
geopandas两个主要的数据结构,分别是GeoSeries和GeoDataFrame,分别对应了pandas中Series和DataFrame的子类。
geopandas有三个基本类的几何对象(实际上是形状对象):点/点集合、 线/线集合、 多边形/多边形集合。
2.GeoSeries
GeoSeries就是包含了图形series的序列,他包含了几乎所有shapely对象的属性和方法。
在GeoSeries中可以直接使用Shapely的属性和方法。
- to_crs():更改坐标参考系。
- plot():绘制GeoSeries。
- GeoSeries.area: 返回一个Series,他包含了GeoSeries中的每个几何的面积(投影面积)。
- GeoSeries.bounds: 返回一个Series,包含了每个几何的边界,用列值minx,miny,maxx,maxy来表示。
- GeoSeries.distance(other): 它包含与其他GeoSeries对象(每个元素)或几何对象的最小距离.
- GeoSeries.length: 返回一个Series, 包含了每个要素的长度。
- GeoSeries.geom_type: 返回一个Series,包含了每个要素的几何对象类型。
- GeoSeries.exterior: 返回一个环形(LinearRings)的一个GeoSeries, 表示每个要素的外边界
- GeoSeries.interior: 返回一个内环的GeoSeries,他表示每个多边形的内环。
- GeoSeries.is_empty :返回一个布尔型的Series,若为空的几何图形,该值就为True。
- GeoSeries.is_ring:返回一个布尔型的Series,对于闭合的要素,该值就为True。
- GeoSeries.is_simple:返回一个布尔型的Series,如果几何体自身不交叉,该值就为True(仅对线串--LineStrings和线环--LineRings有意义)。
- GeoSeries.is_valid:返回一个布尔型的Series,如果几何体是有效的,该值就为True。
- GeoSeries.almost_equals(other[,decimal=6]):返回一个布尔型的Series对象,如果在指定的小数位精度下,每个对象所有点与其他对象大致相等,该值就为True(可见equals())。
- GeoSeries.contains(other): 返回一个布尔型的Series,如果每个对象的内部包含其他对象的内部和边界,并且它们的边界不相接,该值为True。
- GeoSeries.crosses(other):返回一个布尔型的Series,如果每个对象的内部与其他对象的内部相交但不包含,并且相交的部分小于这两个相交对象自身,该值为True。
- GeoSeries.disjoint(other): 返回一个布尔型的Series,如果每个对象的边界和内部与其他对象的边界和内部都不相交,该值为True。
- GeoSeries.equals(other):返回一个布尔型的Series,如果几何对象集合的边界,内部,外部都与其他几何对象一样,该值为True。
- GeoSeries.intersects(other):返回一个布尔型的Series,如果每个对象的边界和内部以其它任何形式与其他对象相交,该值为True。
- GeoSeries.touches(other):返回一个布尔型的Series,如果对象与其他对象至少有一个点相同,且它们的内部任何部分都不相交,该值为True。
- GeoSeries.within(other):返回一个布尔型的Series, 如果每个对象的边界和内部只与其他对象的内部相交(不包括边界和外部),该值为True(与contains()方法相反)。
3.GeoDataFrame
一个GeoDataFrame是一个列表数据结构,他包含了很多GeoSeries。
GeoDataFrame可以包含具有几何(形状)对象的其他列,但每次只能有一个列作为活动式几何。若更改活动式几何列,可使用set_geometry方法。
- GeoDataFrame.from_file(filename, **kwargs):
- GeoDataFrame.read_file(filename, **kwargs):
- GeoDataFrame.from_postgis(sql,con,geom_col='geom',crs=None,index_col=None,coerce_float=True,params=None) 从PostGIS数据库文件中加载GeoDataFrame。
- GeoSeries.to_crs(crs=None,epsg=None,inplace=False) 转换GeoDataFrame的geometry列中的所有几何图形到其他坐标参考系统。
- GeoSeries.to_file(filename,driver="ESRI Shapefile",**kwargs) 将GeoDataFrame写入文件。默认情况下,写成ESRI的shapefile格式。
- GeoSeries.to_json(**kwargs) 将GeoDataFrame以字符串的方式表示为GeoJSON对象返回。
- GeoSeries.plot(column=None,colormap=None,alpha=0.5,categorical=False,legend=False,axes=None) 绘制GeoDataFrame中几何图形。如果列参数给定,颜色根据这列的值绘制,否则在 geometry列调用GeoSeries.plot()函数。都封装在plot_dataframe()函数中。
4.geopand常用示例练习
注意: 插件库版本可能不兼容有些方法,作者使用以下版本,测OK
插件库名称 | 版本号 |
SQLAlchemy | 1.4.46 |
Shapely | 1.8.5 |
geopandas | 0.10.2 |
geopandas 可以做数据读取、展示、分析、拓展,甚至可以读取zip中的shapefile文件,还可以读取geojson、arcgis中的地理数据库gdb,一起qgis中的geoPackage存放的矢量数据。
- shape 文件读取
import geopandas
import matplotlib.pyplot as plt
data = geopandas.read_file(r'/Users/ecarx/Desktop/123/shp/AD_Lane.shp')
print(data.crs)
print(data.head())
data.plot()
plt.show()
- 创建shapefile文件,分别用点要素和线要素
data = geopandas.GeoSeries([geometry.Point(120.121, 60),
geometry.Point(121.43311, 59.122),
geometry.Point(121.034311, 58.999211),
geometry.Point(119.431221, 61.232311)], crs='EPSG:4326',index=["点1", "点2", "点3", "点4"])
# 将矢量数据data写入shape文件
data.to_file("Point.shp", driver='ESRI Shapefile', encodings="UTF-8")
data.plot()
plt.show()
导出shape文件,并展示点位信息
线和面,与点类似。
data = geopandas.GeoSeries([geometry.LineString([(120.32232, 51.222), (121.31032, 51.131), (120.8999, 51.101)]),
geometry.LineString([(121.32232, 51.009), (120.8993, 51.222), (120.14333, 50.1988)])],
crs='EPSG:4326', index=['线1', '线2'])
5.geopandas与PostGIS进行交互
import geopandas as gpd
from sqlalchemy import create_engine
import matplotlib.pyplot as plt
bj = gpd.read_file("/Users/ecarx/Downloads/110000.geoJson")
# bj.plot()
# plt.show()
engine = create_engine('postgresql://check_comxxx:Ku3pyaXsNW@dev-pg.test.xxxx.cloud:1921/check_comxxx')
bj.to_postgis(name="beijing", con=engine, if_exists='replace', schema='check_coxxx')
北京市的区块范围:
写入数据库展示:
读取数据库中的数据
import geopandas as gpd
from sqlalchemy import create_engine
import matplotlib.pyplot as plt
engine = create_engine('postgresql://check_comxxx:Ku3py1APxgNW@dev-pg.test.xxxx.cloud:1921/check_comxxx')
# 读post库中的数据
sql = "select * from beijing"
beijing = gpd.read_postgis(sql, con=engine, geom_col='geometry')
beijing.plot()
plt.show()