配置选项与参数
-  分布键(Distribution Key): • 选择:在大数据量表中,选择经常用于JOIN、WHERE条件中的列作为分布键,如Date、ID等。 • 策略:对于范围查询,使用HASH分布避免数据倾斜;对于维度表,通常选择ROUND-ROBIN分布。 
-  索引: • 类型:聚集列存储索引(CCI)针对大型数据扫描和聚合进行了优化。 • 策略:始终对大型事实表使用CCI,避免在大型表上使用传统的行存储索引。 
-  分区(Partitioning): • 选择:选择合理的分区列(如日期、ID范围等)来分区数据。 • 策略:对于大型表,采用分区可以有效地减少I/O并提高查询性能,尤其是范围查询。同时,要避免过多的分区导致开销增加。 
-  资源类(Resource Classes): • 控制:分配给查询的资源量(内存、CPU等)。 • 策略:为需要更多资源的查询分配更高的资源类,如使用“largerc”进行资源密集型查询。 
-  并行度(Parallelism): • 设置:可以调整查询的并行度设置来提高处理速度。 • 策略:适当地配置MAXDOP(最大并行度)设置,确保查询能够利用足够的并行度。 
-  数据加载: • 方法:使用PolyBase或BULK INSERT进行高效的数据加载。 • 策略:将ETL作业拆分成较小的批次进行加载,避免一次性加载过大的数据。 
-  查询优化: • 避免:不必要的子查询、联接以及全表扫描。 • 策略:优化ETL过程中使用的查询,减少不必要的转换逻辑;定期更新统计信息,以便查询优化器能够选择最合适的执行计划。 
-  结果缓存: • 启用:对于重复执行的查询,可以考虑使用结果缓存来加速查询。 
-  数据倾斜: • 监控:确保数据均匀分布,避免在某些节点上过多的数据聚集。 • 策略:使用合适的分布键、分区策略,并定期监控和调整。 
-  动态管理视图(DMVs): 
• 使用:如sys.dm_pdw_exec_requests、sys.dm_pdw_request_steps等。
• 策略:监控工作负载、连接、查询执行和tempdb使用情况,以识别性能瓶颈。
优化策略
-  监控与调整: • 使用Azure Monitor或Azure Synapse Studio中的查询性能见解来监控性能。 • 根据监控结果调整资源分配、索引、分区等配置。 
-  定期维护: • 定期清理过时或不必要的数据,减少系统负担。 • 定期检查和清理不再需要的索引,避免影响写入性能。 
-  数据仓库重建: • 如果数据仓库性能持续下降,考虑重建数据仓库,包括数据重新加载、重新分布和分区等。 
-  合理使用缓存: • 利用查询缓存提高频繁执行查询的响应时间。 
-  成本效益分析: • 在增加资源(如DWU)时,进行成本效益分析,确保不会过度增加资源。 



















