在数据处理和分析领域,数据压缩技术对于提升存储效率和计算性能至关重要,本篇文章将介绍如何在PowerBI中实现数字序列压缩。
问题描述
现有一串递增的数字序列字符串,为了方便观察规律,需要将其中的连续部分进行压缩,请自行建模完成计算。
具体问题如下图所示:
本案例的初始数据如下:
数字序列 |
---|
1,2,3,5,6,7,9,10,11 |
2,4,6,8,9,10 |
11,12,13,20,21,22 |
0,1,6,8,9,10 |
若需其它辅助表等,可自行创建并建模。
解题要点
由于数字序列是以字符串形式存储的,因此在查找连续数字部分之前,需要先提取出所有的数字。
提取数字的方法主要有两种:
1、使用FIND函数找出所有分隔符的位置,形成区间,然后再使用MID函数来提取。
2、将分隔符替换成"|",将其转变成PATH系列函数能识别的层级结构路径,然后借助PATH系列函数来提取。
另外,提取出所有数字后,关于连续数字的查找可以参考下表的逻辑:
数字 | 序号 | 分组 (数字-序号) |
---|---|---|
1 | 1 | 0 |
2 | 2 | 0 |
3 | 3 | 0 |
6 | 4 | 2 |
7 | 5 | 2 |
8 | 6 | 2 |
10 | 7 | 3 |
13 | 8 | 5 |
14 | 9 | 5 |
解决方案
首先,数据模型如下图所示:
然后,创建如下度量值,这里提供两种方法:
数字序列压缩1 =
VAR CurText = MAX('表'[数字序列])
VAR SplitPositions =
UNION(
SELECTCOLUMNS({0},"Position",[Value]),
DISTINCT(
FILTER(
SELECTCOLUMNS(GENERATESERIES(1,LEN(CurText)),"Position",FIND(",",CurText,[Value],BLANK())),
[Position]<>BLANK()
)
),
{LEN(CurText)+1}
)
VAR SplitPosition_AddIndex = ADDCOLUMNS(SplitPositions,"Index",RANKX(SplitPositions,[Position],,1))
VAR NumList =
SELECTCOLUMNS(
GENERATESERIES(1,COUNTROWS(SplitPositions)-1),
"Num",
VAR Start_ = SUMMARIZE(FILTER(SplitPosition_AddIndex,[Index]=[Value]),[Position])+1
VAR End_ = SUMMARIZE(FILTER(SplitPosition_AddIndex,[Index]=[Value]+1),[Position])
RETURN
MID(CurText,Start_,End_-Start_)*1
)
VAR NumList_Group = ADDCOLUMNS(NumList,"Group",[Num]-RANKX(NumList,[Num],,1))
VAR Result =
CONCATENATEX(
GROUPBY(NumList_Group,[Group],"Min",MINX(CURRENTGROUP(),[Num]),"Max",MAXX(CURRENTGROUP(),[Num])),
IF([Min]=[Max],[Max],[Min]&"-"&[Max]),
" , ",
[Min]
)
RETURN
Result
数字序列压缩2 =
VAR CurText = MAX('表'[数字序列])
VAR PathText = SUBSTITUTE(CurText,",","|")
VAR NumList =
SELECTCOLUMNS(
GENERATESERIES(1,PATHLENGTH(PathText)),
"Num",PATHITEM(PathText,[Value])*1
)
VAR NumList_Group = ADDCOLUMNS(NumList,"Group",[Num]-RANKX(NumList,[Num],,1))
VAR Result =
CONCATENATEX(
GROUPBY(NumList_Group,[Group],"Min",MINX(CURRENTGROUP(),[Num]),"Max",MAXX(CURRENTGROUP(),[Num])),
IF([Min]=[Max],[Max],[Min]&"-"&[Max]),
" , ",
[Min]
)
RETURN
Result
然后创建一个矩阵,并将数字序列字段作为行标签,再将上面的度量值放入矩阵的值字段即可,结果如下图所示:
总结
以上方法仅供参考,若有更优雅的解决方案,欢迎留言讨论,或者加入我们的技术交流群,一起享受这种思维碰撞的快乐吧!
PBI/DAX技术交流群(QQ):344353627