人生没有彩排
每一天都是现场直播

PowerBI案例之数字序列压缩

在数据处理和分析领域,数据压缩技术对于提升存储效率和计算性能至关重要,本篇文章将介绍如何在PowerBI中实现数字序列压缩。

问题描述

现有一串递增的数字序列字符串,为了方便观察规律,需要将其中的连续部分进行压缩,请自行建模完成计算。

具体问题如下图所示:

本案例的初始数据如下:

数字序列
1,2,3,5,6,7,9,10,11
2,4,6,8,9,10
11,12,13,20,21,22
0,1,6,8,9,10

若需其它辅助表等,可自行创建并建模。

解题要点

由于数字序列是以字符串形式存储的,因此在查找连续数字部分之前,需要先提取出所有的数字。

提取数字的方法主要有两种:

1、使用FIND函数找出所有分隔符的位置,形成区间,然后再使用MID函数来提取。

2、将分隔符替换成"|",将其转变成PATH系列函数能识别的层级结构路径,然后借助PATH系列函数来提取。

另外,提取出所有数字后,关于连续数字的查找可以参考下表的逻辑:

数字 序号 分组 (数字-序号)
1 1 0
2 2 0
3 3 0
6 4 2
7 5 2
8 6 2
10 7 3
13 8 5
14 9 5

解决方案

首先,数据模型如下图所示:

然后,创建如下度量值,这里提供两种方法:

数字序列压缩1 = 
VAR CurText = MAX('表'[数字序列])
VAR SplitPositions = 
    UNION(
        SELECTCOLUMNS({0},"Position",[Value]),
        DISTINCT(
            FILTER(
                SELECTCOLUMNS(GENERATESERIES(1,LEN(CurText)),"Position",FIND(",",CurText,[Value],BLANK())),
                [Position]<>BLANK()
            )
        ),
        {LEN(CurText)+1}
    )
VAR SplitPosition_AddIndex = ADDCOLUMNS(SplitPositions,"Index",RANKX(SplitPositions,[Position],,1))
VAR NumList = 
    SELECTCOLUMNS(
        GENERATESERIES(1,COUNTROWS(SplitPositions)-1),
        "Num",
            VAR Start_ = SUMMARIZE(FILTER(SplitPosition_AddIndex,[Index]=[Value]),[Position])+1
            VAR End_ = SUMMARIZE(FILTER(SplitPosition_AddIndex,[Index]=[Value]+1),[Position])
            RETURN
            MID(CurText,Start_,End_-Start_)*1
    )
VAR NumList_Group = ADDCOLUMNS(NumList,"Group",[Num]-RANKX(NumList,[Num],,1))
VAR Result = 
    CONCATENATEX(
        GROUPBY(NumList_Group,[Group],"Min",MINX(CURRENTGROUP(),[Num]),"Max",MAXX(CURRENTGROUP(),[Num])),
        IF([Min]=[Max],[Max],[Min]&"-"&[Max]),
        " , ",
        [Min]
    )
RETURN
Result
数字序列压缩2 = 
VAR CurText = MAX('表'[数字序列])
VAR PathText = SUBSTITUTE(CurText,",","|")
VAR NumList = 
    SELECTCOLUMNS(
        GENERATESERIES(1,PATHLENGTH(PathText)),
        "Num",PATHITEM(PathText,[Value])*1
    )
VAR NumList_Group = ADDCOLUMNS(NumList,"Group",[Num]-RANKX(NumList,[Num],,1))
VAR Result = 
    CONCATENATEX(
        GROUPBY(NumList_Group,[Group],"Min",MINX(CURRENTGROUP(),[Num]),"Max",MAXX(CURRENTGROUP(),[Num])),
        IF([Min]=[Max],[Max],[Min]&"-"&[Max]),
        " , ",
        [Min]
    )
RETURN
Result

然后创建一个矩阵,并将数字序列字段作为行标签,再将上面的度量值放入矩阵的值字段即可,结果如下图所示:

总结

以上方法仅供参考,若有更优雅的解决方案,欢迎留言讨论,或者加入我们的技术交流群,一起享受这种思维碰撞的快乐吧!

PBI/DAX技术交流群(QQ):344353627

赞(0) 打赏
未经允许不得转载:夕枫 » PowerBI案例之数字序列压缩
订阅评论
提醒
guest
0 评论
最新
最久 最赞
内联反馈
查看所有评论

觉得文章有用的话就支持一下吧~

感谢您的打赏支持,我将持续输出有价值的内容!

支付宝扫一扫打赏

微信扫一扫打赏