最新kmeans聚类分析怎么做
文件夹
范文为教学中作为模范的文章,也常常用来指写作的模板。常常用于文秘写作的参考,也可以作为演讲材料编写前的参考。范文怎么写才能发挥它最大的作用呢?以下是小编为大家收集的优秀范文,欢迎大家分享阅读。
【摘 要】 目的:建立盆炎净胶囊的高效液相色谱指纹图谱,并进行聚类分析和主成分分析。方法:色谱柱为waters xselect hss t3 (4.6mm × 250mm, 5μm),流动相为乙腈-0.5%醋酸溶液,梯度洗脱,检测波长235nm,柱温25℃,进样量10μl。以芍药苷为参照,测定10批盆炎净胶囊指纹图谱;采用“中药色谱指纹图谱相似度评价系统(版本 2004 a)”和spss 19.0软件进行综合分析。结果:10批样品相似度均在0.95以上,确认共有峰18个,并指认了3个已知化合物(马钱苷、芍药苷、原儿茶酸);聚类分析可将样品聚为2类;筛选出4个主成分因子,累积方差贡献率94.696%。结论:该方法简单有效,可为盆炎净胶囊的质量控制提供一定的参考。
【关键词】 盆炎净胶囊;质量控制;指纹图谱;聚类分析;主成分分析
abstract:
盆炎净胶囊处方由忍冬藤、川芎、狗脊、雞血藤、赤芍、车前草等八味中药材组成[1],具有和血通络、清热利湿、调经止带的功效,主要用于白带过多、湿热下注等症状[2]。盆炎净胶囊作为中药复方制剂,具有多药味、多成分、多靶点协调作用的特点,常规检测只能检测其单个或几个成分,不能全面、有效、准确地说明中药复方制剂的整体质量和确切疗效[3-4]。因而,建立更科学有效、更系统完整的检测方法,对控制盆炎净胶囊质量具有重要意义。中药指纹图谱具有整体性、相似性的特点,是一种能突出中药及其制剂完整面貌的有效方法。结合相似度评价、系统聚类分析与主成分分析,有助于中药及其制剂中多种化学成分的综合评价,从而控制其整体质量。近年来,该技术已广泛用于中药及其制剂的质量评价[5-12]。因此,本研究采用hplc法中的梯度洗脱模式,建立了10批盆炎净胶囊高效液相指纹图谱。通过系统聚类分析与主成分分析,挖掘指纹图谱中蕴含的其他信息,对盆炎净胶囊进行综合评价,以期为盆炎净胶囊的质量控制提供一定的参考。
1 仪器与试药
1.1 仪器与试剂 agilent高效液相系统(配有四元梯度泵,光電二极管阵列检测器,柱温箱,agilent 1260工作站和处理软件),waters xselect hss t3 (4.6mm × 250mm,5μm)柱;xpe56型十万分之一电子天平(梅特勒),kq-500dv型数控超声波清洗机(昆山市超声仪器有限公司)。
1.2 试剂与药品 马钱苷、芍药苷、原儿茶酸对照品(购于中国食品药品检定研究院,批号分别:111640-201808、110736-20184、211809-201205),乙睛、磷酸为色谱纯,水为娃娃哈纯净水,其余试剂为分析纯,10批次盆炎净胶囊(批号分别为:190601、190602、190603、190604、190605、190701、190702、190703、190704、190705)遵义华卫制药提供。
2 方法与结果
2.1 色谱条件 色谱柱waters xselect hss t3 (4.6mm ×250mm,5μm);流动相为乙腈(a)-0.5%醋酸溶液(b),梯度洗脱(洗脱程序见表1);检测波长为235nm;流速:1.0ml/min,柱温25℃,进样量:10μl。
2.2 溶液制备
2.2.1 对照品溶液 称取原儿茶酸、马钱苷、芍药苷对照品适量,分别用甲醇溶解制成含原儿茶酸0.10mg/ml、马钱苷0.31mg/ml、芍药苷0.52mg/ml的单一对照品溶液,摇匀,用0.45μm 的微孔滤膜滤过,即得。
2.2.2 供试品溶液 取盆炎净胶囊内容物适量,研细,取约2.0g,精密称定,置100ml具塞锥形瓶中,精密加入甲醇25ml,称重,超声50min,放至室温,用甲醇补足减失的重量,摇匀,取续滤液,用微孔滤膜(0.45μm)滤过,即得。
2.3 方法学考察
2.3.1 精密度试验 取上述供试品溶液(批号:190701),按“2.1”项下色谱条件连续进样检测6次,记录色谱图。以芍药苷峰(10号峰)为参照峰,考察各共有峰的相对保留时间和相对峰面积。结果表明,各共有峰相对保留时间的rsd均小于0.63%(n=6),相对峰面积的rsd均小于0.95%(n=6),表明仪器精密度良好。
2.2.2 重复性试验 取盆炎净胶囊(批号:190701)内容物适量,按“2.2.2”项下制备供试品溶液,共6份,按上述色谱条件进样测定,记录各共有峰的相对保留时间和相对峰面积。结果,18个共有峰相对保留时间rsd均小于0.93%(n=6),相对峰面积的rsd均小于1.56%(n=6),表明重复性良好。
2.2.3 稳定性试验 取(批号:190701)同一供试品溶液,分别在0,2,4,6,8,10,12,24h进样检测,记录色谱图。以芍药苷峰(10号峰)为参照峰,考察各共有峰的相对保留时间和相对峰面积。结果表明,各共有峰的相对保留时间和相对峰面积的rsd均小于1.87%,表明在室温条件下,供试品溶液24h内基本稳定。
2.4 指纹图谱
2.4.1 指纹图谱的生成 取10批盆炎净胶囊内容物适量,按“2.2.2”项下方法,依次制备10批供试品溶液,再按“2.1”色谱条件测定,记录色谱图。采用“中药色谱指纹图谱相似度评价系统2004a版”,对10批样品的hplc图谱进行分析,得hplc指纹图。如图1、图2所示。
2.4.2 相似度分析 采用“中药色谱指纹图谱相似度评价系统(版本 2004 a)”,以样品的hplc对照指纹图谱为参照,进行整体相似度评价,详见表2。结果显示,10批样品相似度均大于0.95以上,表明各样品间差异较小,质量稳定性良好。
2.4.3 指认共有峰 分别取“2.2.1”项下原儿茶酸(狗脊药材所含成分)、马钱苷(忍冬藤药材所含成分)、芍药苷(赤芍药材所含成分)单一的对照品溶液,按“2.1”项下色谱条件进行测定,并与样品的hplc对照图谱进行对比指认。结果,共有峰中3、7、10号色谱峰分别指认为原儿茶酸、马钱苷、芍药苷。如图3所示。
2.4.4 共有峰的相关分析 10批样品共有18个共有峰,其峰面积总和占色谱峰总面积的92.96%。由图3可知,10号峰芍药苷峰面积较大,位置适中,与相邻色谱峰分离度2.26,在色谱中稳定,故以其保留时间和峰面积为参照,计算其它共有峰的相对保留时间、相对峰面积,结果见表3、表4。
2.5 聚类分析 采用spss 19.0统计软件分析,变量为10批盆炎净胶囊hplc指纹图谱中标定的21个共有峰的绝对峰面积,先标准化原始数据,再依据欧氏距离依次进行系统聚类分析,结果详见图4。由图4可知,10批盆炎净胶囊可分为2类,样品s1、s2、s8可聚为一类,s3、s4、s5、s6、s7、s9、s10可聚为一类。
2.6 主成分分析
2.6.1 主成分因子特征值、方差贡献率分析 以特征值1为主成分因子的筛选标准,采用spss 19.0 软件进行主成分因子分析,并计算其特征值和方差贡献率。由表5可知,共有4个主成分因子的特征值符合要求,分别为:8.857、3.792、2.252、2.144。4个主成分因子的累积方差贡献率为94.696%,说明前4个主成分可代表样品大部分信息,适用于主成分分析。依据主因子载荷绝对值越大,对主成分贡献越大,由表6可知,主成分因子1反映了峰1、2、4、5、7、8、9、10、14、15、16的信息,主成分因子2反映了峰3、6、13、17、18的信息,峰11、18在主成分因子3上有较高的载荷,峰12在主成分因子4上有较高的载荷。
2.6.2 综合质量评分 计算4个主成分因子的得分和综合得分(综合得分=主成分因子得分×),对10批盆炎净胶囊样品质量进行综合评价并排序,结果见表7。由表7可知,主成分因子综合得分最高的为s5号样品(批号:190605),成分7、9、10、14在该批样品中含量相对较高,整体质量相对较好。
3 讨论
本研究成功建立了10批盆炎净胶囊的指纹图谱,确认18个共有峰,并指认出了3个已知成分,分别为原儿茶酸(3号)、马钱苷(7号)、芍药苷(14号)。由图谱可以看出芍药苷峰面积较大,响应高,位置适中,故选择芍药苷为参照峰。经多次摸索,笔者对提取溶剂(乙醇、甲醇、水),提取方法(超声、加热回流),提取时间(40min、50min、60min)对比考察发现,以甲醇为提取溶剂,超声50min的提取效果最简便高效,样品浓度高,液相色谱出峰多。此外,在相同梯度洗脱模式下,采集55min内获得的指纹图谱,对比甲醇-水、乙睛-水、甲醇-醋酸溶液、乙睛-醋酸溶液4个系统的流动相。结果以乙睛-0.5%醋酸溶液梯度洗脱效果最好,各色谱峰基本达到基线分离、保留时间适中、分离度符合要求,图谱指纹性强,有利于分析。
盆炎净胶囊中含有多味中药材,测定1个或几个指标成分往往具有局限性,不能充分反映其整体质量,因此建立系统的、全面的特征性指纹图谱,结合聚类分析和主成分分析是評价和控制其质量的有效方法。本研究所建立hplc指纹图谱方法简便、快速、重现性良好,可为盆炎净胶囊的整体质量控制提供一定的参考。
参考文献
相关热词搜索:;摘 要:地下钱庄的“对敲”模式掩盖了境内人民币交易与境外外币交割行为之间的内在联系,给发现和打击地下钱庄违法行为带来了很大困难。本文以大数据聚类技术为工具,以地下钱庄内外轧差涉及的资金跨境支付为立足点,提出了“地下钱庄跨境支付交易社区理论”,按照“动机—行为—特征分析框架”对地下钱庄的交易行为特征进行分析,明确“对碰—循环式线索筛查框架”在监测分析和打击地下钱庄中发挥的重要作用。
关键词:地下钱庄;聚类算法;交易社区理论
随着我国对外开放力度的不断加大和国际贸易的迅速发展,以地下钱庄为代表的非法跨境收支活动也在不断加剧。通过虚构交易背景,利用跨境收支渠道在境内外转移资金,地下钱庄已经成为骗出口退税、骗招商补贴、跨境洗钱等违法犯罪活动的重要支付渠道,成为影响我国国家经济社会安全的重要因素。为此,自2015年起,最高法、最高检、中国人民银行、公安部、国家外汇管理局在全国持续开展打击利用离岸公司和地下钱庄转移赃款专项行动。随着打击力度加大,地下钱庄的交易变得更加隐蔽复杂,已经从传统交易模式向使用跨境资金单体循环的“对敲”交易模式转变,资金在境内和境外独立循环,境内只有人民币的收付和交割,而无外币的交易,境内外各自形成独立的资金清算循环体系,仅在定期内外轧差结算时涉及资金跨境交易。地下钱庄的“对敲”模式导致监管部门难以在海量数据中发现境内人民币交易与境外外币交割行为之间的内在联系,给监管部门发现和打击地下钱庄违法行为带来了很大困难。本文以大数据聚类技术为工具,以地下钱庄内外轧差涉及的资金跨境支付为立足点,提出了“地下钱庄跨境支付交易社区理论”,按照“动机—行为—特征分析框架”对地下钱庄的交易行为特征进行分析,明确“对碰—循环式线索筛查框架”在监测分析和打击地下钱庄中发挥的重要作用。
一、相关研究
从现有文献看,对地下钱庄的研究多以理论研究和案例分析为主,研究内容集中在地下钱庄分类、交易模式、发展趋势、查处方法以及地下钱庄对国家经济金融安全的影响等,研究的着重点是地下钱庄的打击及查处。从事地下钱庄研究的人员工作领域分布鲜明又偶有交叉的特点,主要分布在公安、司法、人民银行及国家外汇管理部门。公安部门的研究人员对地下钱庄的研究集中在已破获的地下钱庄典型作案方式、作案工具及案件特点等案例分析方面[1]。司法部门的研究重点在于地下钱庄查处的定性及处罚依据[2,3]。人民银行有关人员的研究主要是从反洗钱视角,研究利用地下钱庄进行洗钱的方式、特点及打击查处办法 [4]。在这些部门中,国家外汇管理部门关于地下钱庄的研究论文篇数较多,涵盖了地下钱庄经营发展趋势、交易方式及特征、交易对手打击惩处方式及监管建议[5]。已有文献对地下钱庄的研究虽有部分内容涉及跨境支付,但仅从理论上研究了地下钱庄跨境支付的动机及方式,没有对异常跨境支付与地下钱庄识别进行数理论证,没有系统分析地下钱庄跨境支付的行为特征,如何利用大数据技术监测分析地下钱庄交易线索在学术研究领域尚属空白。
二、理论假设和监测分析模型设定
地下钱庄非法买卖外汇活动在我国经济金融体系中由来已久,其产生主要是与不发达经济体之间跨境支付的不便以及境外赌博、非法跨境转移资产、洗钱、走私、骗政府奖励、骗出口退税等违法犯罪活动的需求有关。随着我国外向型经济的蓬勃发展,骗政府奖励、骗出口退税成为推动地下钱庄非法买卖外汇活动不断加剧的重要因素。以我国出口市场占比较大的非针织类服装(hs编码62开头)为例,比较我国海关出口数据和国际组织(un、wto)公布的对方国家进口数据,可以发现我国存在相当规模的虚假出口①。据此,可以进一步推断出地下钱庄以跨境收汇的方式广泛参与了骗招商奖励和骗出口退税的事实。
目前在国家外汇管理局系统,打击地下钱庄的难点主要包括:一是大部分分局被动接收公安机关移交处罚交易对手,打击主动性和威慑性亟待提高;二是主动发现线索仅集中于深圳、广州等沿海经济发达、跨境资金收支量大的地区且以流出渠道为主,其他分局难以从流出渠道发现线索。为了解决上述问题,通过对地下钱庄行为特征的分析,确定了从流入渠道发现地下钱庄非法买卖外汇线索的新思路,提出了地下钱庄跨境支付交易社区理论,探索利用分布统计模型检验特征等有效性工具,解决地下钱庄监测分析的实施路径问题,并结合正在侦办的某地下钱庄案进行分析和验证②,证明方法的科学有效性。
(一)地下钱庄动机—行为—特征分析
根据对我国近年来破获的一系列大型地下钱庄案件的跟踪、比较研究以及长期以来对异常跨境收支活動的甄别分析,发现地下钱庄非法买卖外汇活动并非简单的“两头轧差”,其背后存在着深刻复杂的动机和运作模式。地下钱庄非法买卖外汇活动具有如下特点:一是地下钱庄是骗退税非法产业链的重要组成部分;二是地下钱庄长期处于“境外缺头寸”状态;三是跨境支付是地下钱庄的“刚性需求”。根据上述推断(见图2),在地下钱庄的非法跨境支付活动中,存在骗退税、骗招商补贴、做假账、走私或进口低报的境内违法公司(a);地下钱庄控制的境内付款公司(b);地下钱庄控制的境外收款公司(c);地下钱庄或境内违法公司控制的境外付款公司(d);境内非法投资者或洗钱者(e);我国出口商、境外务工人员(f)等6类交易主体。
(1)成立境内空壳公司。相关关系特征:法人代表与联系人相同或均为空;同一交易社区的公司之间注册资本、经营期限、经营范围完全相同的比例较高。
(2)异地配单。相关关系特征:出口货物的报关地与出口企业所在地不一致;出口货物的抵运国与付款国不一致。
(3)构造出口单据。因果关系特征:货物贸易收款的结算方式中电汇比例极高、货物贸易预收及延收比例极低。
(4)出口高报。因果关系特征:同一家企业同一类出口商品同一计量单位价差大;出口商品單价为整数的比例极高;同时进口低关税商品和出口高退税率商品。
(5)构造退税。因果关系特征:出口收汇率极高;出口收汇周期短。
(6)使用债务性资金。因果关系特征:资本金收汇后快速结汇或跨境支出不留余额;货款收汇后快速支出不留余额。
(7)随机配资。因果关系特征:货物贸易的境外付款人多为浅交易者;从多个国家收入资本金。
(8)集中利益输送。因果关系特征:企业呈县域集中分布。
(1)成立境内空壳公司。相关关系特征:法人代表与联系人相同或均为空;同一交易社区的公司之间注册资本、经营期限、经营范围完全相同的比例较高。
(2)虚构跨境付款交易背景。因果关系特征:可疑付款比例极高、进口零关税商品比例较高。
(1)成立境内空壳公司行为。同一交易社区的境内付款公司法人代表与联系人相同或均为空的比例较高。
(2)虚构跨境收款交易背景行为。可疑收款比例极高;境内付款人可疑付款比例极高;境内交易对手进口零关税商品比例极高。
(1)成立境内空壳公司行为。相关关系特征:法人代表与联系人相同或均为空;同一交易社区的公司之间注册资本、经营期限、经营范围完全相同比例较高。
(2)随机配资行为。因果关系特征:货物贸易的境内收款人多为浅交易者;从多个国家向境内汇入资本金。
(3)虚构跨境付款交易背景行为。因果关系特征:向多个行业的企业汇入资本金;出口高退税率商品的客户过于集中。
(二)地下钱庄跨境支付交易聚类社区理论的提出
从地下钱庄的行为动机特征分析可以看出,地下钱庄的“客户”有以下三项基本需求:一是骗退税、骗招商补贴、做假账的境内违法公司(a)需要从境外收到货款和投资款;二是走私或进口低报的境内违法公司(a)以及境内非法投资者或洗钱者(e)需要将境内资金转移境外;三是我国出口商、境外务工人员(f)需要将境外资金汇往境内。
最理想的状况是:如果第三项需求的资金规模正好等于第一、二项需求的资金规模,地下钱庄只需将来自(f)客户的境外资金的一部分在境外直接支付给(e)客户的境外账户,另一部分以货款和投资款名义通过境外空壳公司(d)跨境支付给境内(a)客户,用于骗退税等非法活动,并最终流入(f)客户的境内账户,即俗称的“两头轧差”。地下钱庄将能以最低成本和最隐蔽的方式完成交易。
但实际情况是,(a)客户骗招商奖励、特别是骗退税属于大规模的持续性行为,(f)客户的境外资金规模远远无法满足上述流入需求,势必使地下钱庄处于“境外缺头寸”状态。地下钱庄只能通过成立境内空壳公司(b)或收购个人购汇额度以保税区转卖付款、预付货款、构造进口付款、境外投资、境外放款、个人付汇、个人境外提钞等名义将来自客户(a)(e)的资金或其自有资金购汇转移到境外空壳公司(c)用于平补境外头寸。
根据以上对流入、流出渠道的分析,不难发现:如果仅从单个收入货款、资本金以及发生保税区转卖付款、预付货款的境内公司观察,几乎无法发现其与地下钱庄非法跨境收支行为的关联。实际情况往往是,即使发现了资本金非法结汇或预付货款长期不进口的企业也只能作为个案处理。为了解决这一难题,从系统论的观点出发,地下钱庄交易网络是一个互相重叠的整体,虽然无法获得其境内人民币资金划转和境外资金划转的信息,但是通过观察其流入渠道和流出渠道的交易群体,也能识别一定规模以上的地下钱庄及其境内客户群[6]。
基于以上认识,提出了“地下钱庄跨境支付交易社区理论”(见图3),通过流出渠道向境外付款的(b)公司与(c)公司之间以及通过流入渠道向境内付款的(d)公司与(a)公司之间实际上形成了两类迥然不同的交易聚类社区。将(b)公司与(c)公司之间的交易社区称为流出型交易聚类社区,将(d)公司与(a)公司之间的交易社区称为流入型交易聚类社区。由于他们的交易动机与正常的跨境贸易、投资行为相背离,其交易模式以及交易参与者的行为、属性均与正常交易社区有显著不同。按照信息论的方法,可以通过给全部境内、外交易参与者打标签的方式,向交易社区中引入新的信息。
在流出型交易社区中,除构造进口付款渠道外,其他流出渠道均需要大量支付保税区转卖款、预付货款等异常特征较明显的资金,因此境内付款公司多集中在沿海跨境收支量大的地区。而流入型社区的境内收款公司则遍布全国各地。从打击地下钱庄的社会效益考量,发现和打击流入型交易社区可以联合更广泛地区公安机关的力量并且实现地下钱庄和骗退税等违法境内公司一起打击。
(三)聚类算法的改进
当前,监管部门对地下钱庄的监测分析主要采取人工聚类的手段,在地下钱庄这个违规手法层出不穷的监管领域,人工聚类的分析方法起到了一定的作用。但受人工信息处理能力和方式的制约,人工聚类也存在一定的局限性:一是监测指标的泛化能力不强,根据局部事实设计的规则模型往往不能涵盖全部事实;二是监测指标面临规则迁移的挑战,地下钱庄交易手法的不断演变,往往使当前有效的人工聚类规则模型随着时间的推移失效。为有效解决上述问题,建立了“智能化监管体系”(见图4),整个体系以大数据为基础,以人工聚类和机器聚类为支柱,以图数据为载体,以节点排名算法为核心,以数据可视化为抓手。
[数据可视化
][节点排名算法
][图数据
][人工聚类
][大数据
]
图4:智能化监管体系图示
该体系的数据来源于8个领域:(1)外汇局通过数据接口采集的资金流、货物流及登记备案信息。(2)大数据公司出售的企业实际控制人和社保信息。(3)外汇局采集的行政处罚信息和主体涉汇负面信息。(4)国税总局提供的企业涉税负面信息。(5)各地海关提供的企业报关负面信息。(6)公安机关提供的购买出口报关单、购买增值税发票等情报。(7)最高人民法院依法公开的非法经营外汇业务、逃汇、虚开发票、骗退税、走私、信用证诈骗等犯罪行为的判决信息。(8)世界贸易组织(wto)与世界海关组织(wco)等公布的国际货物流统计数据。
[tf-idf=i=1nwid×logdalldw]
其中:[wi]表示特征向量i的数量(例如交易金额),[d]表示主体中全部特征向量的数量(例如付款总额),[dw]表示出现特征向量i的主体个数,[dall]表示全部主体的个数。
资金流特征向量包括:收入/支出、企业代码(境外主体名称)、交易编码、结算方式、国别、金额区间、交易金额占比、交易对手数量占比。
货物流特征向量包括:进口/出口、企业代码、贸易方式代码、商品编码、口岸、国别、计量单位、成交总价占比、均价、整数占比。
[cosθ=i=1nxi×yii=1nxi2×i=1nyi2]
其中:[xi]、[yi]表示两个特征向量各维度的值。
[noderank=risknode+i=1nlnri]
其中:[risknode]是当前节点的风险值,[lnri]是与当前节点相连的i节点的风险值。
三、实证检验
近年来,各地监管部门围绕打击非法集资、电信诈骗、骗退税等专项工作,显著加强了对地下钱庄非法买卖活动的打击力度,查询可疑人民币资金流向和冻结涉及地下钱庄非法交易账户的效率显著提升。通过案例分析可以看出,当前为最猖獗的骗退税型地下钱庄非法外汇买卖活动具有以下特征:(1)“配票、配单、配资”是出口骗退税的基本特征;(2)分析跨境资金流和进出口物流是发现地下钱庄非法跨境支付行为的有效手段;(3)掌握异常结汇资金的追踪和对可疑账户的冻结是地下钱庄线索落地的必要途径。
目前,可掌握的打击地下钱庄信息包括:公安部门的购买虚假出口报关单、虚假发票企业清单;税务部门掌握的骗出口退税企业清单;海关部门掌握的出口高报、进口高报企业清单;外汇局掌握的地下钱庄跨境交易社区。从实践经验看,公安、税务、海关部门掌握的信息无法实现地下钱庄线索的批量精准扩线,而外汇局掌握的跨境收支数据在地下钱庄线索扩线方面具有天然优势。实证分析的思路是,从公安机关、税务总局、海关总署部门提供的各类负面主体清单中梳理出可能从事骗出口退税的境内收款企业。在由境内、外收款人和付款人构成的交易社区中,运用“地下钱庄交易社区指标体系”,采取人工甄别的方式,沿着“违规的境内收款人(骗出口退税)→可疑的境外付款人→可疑的境内收款人(骗出口退税、骗招商补贴)/可疑的境内付款人(地下钱庄控制的境内付款公司)”的路径不断扩线。对最终确认的涉嫌骗出口退税、骗招商补贴的境内收款人,由公安机关批量从税务总局、海关总署、人民银行分别调取企业的出口退税记录、出口报关记录、货款或资本金结汇人民币资金流向数据,追踪资金流向地下钱庄控制的境内付款公司账户或“人头账户”的线索。在抓获地下钱庄经营者后,公安机关统一冻结相关账户,对涉嫌犯罪的当事人移送起诉、将涉嫌非法买卖外汇的当事人移送外汇局处罚。
为检验运用基于大数据的聚类技术识别地下钱庄跨境支付交易社区的实际效果,利用上述思路和算法,结合2019年侦办的某地下钱庄案进行了监测分析。主要做法是(见图5):将非现场检查发现的疑似地下钱庄交易线索(弱线索)与公安机关掌握的购买出口报关单、购买虚开增值税发票企业情报(强线索)对碰,以碰撞出的境内企业为出发点,引用“地下钱庄控制的境外付款公司(d)”及“境内收款的违法公司(a)”规则模型,在流入型交易社区中循环筛查异常境内企业和境外主体,实现快速精准扩线。
该地下钱庄案涉及非法资金交易近百亿元人民币,当事人涉及浙江、福建、黑龙江、新疆等全国10余个省(市、自治区)。目前已抓获多名犯罪嫌疑人,冻结银行账户4000余个,冻结资金约5亿元人民币。在侦查过程中公安机关掌握了200余家购买出口报关单企业和购买虚开发票企业。按照已经设计的模型,运用大数据和聚类技术帮助公安机关扩线。此前,公安机关曾尝试利用全国跨境交易数据对掌握的200余家企业实施单轮扩线:从200余家境内企业出发,找到境外付款人,并从境外付款人出发最终找到了20000余家境内收款企业,但对这20000余家境内收款企业开展人工甄别,发现绝大部分属于正常企业,如果再以这20000余家企业为基础进行下一轮扩线,將会最终找到国内大部分付款企业,从而失去分析意义。为了在扩线的各阶段对异常信息进行有效收敛,使用“对碰—循环式线索筛查框架”开展扩线。首先,以非现场分析发现的全国范围5000余家疑似地下钱庄境内收款公司(见表1)与上述公安机关掌握的200余家企业(见表2)对碰。以碰撞出的2家有管辖权的购买虚开发票企业为出发点,运用“地下钱庄控制的境外付款公司(d)”规则模型筛选出60家可疑境外企业(见表3);其次,反查60家境外企业的境内交易对手,运用“境内收款的违法公司(a)”规则模型筛选出1200余家可疑境内企业(见表4);最后,对筛选出的1200余家异常境内企业进行人工甄别,筛选出骗退税嫌疑最高的企业400余家。
分析发现,上述400余家企业中包含了公安机关掌握的购买出口报关单企业130余家,普遍具有“公司法人与联系人相同(一人公司)”“电汇结算方式比例高”“贸易信贷比例低”“异地报关”“账户不留余额”“与同一交易对手交易笔数较少(浅交易)”等相关特征,有效验证了基于地下钱庄跨境支付交易社区理论的聚类分析的科学性。
四、结论
地下钱庄违法犯罪活动严重扰乱了正常的金融管理秩序,影响国家经济金融安全和社会稳定,助长了洗钱等犯罪分子的嚣张气焰。作为游离于监管体系之外的非法金融组织,地下钱庄带来了巨大的社会危害,不但助长贪污、走私、贩毒、逃骗税、涉赌、诈骗、恐怖融资等上游犯罪,还绕开了我国外汇管理,导致国际游资或投机性短期资本借此通道进入中国市场炒作套利,并造成经济金融统计失真,影响宏观决策部门对经济金融运行形势的分析判断、管理决策和政策制定。为此,2020年国家外汇管理局和公安部都将打击地下钱庄及其交易对手作为重点工作任务。准确发现地下钱庄交易线索是打击地下钱庄工作的先决条件。本文提出的“地下钱庄跨境支付交易社区理论”“动机—行为—特征分析框架”“分布统计模型”等地下钱庄相关分析指标和模型,并通过案例对方法的科学有效性进行了验证,下一步,将根据地下钱庄交易方式、手段的不断变化,对模型和算法进一步优化,为打击地下钱庄提供有效的信息支撑。
注:
1通过核对中国出口商品的出口报关额与进口国家的海关进口报关额,从宏观上可以佐证企业虚假报关出口的事实。其业务逻辑是根据《商品名称及编码协调制度的国际公约》,不考虑运保费,同一hs编码的出口额应该等于对方国的进口额。
2遵照保密规定,对第二和第三部分涉及的企业和实证数据进行了脱密处理,但不影响数据计算结果的真实性和方法的科学性。
参考文献:
[7]吴军.数学之美 [m].北京:人民邮电出版社,2016.
chen haomeng
(pbc jinan branch,jinan 250021,shandong,china)
相关热词搜索:;摘要:南明河是贵阳市的“母亲河”,在城市旅游发展和历史文化中具有重要价值。本文通过灰色聚类法对南明河水质进行评价,结果表明,南明河上、中、下游水质呈逐步恶化态势,说明南明河水质污染与城市化进程发展有一定联系,由此为南明河水环境保护政策与措施的制定提供参考。
关键词:灰色聚类法;南明河;水质分析
南明河源自平坝县与贵阳市花溪区交界处,流经花溪区段称花溪河,入市区后称南明河,贵阳市境内约100km,城区段(花溪水库至新庄)长36.4km[1],是贵阳市工业、生活用水和农田灌溉的重要水源。随着贵阳市工业化、城市化步伐的加快,南明河所面临的水环境问题日益突出[2]。为降低其水环境负面影响,提出科学有效的保护措施,有必要采取科学的环境评价。由于现有监测数据的局限性,采用灰色聚类法分析可为水环境质量演化规律提供理论依据并具有参考意义。
1 灰色聚类法原理[3-5]
灰色聚类法是以灰数的白化函数生成为基础, 将收集的聚类对象观测值的分散信息, 按照灰类进行归纳, 判断聚类对象所属灰类。首先确定评价指标体系,并根据各评价指标的特点和属性,将其划分为若干层次,建立递阶层次结构。然后运用灰色聚类分析方法形成灰色聚类矩阵,进行灰色综合评估。
设?jk为第j个聚类指标属于k灰类的白化函数,?jk∈[0,1],λjk为?jk的阈值。
否则,须进行标准化处理:
xij为第i个样本第j个指标的标准化值,sij为第i个样本第j个指标实测值,sj为第j个指标参考标准值,本文参照《地表水环境质量标准》(gb3838-2002)iii类水质标准。
2 灰色聚类法实际应用
2.1 水质监测数据
利用贵阳市环保局2015年南明河水质监测统计数据,在南明河贵阳市区河段设置5个监测断面,每个断面分枯水期、丰水期、平水期三期监测,监测布点见图1,监测指标及各项监测值见表1。
2.2 环境质量等级
3 结论分析建议
根据(11)、(12)可知,各监测点位各监测时期最大聚类系数对应的灰类数值即是该样本所属水质类别,见表7。
根据表6可知,花溪点位作为南明河的上游靠近源头,由于无污染企业和居民聚集区影响,水质较好。兴隆桥至定扒桥点位河段处于城区及其下游,企业和居民区的逐渐增多,水质亦呈现逐步恶化;可能与截污沟年久失修,部分河段污水直排有关。甲秀楼点位于城市中心区,除丰水期受上游支流阿哈水库泄洪及雨水影响水质略好,其于时期水质均较差,该河段主要为居民聚集区和城市商业区,环境承载压力较大。红岩桥点位河段地势较低,受降水影响该区域截污沟常出现溢流,导致丰水期水质反而较差。定扒桥点位于城市下游,污水收集管网及处理设施匮乏,受上游城市污染面源、周边乡镇农村污染面源、区域养殖和农副产品企业排放等影响,水质常年处于v类。说明随着城市化进程的发展,水体环境容量和自净能力降低,加之污水收集和处理设施的不完备,河流生态管理建设还有待提高,对南明河的環境保护措施还有待完善。建议相关部门把甲秀楼、红岩桥至定扒桥区域河段作为南明河污染治理重点区域,制定有效措施对该区域河段及周边进行综合治理,以改善南明河水环境质量,满足其水环境功能区划要求。
4 讨论
环境体系具有一定复杂性和不确定性,若仅以监测值来衡量往往忽略了环境质量评价中的灰色信息。灰色聚类法通过将这些灰色信息和白化程度与各项污染因子的聚类加权处理,能较为客观的反映实际情况。对于在实际工作中开展环保政策制定、环境保护措施制定等具有一定的指导意义和参考价值。
参考文献
作者简介:方达(1984-),男,本科,工程师,研究方向为环境影响评价评估。
相关热词搜索:;摘 要:
为了探寻层次聚类在失眠处方用药分析上的应用情况,进而分析失眠处方的用药规律,收集并整理了《方剂大辞典》中主治失眠的处方。对单味药物的四气、五味、归经及功效等数据,根据单连接、全连接和平均连接这三种不同的相似性度量方法进行层次聚类分析并比较。结果显示,基于全连接的层次聚类分组最为合理,将性味归经和功效有极大相似度的药物聚为一类,其聚类结果符合一定的中医理论。层次聚类结果客觀地反映了失眠处方中药物间的关联关系,间接体现了失眠用药的药物组合规律,为临床用药提供新的研究方法和思路。
关键词:
失眠; 层次聚类; 全连接; 用药规律
(school of information and technology in nanjing university of chinese traditional medicine, nanjing, jiangsu 210023, china)
0 引言
失眠是指即使有合适的睡眠机会和睡眠环境,依然无法入睡或无法保持睡眠状态,进而影响日间活动的一种主观体验[1]。其症状特点有入睡困难、整夜觉醒数次、醒后意识混沌、日间困乏等。西医将失眠归为睡眠障碍范畴,而中医常以“不寐”、“不得卧”、“目不暝”等称之[2]。经临床研究证明,长期失眠不但会影响人们的日常生活,还会造成一系列的机体损害。临床上西医常使用镇定催眠类药物来治疗失眠,但这些药物通常副作用大,依赖性强,不能算作是治疗失眠的良方。而中医以其独特的诊疗方式和中药所具有的低毒副作用的特质受到广大患者的青睐。
中医对失眠的认识由来已久,最早出现在《黄帝内经》中,“卫行于阴二十五度,行于阳二十五度,分为昼夜,故气至阳而起,至阴而止”,这说明营卫失调会影响睡眠。《太平圣惠方》中提出:“夫胆虚不得睡者,是五脏虚邪之气干淫于心”。中医认为,心主神明,心阴不足、心血不足等是导致失眠的主要原因。引起失眠的机制非常复杂,从身体内部结构上看,失眠与五脏的非正常运转有着密不可分的关系;从外部环境来看,中医讲究阴阳调和。除此之外,情志也是影响睡眠的重要因素,如《杂病源流犀烛·不寐多寐源流》中记载“有心胆俱怯,触事易惊,梦多不祥,虚烦不寐者”。更有研究表明,女性常在更年期时因情绪失调而患有失眠[3]。
鉴于失眠人数的逐年增长,诊治失眠变得越来越重要。中医治疗失眠的方法主要包括改善睡眠的中药、针灸、音乐疗法等[4-6]。为寻找治疗失眠的良方,研究中医失眠处方中的用药规律显得尤为重要。不少学者采用关联规则、改进互信息法、复杂熵聚类等数据挖掘技术研究失眠处方中的常用药物、常用药对等[7-9]。但这些方法多基于对药物的频数分析,以药物使用的频次为核心做关联分析,并没有将每种药物的性味归经及功效这些因素考虑在内。而中药的这些特质相互影响,相辅相成,才能对相应的症状起到有效的治疗作用。
本文采用层次聚类算法对失眠处方进行用药分析。层次聚类是一种基于原型的聚类方法,通过将每一个初始数据都视为一个单独的簇,基于簇与簇之间的相似性而一层一层的聚在一起[10]。层次聚类克服了大多数聚类需要已知中心点和已知簇类数量要求的缺点。在中药研究的药物分析中,由于每一味药有其特性,很难将其中一种药或一种特征设定中心点。而层次聚类可以将每一味药的性味归经及功效都考虑在内,自发的根据内在的相似性聚在一起。
1 材料与方法
1.1 数据收集
本研究的数据来源于《方剂大辞典》,使用“不寐”、“心神不安”、“心神失养”、“失眠”、“心肾不交”、“不得卧”、“水火不济”、“卧不安”、“目不暝”等作为检索词,筛选出符合中医语言定义的失眠组方,所选方剂有明确的药物组成及其主治功能,治疗方法以中药治疗为主且治疗有效。将符合标准的药物名称、四气、五味、归经、功效输入至excel中进行整理,如表1所示。
1.2 数据处理
清洗数据以规范药物名称,将多个异名的药物名称统一成一个正名,并修改不规范的药名。整理方中各药物的性、味、归经及其功效,以便统计分析。以数字化的形式对失眠高频药物的性、味、归经及功效进行赋值,以便进行药物的层次聚类分析[11]。对于药物的性味归经和功效这类字符型的数据,不便于进行层次聚类分析。所以本文将这些药物属性数据转化为布尔类型的数值,即用0和1组成的字符串来表示单味药的四气五味、归经和功效。根据中药药性理论,这四种属性对于单味药的影响占比应当不同。因此,本文为四种属性划分权重,以示各属性的重要程度。性味影响归经,所以将性、味、归经、功效的比例按3:3:2:2规定。设置总权重为1,则性、味、归经、功效的权重分别为0.3、0.3、0.2、0.2。
1.3 相似性度量
在层次聚类中,有多种判断簇间相似性的度量方式。本文采用单连接(single linkage)、全连接(complete linkage)和平均连接(averagelinkage)这三种方式计算簇间的相似性并比较出对于该数据解释性最好的方法。
簇间相似性通过计算簇间距离来衡量。在single-link中,只关注两个簇彼此最接近的区域,取两个簇中最近的两个数据点间的距离作为这两个簇的距离。也就是说,最近的两个点之间的距离越小,则这两个簇之间的相似度就越大。而complete-link恰恰相反,取两个簇中最远的两个数据点间的距离作为这两个簇的距离。顾名思义,average-link介于single-link和complete-link之间,即把两个簇中的点两两的距离全部放在一起求平均值,将平均距离作为这两个簇的距离。
簇与簇之间的距离采用欧氏距离计算。其定义如下:
该式表示n维空间下两点之间的距离,x1i表示第一个点的第i维坐标,x2i表示第二个点的第i维坐标。在欧式空间下,通过簇质心或簇内平均点来表示簇,簇之间的距离为质心之间的欧氏距离。
将单味药的四气、五味、归经及功效数据作为输入,使每味药都初始化为一个聚类。根据上述三种相似性度量方法计算每两个聚类间的相似度距离,分别生成三种不同的样本间距离矩阵,以寻找最相似的两个聚类。再将最相似的两个聚类化为一个聚类,即用两个聚类的均值点做为新聚类,替换原有的两个聚类。每一步的计算结果以树状图的形式展现出来,形成层次聚类树。
2 结果
对使用频次超过平均值的46味治疗失眠的中药经过三种相似性度量方法分别进行层次聚类分析,生成基于单连接的层次聚类树状图,如图1;基于全连接的层次聚类树状图,如图2;以及基于平均连接的层次聚类树状图,如图3。
上述三幅图中,横坐标皆表示每一味中药,纵坐标皆表示药物间的相对距离,每一组连线都代表着将距离最近的两种中药联系起来,而这一条连线的高度则表示两点间的距离。从树状图中可清晰的比较出这三种相似性度量方法下的聚类结果。
通过树形图可直观的显示每一步合并的过程,由图1~图3均可看出性味归经和功效有极大相似度的药物聚在一起。基于单连接的层次聚类产生的聚类结果质量低,要么多种药物聚在一起,而这些药物相互之间并不是都有很强的关联性;要么多种药物相互独立,无法聚合,不能很好的体现药物间的关系。基于平均连接的层次聚类比单连接的更好的体现了类的层次关系,没有出现多种药物相互独立的情况,仅包含个别稍微偏离中心的药物。由图2可知当药物聚为10类时较为合理,符合一定的中医诊治理论;基于全连接的层次聚类效果表现最佳,划分的聚类层次结构清晰,分布较前两种更均匀一些,能较好地解释失眠高频药物之间的关系,客观地反应失眠处方的用药规律。
由图3可看出,聚为10类时效果最佳。综合药物的性味归经及功效分析,如人参、甘草、茯苓、茯神、山药这一簇,性平味甘,主要归心、肺、脾、肾四经,大多为补虚药,这与中医通过补虚泻实,调节气血失调的方法治疗失眠相对应。酸枣仁、琥珀、柏子仁、龙骨这一簇,性平味甘,主归心经,基本为安神药,这与中医通过安神养血的方法治疗失眠相符合。远志、石菖蒲、枳实、紫菀这一簇中,远志与石菖蒲为治疗失眠的常用药对,两药相辅相成,有祛痰开窍,安神定志之功效[12]。
图1~图3中,无论基于哪一种相似性度量方式,某些药物最终都会聚为一类。如生地、天冬、知母這一类,都为甘寒药物,具有滋阴的功效,可用于治疗阴虚烦躁导致的失眠;人参、茯苓、甘草这一类,益心胆之气,可用于治疗心胆气虚导致的失眠;半夏、枳实、陈皮这一类具有健脾化痰、理气和胃之效,可用于治疗痰热扰心导致的失眠。
由此可见,层次聚类无需提前指定具体的聚类数目,也没有局部极小或是初始点选择的问题。而是关注簇之间的远近距离,即根据药物间的相似性,一步步聚合最终形成层次树状图,适合用于挖掘综合考虑性、味、归经、功效相似度的药对或药组。
3 结束语
脏腑功能紊乱、气血阴阳失调、神志不宁以及情志失调是发生失眠的基本病机。本研究结果显示,失眠用药多以调节阴阳、补虚泻实、养血安神、镇惊清心为治疗原则。本研究将治疗失眠药物的四气、五味、归经和功效按一定权重进行层次聚类分析,通过比较三种相似性度量方法下的层次聚类的效果发现,挖掘结果最好的是基于全连接的层次聚类,其聚类结果更能体现中医对证下药的诊治规律。聚类结果体现了药物之间四种属性的综合相关联性,而不是孤立的某个属性的相关联性,因而得到的药物组合对临床用药更具参考性。
层次聚类对样本的输入顺序不敏感,不需要事先设定类似k均值聚类的全局目标函数,而只根据样本间的相似度自发聚类。它将药物本身的特性综合考虑在内进行聚类,这也可以用于其他病症的用药规律研究,其在中医药物组合规律上的應用前景广阔。进一步的研究将考虑将层次聚类与其他算法相结合,分析药与症状之间的复杂关系。
参考文献(references):
相关热词搜索:;
最新kmeans聚类分析怎么做(4篇)
文件夹