Comparative Study on Different Cluster Analysis Methods of Lymphoma Medical Records
-
摘要:
目的 以淋巴瘤临床医案为范例数据, 对不同聚类分析方法挖掘结果进行比较, 从而分析中医医案药物聚类挖掘方法的优化方案与结果差异。 方法 对淋巴瘤医案进行统一预处理与规范, 运用分散性聚类中的快速聚类、结构性聚类中的层次聚类进行挖掘分析, 并从算法特点、终值偏倚与临床拟合3个维度综合比较。 结果 研究共涉及患者138人次, 病例354诊次, 药物451味。分散性聚类中药物分散性聚类所得群集类26类, 群集数最大29, 最小1;方剂分散性聚类所得群集类22类, 群集数最大19, 最小3, 位点值最大14, 最小3。结构性聚类中F10药物凝聚层次聚类, 群集数最大25, 最小12;结构性聚类中F20药物凝聚层次聚类, 群集数最大21, 最小8;结构性聚类中F30药物凝聚层次聚类, 群集数最大15, 最小5。 结论 对于中医临床医案单病种数据挖掘研究, 方法的选取主要取决于样本的总体数量与药物的总体频数。数据量较小时宜选取结构性聚类, 药物结构性聚类挖掘设计宜采用较高药物频幅, 挖掘终值偏倚较低, 研究结果临床拟合度较好; 数据量较大时宜选取分散性聚类, 分散性聚类挖掘设计宜采用方剂分散性聚类, 挖掘终值偏倚较低, 研究结果临床拟合度较好。 Abstract:OBJECTIVE To compare the mining results of different cluster analysis methods with lymphoma clinical medical records as sample data, and to analyze the optimization plan and result differences of the drug cluster mining methods in traditional Chinese medical records. METHODS Through performing unified preprocessing and standardization of lymphoma medical records, as well as using fast clustering in decentralized clustering, and hierarchical clustering in structural clustering for analysis and mining, such three dimensionalities as characteristics of algorithms, terminal value bias, and clinical fitting were analyzed and compared comprehensively. RESULTS This study involved 138 patients, 354 visits and 451 kinds of medicines. In the decentralized clustering, the drug decentralized clustering results had 26 clusters, while the largest number of clusters was 29 and the smallest was 1. The prescription decentralized clustering results included 22 clusters, the largest number of clusters was 19, the smallest was 3, the largest dot value was 14, and the smallest was 3. As for the F10 drug hierarchical clustering of structural clustering, the largest number of clusters was 25, and the smallest was 12. As for the F20 drug hierarchical clustering of structural clustering, the largest number of clusters was 21 and the smallest was 8. As for the F30 drug hierarchical clustering of structural clustering, the largest number of clusters was 15, and the smallest was 5. CONCLUSION For the research on data mining of traditional Chinese medicine(TCM) clinical medical records for a single disease, different clustering methods have been applied to study the drug combination or core prescriptions used in the clinical application of Chinese medicine. The selection of the methods mainly depends on the total number of samples and the overall frequency of drugs. When the amount of data is small, structural clustering should be selected while a higher drug frequency range should be used in the design of drug structural clustering mining, so as to get a lower final value of the mining bias and a better research result of the clinical fitting degree. When the amount of data is large, the decentralized clustering should be selected, and the prescription decentralized clustering in the design of decentralized clustering mining should be adopted to get a lower final value of the mining bias and better research result of the clinical fitting degree. -
表 1 药物分散性聚类群集值
群集类 群集数 群集值 1 23 人参、凤凰衣、炒白术、刺猬皮、清半夏、厚朴、橘红、猫爪草、生姜、生白术、白苏子、知母、石见穿、紫草、红藤、茯苓、莱菔子、葶苈子、败酱草、金沸草、陈皮、鸡内金、龙胆草 2 16 佛手、平地木、当归尾、木鳖、板蓝根、熟庄黄、牵牛子、白芷、白鲜皮、芍药、天花粉、藤梨根、钩藤、雄黄、黄柏、龟板 3 28 乌梅、乌药、土茯苓、天竺黄、天麻、枣皮、桂枝、桑螵蛸、橘络、栀子、海螵蛸、炒白芍药、炮姜、玉竹、百合、益智仁、竹茹、紫菀、茜草炭、蒲黄、覆盆子、诃子、铅丹、银柴胡、阿胶珠、骨碎补、龙骨、龟板胶 4 21 代赭石、八月札、制首乌、鳖甲、南沙参、地榆、墨旱莲、枳实、枸橘李、泽漆、漏芦、白残花、白英、白薇、红景天、白花蛇舌草、蜂房、马勃、鸡血藤、龙葵、龙葵子 5 10 天花粉、天葵子、柴胡、炒枳壳、白蒺藜、蒲公英、连翘、金银花、香附、麻黄 6 29 仙茅、全蝎、冬凌草、墓头回、夜交藤、黑大豆、威灵仙、小蓟、山豆根、忍冬藤、杏仁、桑叶、炒冬瓜子、焦山楂、王不留行、白及、石打穿、秦艽、糯稻根、紫苏子、芙蓉叶、芡实、紫苏叶、茯苓皮、茵陈、莲子、谷芽、黄芪 7 13 制半夏、合欢皮、姜黄、川芎、桂枝、桔梗、海藻、生甘草、穿山甲、红花、胆南星、金钱草、青皮 8 24 牡丹皮、北沙参、大青叶、荞麦、山楂炭、川厚朴、川贝母、开金锁、桑叶、桑寄生、沙参、炒谷芽、赤芍药、黄柏、猴枣散、白扁豆、白蔹、石膏、紫花地丁、苍耳草、薄荷、蛇床子、铁皮枫斗、鸭跖草 9 16 僵蚕、前胡、壁虎、旱莲草、杜仲、枇杷叶、枳壳、油松节、水牛角、益母草、紫苏叶、红豆杉、苏木、葛根、金刚骨、青风藤 10 1 黄芪 11 21 地骨皮、天南星、射干、山慈菇、桑白皮、椿根皮、水牛角片、鹿茸草、泽兰、淫羊藿、牡丹皮、瓦楞子、紫荆皮、肉苁蓉、菊花、七叶一枝花、防风、马齿苋、鬼箭羽、鸡矢藤、黄芩 12 1 太子参 13 11 三叶青、土贝母、川楝子、昆布、枸橘核、炙甘草、生薏苡仁、红枣、青黛、生黄芪、黄药子 14 11 乳香、五灵脂、制乌头、地龙、山慈姑、当归、木鳖子、枫香脂、没药、香墨、麝香 15 23 八月扎、地肤子、夏枯草、大腹皮、山药、干姜、泽泻、海浮石、海蛤壳、牛黄、牡蛎、猪苓、玄参、玉米须、白扁豆衣、白鲜皮、糙米、肉桂、车前子、车前草、郁金、金樱子、麦芽 16 9 三七、何首乌、天门冬、牛蒡子、白茅根、紫苏梗、胡麻仁、芦根、西洋参 17 16 大血参、小血参、山萸肉、核桃、白附子、白首乌、石菖蒲、紫油桂、红参、葱白、藿香、蜂蜜、赤芍药、附子、青蒿、黑小豆 18 17 冬凌草、地鳖、土鳖虫、生山楂、徐长卿、桃仁、海藻、溪黄草、灵芝、生甘草、石斛、神曲、肿节风、白芥子、蛇蜕、阿胶、鹿角胶、麦冬 19 16 丹参、仙鹤草、半枝莲、半边莲、卷柏、女贞子、枸杞子、炒苍术、炙甘草、生地黄、皂角刺、石韦、羊蹄根、花生衣、苦参、菟丝子 20 20 三棱、乌头、伸筋草、大枣、山海螺、木瓜、木通、水蛭、浮小麦、滑石、独活、甘草梢、细辛、羌活、苍术、莪术、肉豆蔻、通草、雷公藤、马钱子 21 17 五味子、佩兰、制山甲、大黄、白扁豆、栀子、桑枝、火麻仁、瓜蒌子、白芍药、石决明、紫河车、茯神、虎杖、金荞麦、首乌藤、鱼腥草 22 22 乌梢蛇、穿山甲、槟榔、橘核、沉香、炒杏仁、炒酸枣仁、瓜蒌、白花蛇、百部、绿豆、羚羊角、荔枝核、葶苈、薤白、路路通、金钱白花蛇、八月札、香茶菜、香菌、鳖甲、鹿衔草 23 40 七叶参、党参、合欢花、垂盆草、大蒜、天葵、小茴香、小麦、生川续断、延胡索、灯芯草、桑椹子、檀香、款冬花、沉香曲、淡豆豉、炙牛角腮、瓜蒌实、炮姜炭、炮甲珠、焦山栀、狗脊、玫瑰、珍珠母、瓜蒌子、白花蛇舌草、石莲子、竹沥、紫石英、炒川续断、艾叶、紫苏梗、茵陈蒿、莲须、菖蒲、蟾皮、贝母、远志、青葙子、饴糖 24 17 炙黄芪、升麻、木馒头、木香、炒扁豆、炒麦芽、砂仁、竹叶、莲子心、葎草、薏苡仁、蛇莓、蜈蚣、蝉蜕、补骨脂、酸枣仁、黄连 25 22 七叶一枝花、制大黄、天冬、巴戟天、柏子仁、天花粉、浙贝母、炒稻芽、炙龟板、熟地黄、牛膝、瓜蒌子、瓜蒌皮、紫菀、绞股蓝、荆芥、蛇六谷、金银花、鬼针草、鹿角、黄精、黛蛤散 26 5 槟榔炭、水红花子、芜荑、荷叶、贯众 注:此群集标列参数Mark Parameter=[K=20.0000;inertia=0.0349];Format Export by Medcase Chart Ⓒ 2020。 表 2 方剂分散性聚类群集值
群集类 位点数 群集数 群集值 1 14 5 清半夏、浙贝母、猫爪草、陈皮、黄芪 2 11 13 人参、清半夏、大枣、女贞子、山药、枸杞子、甘草、生姜、白花蛇舌草、茯苓、菟丝子、陈皮、黄芪 3 11 3 半枝莲、白花蛇舌草、蒲公英 4 10 3 甘草、红豆杉、茯苓 5 8 10 仙鹤草、鳖甲、北沙参、半枝莲、太子参、女贞子、漏芦、肿节风、鸡血藤、麦冬 6 8 6 制半夏、太子参、柴胡、甘草、生白术、蒲公英 7 7 8 乳香、五灵脂、地龙、木鳖子、枫香脂、没药、香墨、麝香 8 6 19 僵蚕、夏枯草、姜黄、川芎、当归、柴胡、桔梗、浙贝母、海藻、猫爪草、生甘草、穿山甲、红花、连翘、金银花、青皮、香附、黄芪、黄药子 9 6 16 丹参、仙鹤草、党参、半枝莲、卷柏、女贞子、枸杞子、甘草、生地黄、白花蛇舌草、石韦、羊蹄、花生衣、苦参、菟丝子、黄芪 10 6 12 三七、三棱、人参、党参、北沙参、太子参、山萸肉、昆布、水蛭、海藻、生地黄、莪术 11 6 8 党参、炒白术、炙黄芪、当归、木香、茯苓、补骨脂、酸枣仁 12 6 8 山药、泽泻、猪苓、甘草、石见穿、茯苓、车前子、车前草 13 6 3 夏枯草、山慈菇、莪术 14 5 23 三七、党参、前胡、北沙参、川芎、当归、枇杷叶、柴胡、桔梗、泽泻、浙贝母、猪苓、全瓜蒌、甘草、石膏、紫苏叶、菊花、葛根、赤芍药、车前子、连翘、陈皮、黄芩 15 5 15 党参、凤凰衣、刺猬皮、厚朴、生白术、白芍药、穿山甲、红藤、茯苓、蜈蚣、败酱草、金荞麦根、陈皮、鱼腥草、鸡内金 16 5 5 大枣、干姜、炙甘草、生姜、黑小豆 17 5 3 半枝莲、白花蛇舌草、百合 18 4 18 北沙参、半夏、壁虎、大枣、女贞子、枸杞子、玄参、甘草、生地黄、生姜、生白术、茯苓、菟丝子、金钱白花蛇、陈皮、麦冬、麦芽、黄芪 19 4 16 僵蚕、冬凌草、土鳖虫、地龙、壁虎、徐长卿、浙贝母、海藻、玄参、生地黄、生甘草、石斛、肿节风、白芥子、金刚骨、麦冬 20 4 9 射干、水牛角、牡丹皮、甘草、七叶一枝花、金荞麦根、马齿苋、鸡矢藤、黄芩 21 3 15 僵蚕、凤凰衣、炮山甲、半枝莲、壁虎、猫爪草、生白术、白花蛇舌草、茯苓、莪术、金刚骨、青风藤、鸡内金、黄芪、龙葵 22 3 5 丹参、夏枯草、浙贝母、牡蛎、玄参 注:此群集标列参数Mark Parameter=[K=22.0000;inertia=1737.6799];Format Export by Medcase Chart Ⓒ2020。 表 3 F10药物凝聚层次聚类群集值
群集类 位点值 群集数 群集值 1 0.280 9 25 附子、炙甘草、肉桂、干姜、黄芩、大枣、人参、生姜、炒麦芽、天冬、败酱草、厚朴、鱼腥草、金荞麦根、白鲜皮、地肤子、土茯苓、猪苓、茯苓、泽泻、桂枝、黄精、熟地黄、蛇六谷、苦参 2 0.287 2 12 淫羊藿、炮山甲、麦芽、枸杞子、女贞子、菟丝子、白花蛇舌草、半枝莲、神曲、山楂、阿胶、灵芝 3 0.270 5 20 紫草、知母、牡丹皮、石见穿、山萸肉、赤芍药、鸡内金、猫爪草、山药、浙贝母、夏枯草、莪术、三棱、陈皮、炒白术、半夏、黄芪、茯苓、生白术、党参 4 0.292 9 16 玄参、牡蛎、白芍药、甘草、海藻、昆布、红枣、金银花、连翘、炒枳壳、天葵子、天花粉、蒲公英、芍药、香附、柴胡 注:此群集标列参数Mark Parameter=[Frequency amplitude>10;Pick points < 30];Format Export by Medcase Chart Ⓒ2020。 表 4 F20药物凝聚层次聚类群集值
群集类 位点值 群集数 群集值 1 0.217 3 8 桃仁、昆布、海藻、金银花、连翘、玄参、牡蛎、夏枯草 2 0.226 2 9 香附、柴胡、桔梗、黄芩、天花粉、蒲公英、当归、川芎、白芍药 3 0.287 2 21 枸杞子、女贞子、菟丝子、甘草、黄芪、生姜、大枣、人参、半夏、麦芽、茯苓、生白术、党参、酸枣仁、淫羊藿、补骨脂、砂仁、木香、陈皮、炒白术、山药 4 0.232 2 10 泽泻、桂枝、赤芍药、枳壳、附子、炙甘草、白芥子、肉桂、黄精、山慈菇 注:此群集标列参数Mark Parameter=[Frequency amplitude>20;Pick points < 25];Format Export by Medcase Chart Ⓒ2020。 表 5 F30药物凝聚层次聚类群集值
群集类 位点值 群集数 群集值 1 0.358 2 14 白花蛇舌草、半枝莲、炙甘草、麦冬、太子参、砂仁、山萸肉、生甘草、生地黄、熟地黄、薏苡仁、仙鹤草、玄参、牡蛎 2 0.202 9 5 蒲公英、制半夏、金银花、连翘、海藻 3 0.342 7 15 党参、丹参、当归、川芎、桔梗、莪术、猫爪草、山慈菇、浙贝母、夏枯草、穿山甲、僵蚕、香附、柴胡、黄芩 4 0.285 2 11 麦芽、神曲、赤芍药、白芍药、枳壳、黄芪、生白术、鸡内金、茯苓、甘草、女贞子 5 0.244 0 9 菟丝子、枸杞子、生姜、大枣、人参、陈皮、炒白术、清半夏、山药 注:此群集标列参数Mark Parameter=[Frequency amplitude>30;Pick points =Total];Format Export by Medcase Chart Ⓒ2020。 -
[1] 苏克雷, 叶娟, 张业清, 等. 基于数据挖掘的江浙沪名老中医膏方医案关联解析[J]. 中华中医药杂志, 2019, 34(6): 2721-2727. https://www.cnki.com.cn/Article/CJFDTOTAL-BXYY201906105.htm [2] 朱青, 朱垚, 陆明. 基于国医大师周仲瑛临证肝胆医案的经验解构研究[J]. 中华中医药杂志, 2017, 32(4): 1814-1817. https://www.cnki.com.cn/Article/CJFDTOTAL-BXYY201704118.htm [3] 黄磊, 朱垚, 陆明, 等. 周仲瑛临证医案参附药对经验解构[J]. 中国中医基础医学杂志, 2016, 22(6): 863-865. https://www.cnki.com.cn/Article/CJFDTOTAL-ZYJC201606050.htm [4] 夏娟, 朱垚, 陆明. 基于国医大师周仲瑛临证医案的交泰丸运用经验解构[J]. 江苏中医药, 2016, 48(5): 14-16, 18. https://www.cnki.com.cn/Article/CJFDTOTAL-JSZY201605007.htm [5] 厉励, 朱垚, 陆明. 近现代内分泌代谢性疾病"瘀热"医案解构研究[J]. 中国临床研究, 2016, 29(2): 253-256, 259. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGCK201602033.htm [6] 周晓鸽. WHO(2008)造血与淋巴组织肿瘤分类[J]. 诊断病理学杂志, 2008, 15(6): 510-512. doi: 10.3969/j.issn.1007-8096.2008.06.033 [7] 王永炎, 严世芸. 实用中医内科学[M]. 上海: 上海科学技术出版社, 2009: 702-706. [8] 中药新药临床研究指导原则[M]. 北京: 中国医药科技出版社, 2002: 383-388. [9] 吴承玉, 王天芳. 中医诊断学[M]. 上海: 科学技术出版社, 2018. [10] 唐德才, 高学敏, 吴庆光, 等. 中药学[M]. 北京: 人民卫生出版社, 2016. [11] 中医临床医案数据挖掘研究数据规范化标准[S]. 南京: 江苏地区备案企标, 2019. [12] 杨涛, 陆明, 朱垚. 基于FP-Growth的中医药数据关联分析平台的设计和应用[J]. 时珍国医国药, 2016, 27(12): 3050-3052. https://www.cnki.com.cn/Article/CJFDTOTAL-SZGY201612081.htm [13] 中医临床医案数据挖掘研究数据分析操作标准[S]. 南京: 江苏地区备案企标, 2019.
计量
- 文章访问数: 305
- HTML全文浏览量: 14
- PDF下载量: 301
- 被引次数: 0