1. 研究目的与意义
一、内容
1、理论学习
(1)了解方药信息的内容和组织形式等;
2. 文献综述
中医学是中华民族文化的瑰宝,为中华民族的繁衍昌盛和人类健康做出了不可磨灭的贡献。中医的传承和发展离不开新技术的支撑,随着大数据和人工智能时代的到来,特别在近年来国家相继发布《中医药发展战略规划纲要(20162030年》(国发〔2016〕15号)、《中医药信息化发展十三五规划》(国中医药规财发〔2016〕25号)、《新一代人工智能发展规划》(国发〔2017〕35号)等文件的背景下,利用新技术开展中医药数字化和智能化研究和产业应用,将大力推动中医药现代化发展进程。加之国际上对中医的认可程度逐步提高,中医药信息化的黄金时代已然到来[4]。孟学茹等[5]在中医药领域人工智能研究现状的研究中指出,人工智能在医疗方面已经有所发展,但在中医药领域较少,未来人工智能在中医药方面,将会有很大的发展空间。人工智能将提高整体管理水平服务,加强中医药内涵建设服务,为中医药文献整理与研究发挥更大的作用,促进中医药技术的对外交流服务[6]。
知识图谱是通过数据挖掘、信息分析等一系列处理,实现知识可视化发现。知识图谱是以语义网络为骨架构建起来的网络化知识系统,是一种基于图的知识表示方法,其中的节点代表领域概念,边代表概念之间的语义关系。知识图谱在语义网络的基础上添加了更多的知识内容,如领域概念实体的各种信息以及相关文献资源的链接等。这些新增的知识内容可能来自于各种数据库、文献库、数据文件等等,它们可能分散于不同的信息系统和组织之中。知识图谱以语义网络为骨架,对分散的领域知识进行汇集和系统组织,并实现知识检索、知识展示和知识服务等功能。从知识图谱数据组织的架构来看,可以把知识图谱的数据分为两个层次,一个是数据模型层,另一个就是具体数据层,具体数据是一条条的知识,它是依据数据模型组织起来的。我们可以把数据模型看作是骨架,把具体数据看作是肌肉,两部分共同组成了一个健壮的整体,就是我们的知识图谱。将知识图谱的数据分成了两个层次,在构建知识图谱的时候,是先确定数据模型再收集具体数据,还是先收集具体数据再确定数据模型,这就形成了两种构建知识图谱的方式。一种是自顶向下的构建方式,一种是自底向上的构建方式。中医药知识图谱主要是以中医药学语言系统为骨架构建的知识图谱体系,以现有的数据库资源为知识图谱填充内容。中医药知识图谱能增强中医药知识资源的联通性,可以形象地表达领域概念之间的关联,发现中医药概念或知识资源之间的潜在联系。于彤等[7]提出了以 TCMLS 为骨架,以中医药领域现有的
术语和数据库资源为内容,构成大型知识图谱的构想,并开展了相关的探索和实践,但是没有实现中医药知识资源的有效整合以及提供全面、及时、可靠的知识服务。贾李蓉等[8]以中医药语言系统为架构,分别从知识来源、知识内容及图形化展示等方面探讨中医药知识图谱构建方法,分析了中医药知识图谱的应用前景。崔楠楠[9]基于知识图谱的方法,对中药炮制领域的研究热点进行了分析,通过提取近十年来中药炮制领域相关文献资料的高频关键词,对高频关键词进行可视化分析,在此基础上进一步构建知识图谱,实现中药炮制学科研究热点的定量评价和客观评价。赵君霞[10]研究了中医临床数据的网络化建模方法,构建了中药配伍网络图谱,通过网络图谱中的节点以及节点与节点之间的相互关系实现药物配伍规律的知识发现。张润顺等[11]基于多层核心网络图谱分析,研究了基于复杂网络图谱的肝脾不调证的药物配伍处方可视化分析方法,实现了名老中医治疗处方药物配伍规律和核心药物的知识发现。郝宏文等[12]通过建立复杂网络图谱,研究了名医诊疗多发性抽动症处方的配伍规律,发现了处方中的核心药物和处方规律。高铸烨等[13]研究了基于复杂网络的知识挖掘方法,通过构建证候与法治、药物、功效之间的复杂网络图,挖掘了某病症证候-治法-中药之间的联系。尚尔鑫等[14]研究了三维图形化数据挖掘方法,并成功应用于方剂配伍规律挖掘和图形化表示。窦立君等[15]将方剂处方中的药物联系转换为图结构,利用频繁闭图挖掘算法对图结构数据进行挖掘,获得中药方剂的核心药物组合。
张德政等[16]提出基于本体的中医知识图谱构建研究方法,以普通高等教育中医药类规划教材为主要知识源,并结合中医临床诊疗术语标准等,使用本体构建工具 Protg [17]进行构建中医基础理论本体。结合知识图谱技术,结合图数据库特点,
提出并实现中医核心知识图谱表示和构建技术,在基于图谱在结合中医思维方法的知识检索和名老中医经验发现和总结方面进
行有益的探索,但是该研究需要有更多的知识源和知识获取方法进行知识的补充和知识的自我进化,是需要解决问题。研究中指出中医核心知识图谱的构建过程如图 1所示:
张等提出的基于本体的中医知识图谱构建研究方法,是一种自顶向下的知识图谱构建方法,即先确定知识图谱的数据模型,再根据模型去填充具体数据,最终形成知识图谱。数据模型可以看作是元数据,依据数据模型,数据才能得到有效的组织。数据模型除了确定对象之间的分类,关系,还要明确对象的属性,针对不同的知识图谱,需要收集的数据的内容也不相同,内容范围由对象的属性确定。数据模型的分类,关系反映了数据之间的关系特征,数据模型的属性反映了数据的内在特征。依据此模型,本课题将采用基于机器学习方法,建立中医方药数据模型,作为知识图谱的骨架;基于NLP技术,对文本进行方药实体和关系的抽取,作为具体数据源,最终形成知识
图谱。
3. 设计方案和技术路线
一、设计方案
1、研究方法
选择Python编程技术实现系统功能;采用Flask、Html CSS JS等web开发技术;数据库采用PostgreSQL关系型数据库。实现在B/S模式下,搭建中医方药知识图谱管理平台。
4. 工作计划
设计进度安排如下:
2月18日3月3日:查阅资料,确定方药术语词典数据结构及存储架构;
3月 4日3月17日:需求分析,对命名实体识别技术算法和基于机器学习的数据元提取算法比较分析,选择1-2种算法进行建模;
5. 难点与创新点
本课题的创新之处在于能从中医信息化可持续发展出发,把握中医信息共享、知识共享的应用基础及其相关研究之间的关系,将现代信息智能处理技术引入中医信息化基础研究中,探索实现中医方药信息智能处理的问题中医方药知识图谱的解决方案和关键技术。创新点如下:
1、将自然语言处理的机器学习技术应用于中医方药的数据元提取过程,可实现方药术语的动态标准化。
2、从知识工程的角度,对方药术语提取数据元的过程,给出了更为准确的术语、实体、对象、类、属性及其之间的关系,获得的数据元目录为本体构建提供了标准的术语表(全局本体),构建知识图谱骨架。
