第三节 中文医学术语体系建设路线

一、体系建设的原则和路径

(一)中文医学术语标准化原则

围绕术语构建的相关理论基础和标准化方法进行研究,吸纳国际主流医学术语标准的建设经验,运用适应国内医学和临床环境的用语习惯,进行中文医学术语标准的构建和维护,从而构建中文医学术语系统。术语系统建设遵循以下原则。

1.系统性原则

中文医学术语标准构建重点解决临床领域的需求,临床领域是医学的组成部分,需要与医学领域其他术语标准协调一致,还必须考虑与国际医学术语系统的一致与协调,以便将来协调互用。从中文医学术语标准本身来看,其不是简单的临床概念的堆砌。根据知识组织体系的结构、语义强弱程度、所实现的功能等要素,已有的医学术语标准可分为四个层次:①词汇表类,强调对概念的解释,形式简单,不涉及复杂的语义关系,如权威规范文档、词汇表、术语表、词典、指南等;②分类体系,强调概念之间的层级聚合和类别体系,起到范畴归类作用,如分类法、知识分类体系、类目表等;③语义关联组类,强调概念的表达,以及概念之间各种关系的揭示,如叙词表、语义网络、本体等;④一体化语言系统,强调各个医学术语标准之间的映射和关系的揭示。中文医学术语标准建设应构建术语集、分类体系、语义关联组,同时考虑与现有医学术语系统的映射关系。

2.实用性原则

中文医学术语标准构建应从临床工作需要出发,保证涵盖所有涉及临床常用术语,根据术语在临床应用中的属性和特点进行科学、合理的系统化排序。术语的概念和分类应以服务于临床应用为基础,充分考虑实际操作的可行性和便捷性,其分类应既符合医学特色,还能满足电子病历、医疗保险等信息系统建设需求。

3.经济性原则

国内外已有SNOMED CT、ICD-10、LOINC、UMLS和中医药学术语系统等众多医学术语标准,后发制胜,选择经济上合理的设计方案。中文医学术语标准建设,应充分考虑借鉴或复用现有知识系统的可能性,围绕术语构建的相关理论基础和标准化方法进行研究,吸纳国际主流医学术语标准的建设经验,运用适应国内医学和临床环境的用语习惯,进行中文医学术语标准的构建和维护,建立中文医学术语标准体系。

4.质量原则

经过术语审核流程后,通过审核的术语才能对外发布。

5.稳定性原则

术语集一旦构建形成,将不会做重大改变,以平稳方式新增和修订,从而保证用户的正常使用。

6.可追溯原则

为了更好地进行历史追溯,术语集所有内容一旦发布即会永久存在。

7.被监督原则

通过制定科学的机制,使术语集处于可被发现错误的状态,主要通过两种方式:临床专家发现和用户反馈。

(二)中文医学术语标准开发路径

1.中文医学术语标准建设路径

中文医学术语标准的建设,主要有两种思路:一是引进和翻译国际医学术语系统,形成中文医学术语系统;二是吸收国际医学术语系统的设计思想和研制方法,自主设计开发中文医学术语体系。

部分学者认为,根据我国当前标准研发现状,在术语理解、国际通用性、开发周期、技术力量、团队协作等方面还存在一定差距,自行开发难度较大,引进、消化、吸收SNOMED CT的技术路线和方法,创新建立我国医学术语系统较为可行,是实现跨越式发展的有效路径。以SNOMED CT的实施思路为例。

(1)组织管理:

建议国家成立组织管理机构(SNOMED CT中文版发布中心),统筹SNOMED CT中文版开发与应用。

(2)标准翻译:

SNOMED CT的翻译需要具有相应的语境的理解,翻译人员应具有相应医学背景,根据试点情况,找出相应的最小参考集,最后根据需求确定本地化的内容,再进行翻译。

(3)交流培训:

根据SNOMED CT官网内容,组织专家编写相应的培训教材。试点医院根据SNOMED CT在医院业务流程的应用切入点,查询、学习SNOMED CT相关指南,学习相应的免费课程,试点医院信息系统承建单位要主动学习SNOMED CT,积极参与应用试点工作。

(4)应用试点:

试点医院应明确具体的实施方案,确定具体的方向和边界以及解决具体的问题,总结试点成效、进行推广应用。

(5)人才培养:

行业主管部门、技术部门、医院、高等院校、科研院所、健康医疗信息技术企业多方参与,共建SNOMED CT中文版开发与应用管理体系,建立健全中文医学术语系统。

在中文医学术语标准探索过程中,自主设计和开发全套中文医学术语体系具有可行性。

(1)可参照ISO或国家标准化管理委员会(SAC)等组织发布的术语标准化方法,进行中文医学术语标准的构建。术语标准化方法明确提出了概念、术语、关系和同义词等,涉及术语标准制定和管理的各方面,SNOMED CT、MeSH、UMLS等术语标准制定的方法并无特别创新之处,没有拥有自有知识产权的方法论内容。术语标准化方法由ISO TEC技术委员会和我国SAC技术委员会制定,并作为国际标准和我国国家标准予以发布,任何新的术语标准建设均可使用。

(2)中文医学术语标准构建所需的相关软件工具,我国能够自行研发。SNOMED CT、LOINC等众多医学术语系统均建立了相应的管理系统、映射工作和辅助工具等,服务于术语标准制定过程,并提供网络检索平台。我国信息化技术发展处于世界前列,中文医学术语标准构建过程所需的这些软件系统,我国有大量的研究所、高等院校和企业拥有自主研发能力。

(3)中文医学术语标准构建所需的医学领域知识和数据积累,我国没有相关障碍。近年来我国医学高速发展,并在部分领域处于世界前列,拥有一批各专科领域的权威专家;同时,我国医院电子病历建设起步较早,至今已有大量医院拥有超过10年的电子病历数据,这些有利条件均为中文医学术语标准的制定提供了基础支撑。

自主设计开发中文医学术语体系的总体路径如下:

(1)从实际工作需求出发,构建统一的分类框架体系,吸纳词汇表、词典和指南等多种来源的术语名词,覆盖临床医学、中医、药学、生物医学等多专业领域。

(2)采用先进的术语设计理念,吸纳SNOMED CT等术语体系的构建技术,设计基于本体的医学术语模型、编码体系和知识图谱。

(3)兼顾管理与协作,搭建中文医学术语协作管理系统,保障中文医学术语体系的长期发展。

(4)与现行其他医学词表或目录进行融合或映射,满足病历书写、病案编目、疾病诊断相关分组(diagnosis related groups,DRG)付费等多场景应用需求。

(5)提供术语服务与软件工具,使卫生行业人员更好、更便捷地获取术语服务。

(6)积极探索推进术语应用落地,包括互联互通、医学研究、医学人工智能等。

以SNOMED CT中文化为例,对比分析自主构建和SNOMED CT中文化方式构建的优劣,对两种中文医学术语标准开发方案进行对比分析,如表1-1所示。通过对比分析可以看出,我国在研制中文医学术语标准时,参照国际医学术语系统,自主设计和开发全套中文医学术语体系。

表1-1 中文医学术语标准构建路线比较分析

续表

2.中文医学术语标准化方法

自主构建中文医学术语标准,关键需要研究术语的标准化方法,主要工作包括概念的确定与表示、概念之间关系的确定与表示、术语与同义词的确定。

(1)概念的确定与表示:

概念的确定与表示是向特定领域,选取具有特异性的概念并给出合理的表达方式,概念的选取与确定可以在概念体系的构建过程中进一步补充与完善,其过程主要分为以下步骤:①确定专业领域,分析用户需求;②收集该专业领域的备选术语,在收集过程中应考虑术语的领域特异性;③确定该领域的概念,将备选术语按所指称的概念分类,以此确定该领域中的概念;④确定概念的形式化表示,一般可采用概念的专业分类和指称同一概念的备选术语的集合作为概念的形式化表示,在一个明确的专业领域内部(不包含进一步细分的专业领域)也可仅使用指称同一概念的备选术语集合作为概念的形式化表示;⑤选定概念的首选词,概念的首选词主要用于在确立概念和建立概念体系工作过程中进行交流与讨论,一般可以用概念的备选术语集中任一选定的术语作为概念的首选词。

(2)概念之间关系的确立与表示:

概念体系的建设是对特定领域的一组相关的概念之间的关系进行描写,每一个概念应在概念体系中有确定的位置。基本流程主要包含以下步骤:选定专业领域及应用目标,确立并描述领域概念,确立概念体系所包含的概念之间的关系;确立每一个概念在概念体系中的位置;根据概念之间的关系评价、优化概念的定义;给出概念的指称,一般可在指称概念的候选术语集合中选择出一个首选术语作为概念的唯一指称,也可以根据需要定义新的术语作为概念的指称。概念体系的建设可采用自底向上和自顶向下两种方式进行,自底向上是指通过概念间的聚类分析找出相关的上位概念并以此递推构建完整的概念体系,自顶向下是将所研究的概念按照领域的理论模型、物质分类等进行归类,在建设概念体系的具体操作中常常是两种方式的结合。

(3)术语与同义词的确定:

主要针对术语的选择,确立同义词。一些已经确立的术语指称的是同一概念,这些术语之间便发生了同义现象。同义词可在任何语境中互换使用;而准同义词在某些语境中可等同使用,但在另外的语境中则不能互换使用。

(三)中文医学术语项目管理路径

中文医学术语标准开发需要技术和管理并重,标准开发项目的组织管理模式的合理性会对术语标准的开发产生较大影响。术语项目从开始到完成,特别是涉及标准化的管理过程,是通过一系列阶段顺序展开的,包括:准备、设计、实施和审查。①准备阶段:本阶段包括对项目可行性评价,对其权益、经费及组织的框架描述,以及依据可行性研究和框架,确定任务书。②设计阶段:项目规划,术语标准化项目规划包括成立工作组、制定包括项目时间进度的工作计划、确定项目的工作方法和工作手段。通过术语标准化的会议,可为概念、术语和定义等问题取得一致意见,包括建立概念体系;编写详细的术语标准化文件,包括对惯用法的推荐;成立特别工作小组,召开小组会议集思广益合力攻关或召开一般讨论会解决特殊难题。③实施阶段:本阶段包括对术语数据的收集和记录,查阅相关概念和术语文献,评价文献的可靠性和关联性,建立术语表,建立概念领域和概念体系,撰写定义,最后根据工作组在设计阶段所选择的记录媒体和格式构建词条。④审查、评价和验证阶段:本阶段包括由术语学家、领域专家和术语集的用户对项目成果的审查和评价,以及对术语标准化项目的评价。

通过研究中文医学术语标准开发项目管理方法,为中文医学术语标准体系建设工作做好准备,针对术语标准管理机制和术语标准协作开发机制展开深入研究。

1.术语标准管理机制

中文医学术语标准管理机制的研究路线如图1-4所示。首先,将文献调查和专家咨询相结合,研究分析国外主流医学术语标准项目的组织管理体系、术语管理方法、推广机制以及不同术语标准之间的协调机制,分析得出对中文医学术语标准管理的借鉴意义。调研国外典型术语系统的协调机制,充分了解中文医学术语标准管理的外部环境。然后,在充分调查、分析的基础上,设计中文医学术语标准管理体系框架,研究术语标准开发需要关注的管理要素,对组织模式、标准更新和维护机制以及与其他术语标准的协调机制等进行研究,为中文医学术语标准规划提供建议。实现临床术语长期维护,定期更新,建立与使用者之间的反馈机制。

图1-4 中文医学术语标准管理机制研究路线

2.术语标准协作开发机制

中文医学术语标准协作开发机制的研究路线如图1-5所示。首先,研究分析国际典型医学术语标准项目的运行机制和协作开发管理机制及协同工具,分析得出对我国医学术语标准协作开发的借鉴意义。从医学术语体系的设计者、开发者、使用者等角度考虑,在充分调查、分析的基础上,设计中文医学术语标准项目的协作开发模式,构建术语语料库、术语著录系统、术语协作系统。为打造出一个“开放、共做”的协作平台,提出医学术语协作开发管理系统的开发需求。

图1-5 中文医学术语标准协作开发机制研究路线

二、体系建设的具体方法

(一)文献分析

通过对国内外相关文献进行深入分析和研究,了解国外典型医学术语标准化组织及术语系统的历史、现状和今后发展趋势,总结各术语标准化组织的术语系统体系结构、术语集的建设成果。考虑中西方文化、环境、语言习惯的差异,分析印欧语系医学术语系统对中文医学术语系统建设的借鉴意义,为术语研究提供参考,指导构建中文医学术语标准体系。医学术语涉及的领域过于庞大,在术语著录过程中,需要进行文献采集、评价和使用,其类型主要包括:①法律、法规、标准等权威文件;②教科书、科学论文、科技期刊等学生团体普遍公认的文献;③小册子、说明书、零部件目录、报告等常见但未必得到公认的资料;④工作组成员和专家提供的资料;⑤术语数据库;⑥术语词表、词典、百科全书、叙词表等。认真评价所收集的资料,主要考虑以下几点:①资料应能反映学科领域的研究水平,不能过于陈旧,否则其中的术语和定义可能不太可靠;②应选取学科领域公认的、权威的研究者所撰写的资料;③资料中的术语不应只反映个别学派、个别研究者的观点;④考虑词表中术语是否按照国家标准规定的或公认的术语工作原则和方法而制定;⑤所用的资料一般不能是译文,对于使用译文作为资料的极少数情况,应先评价译文的可靠性和准确性,经过评价的资料要经过编码并按列表形式查询,以便保管和日后查询。采集术语数据时,从选定的资料中标识出属于该学科领域的术语,采取的术语数据应尽量齐备。在最初阶段,与该领域有关的一切术语或概念定义都要采集,即便其中有些可能属于其他学科领域。采集的数据要分语种并按照一定的格式记录下来,其中包括与术语相关的数据、与概念相关的数据和与管理相关的数据三大部分。与术语相关的数据包括:基本术语及其同义词、近义词、反义词、变体形式(拼写变体、形态变体和句法变体)、缩写形式、完整形式、术语符号、其他语种的等值词;术语采用级别(优选术语、许用术语、拒用术语、被取代的术语);语法信息;术语的注释信息。与概念相关的数据包括:定义、语境、概念的其他表示法(如公式等)、图形表示、示例、注释。管理数据包括:概念标识符、语种符号、记录日期、记录者标识符、源文献。以上数据可以通过术语卡片记录,也可以数据库的形式存储起来。

通过图书、期刊、网络、会议、考察及其他传播媒介,查阅术语标准化和医学术语标准的国内外文献,收集国外相关文献、成果和案例,收集我国医学术语相关文献、成果和案例,跟踪和分析对比最新理论、方法、研究成果、政策法规制度等。结合国外和我国医学术语系统的发展对比,分析我国与其他国家在医学术语标准化方面存在的差异,包括总体规划、标准和术语数量、组织机构、应用效果和维护情况等,分析中文医学术语系统发展存在的问题以及对策。

(二)专家团队

建立良好的团队协作机制,进行跨专业领域的合作,同时,采用咨询会、专家研讨会和研究交流会相结合的方式,实现研究的开放化管理,强调研究过程管理,保证研究目标按计划实现。术语集构建过程中应有标准的、完整的数据审核机制以保证数据的准确性和可靠性。通过专家咨询,确定术语概念、名称是否合理,是否适合加入中文医学术语体系中,收集的专家建议列表将作为中文医学术语团队对基础体系进行纠错和数据补充的依据。

为保证研究成果具有先进性、系统性、实用性,成立专家组,以中国卫生信息与健康医疗大数据学会卫生信息标准专业委员会、国家卫生健康委统计信息中心和华中科技大学同济医学院及其附属同济医院的有关专家为主力,并邀请中国工程院院士、同济医院妇产科学系主任马丁及其团队提供临床指导。在研究过程中广泛征求有关专家意见。

(三)实证研究

通过与国内大型医疗大数据企业进行交流,了解我国各大医院术语标准应用现状及相关大数据公司术语系统建设情况,并探讨术语系统建设过程中面临的问题及解决方案。本书提出的中文医学术语标准化方法,在同济医院现场应用,评估和验证其合理性、科学性和实用性,发现问题,提出解决对策。

1.术语语料库构建与加工

对术语语料库系统进行功能设计,根据术语研究的需要,提供术语的用例查询、领域频度信息统计等功能。对术语语料库系统进行管理与维护,包括语料管理与更新、服务方式或功能更新、术语语料库系统维护与管理等。对术语语料库中的语料进行加工,形成包含原始术语语料库、篇章级标注术语语料、术语标注级术语语料三个层次的语料。术语语料库的规模一般比较大,在语料的篇章标注、术语标注等方面宜采用人机结合方式,为便于数据交换,标注工具宜采用通用的置标语言。

2.中文医学术语管理系统研发与协作

设计中文医学术语管理平台的基本功能,包括术语编写管理、协作管理、质量管理、发布管理、反馈追踪等功能模块,为临床医学术语标准体系建设提供平台支撑。基于国家卫生健康委已发布相关数据集及术语集标准等多种术语来源,探索基于术语协作开发平台进行多学科、多小组协作开发模式。

3.医院信息系统应用

中文医学术语系统与电子病历结合,应用于模板制作,提高电子病历的前置结构化水平,便于后续的病历分析和医学研究。基于中文医学术语集,构建结构化病历搜索,在医院本身病历数据清洗加工的基础上,通过多样化的搜索方式和工具,达到快速搜索特定要求病历或患者,以满足临床各种查询、科研、分析场景的专业搜索。基于中文医学术语集,利用人工智能技术探索在病案首页质量控制,尤其是编码纠正、辅助上的应用具有可行性,包括智能化ICD自动编码对应;多诊断情况下自动判别主要诊断;智能化编码合并及合理费用优化等。很多疾病的管理需要依据或参考风险评估结果,包括心血管疾病、呼吸系统疾病等,如果能在中青年时或者患者入院初期就提早知道罹患冠心病、脑卒中、静脉血栓栓塞症等疾病的风险,就可以及早采取预防措施,探索中文医学术语在疾病智能化风险评估中的作用具有重要意义。