ICS35.240.01 L 70 中华人民共和国国家标准 GB/T36452—2018 信息处理用藏文分词规范 Specification on Tibetan segmentation for information processing 2019-01-01实施 2018-06-07发布 国家市场监督管理总局 发布 中国国家标准化管理委员会 GB/T36452—2018 目 次 前言 引言 II 1 范围 2规范性引用文件 3术语和定义 4 分词规范 参考文献 15 GB/T36452—2018 前言 本标准按照GB/T1.1一2009给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本标准起草单位:中国电子技术标准化研究院、西藏大学、西北民族大学、西藏自治区藏语文工作委 员会办公室、青海师范大学、青海民族大学、中国科学院软件研究所、西藏自治区工业和信息化厅 本标准主要起草人:扎西加、欧珠、尼玛扎西、熊涛、格桑多吉、多拉、拉巴泽仁、大罗桑朗杰、高定国、 拉琼、仁青诺布、索南尖措、旺堆、小尼玛扎西、普次仁、顿珠次仁、赵栋材、边巴嘉措、 1 GB/T36452—2018 引言 本标准以现代藏语的词类和分词研究成果为基础,根据藏文词汇特点与构词规律,并参考汉语分词 及词类标记相关标准(见参考文献)的部分内容,规定了信息处理用藏文分词规范。 Ⅱ GB/T 36452—2018 信息处理用藏文分词规范 1范围 本标准规定了信息处理用藏文分词规范 本标准适用于藏文信息处理各领域,其他行业和有关学科可参照使用。 2规范性引用文件 2 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T36337—2018信息处理用藏语词类标记集 术语和定义 3 下列术语和定义适用于本文件。 3.1 词 word 区别事物意义的最小的语法单位。 3.2 词组 1phrase 两个或更多词组合成的语言单位。 注:词组可以是实词与实词的组合,也可以是实词和虚词的组合。 3.3 藏文信息处理 Tibetan information processing;TIP 用计算机对藏文的音、形、义等信息进行处理。 3.4 分词单位 segment unit 在分词过程中出现的词。 注:分词单位不仅限于语法词,其中也包含了信息处理所需的一部分结合紧密、使用稳定的词组。 3.5 藏文分词 Tibetan segmentation 将连续的藏文音节序列按照一定的规范重新组合词序列的过程。 4分词规范 4.1 藏文分词单位和词类的标记 本标准以"/”作为藏文分词单位的标记,藏语词类标记依据GB/T36337一2018的规定。 4.2 4.2.1由单音节名词和单音节形容词组成的词为一个分词单位 1 GB/T36452—2018 示例: 示例: 4.2.3由名词性分词单位和专职词“引"组成的名词为一个分词单位 示例: 4.2.4名词性的构词后缀“”不单独切分。 示例: /e.. /e./.e. . .. 4.2.5四音节构成的复合词为一个分词单位。 示例: 4.2.6五音节构成的复合词为一个分词单位。 示例: 4.2.7三音节构成的固定词组为一个分词单位。 示例: 4.2.8四音节构成的固定词组为一个分词单位。 示例: 4.2.9五音节及以上音节构成的固定词组为一个分词单位。 示例: 4.3人名<(nr) 4.3.1不易区分姓和名的笔名通常作为一个分词单位。 示例: 4.3.2人名的译名按其习惯形式作为一个分词单位。 示例: 4.3.3人名(包括带格助词的人名)作为一个分词单位 2 GB/T36452—2018 示例: 4.4地名>(ns) 4.4.1山丘河流等名称作为一个分词单位。 示例: 4.4.2地名后有表示自然区划的普通名词,如“a1”等,作为一个分词单位。 示例: 4.4.3地址叙述中的大小地名分别作为一个分词单位,如其中地名或路名是一个音节则不予切分。 示例: 4.5国名(ng) 国名不论长短,作为一个分词单位。 示例: 4.6族群名(ne) 4.6.1表示民族、人种的词作为一个分词单位。 示例: 4.6.2表示部落、部族的词作为一个分词单位。 示例: 4.6.3表示文种、语种的词作为一个分词单位。 示例: 4.7团体机构名<>(na) 4.7.1行政区划称谓中两个音节及以上做切分,地名或行政区划名如其中一个是单音节,则不切分,将 地名与行政区划名合起来作为一个词。 示例: 3

pdf文档 GB-T 36452-2018 信息处理用藏文分词规范

安全标准 > 国标 > 文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB-T 36452-2018 信息处理用藏文分词规范 第 1 页 GB-T 36452-2018 信息处理用藏文分词规范 第 2 页 GB-T 36452-2018 信息处理用藏文分词规范 第 3 页
下载文档到电脑,方便使用
本文档由 思安2023-01-26 17:30:38上传分享
给文档打分
您好可以输入 255 个字符
网站域名是多少( 答案:github5.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。