说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
首页
频道
批量下载
联系我们
问题反馈
投诉渠道
商务合作
注册会员
首页
批量下载
联系我们
问题反馈
投诉渠道
商务合作
注册会员
批量下载
ICS35.240.01 L 70 中华人民共和国国家标准 GB/T36452—2018 信息处理用藏文分词规范 Specification on Tibetan segmentation for information processing 2019-01-01实施 2018-06-07发布 国家市场监督管理总局 发布 中国国家标准化管理委员会 GB/T36452—2018 目 次 前言 引言 II 1 范围 2规范性引用文件 3术语和定义 4 分词规范 参考文献 15 GB/T36452—2018 前言 本标准按照GB/T1.1一2009给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本标准起草单位:中国电子技术标准化研究院、西藏大学、西北民族大学、西藏自治区藏语文工作委 员会办公室、青海师范大学、青海民族大学、中国科学院软件研究所、西藏自治区工业和信息化厅 本标准主要起草人:扎西加、欧珠、尼玛扎西、熊涛、格桑多吉、多拉、拉巴泽仁、大罗桑朗杰、高定国、 拉琼、仁青诺布、索南尖措、旺堆、小尼玛扎西、普次仁、顿珠次仁、赵栋材、边巴嘉措、 1 GB/T36452—2018 引言 本标准以现代藏语的词类和分词研究成果为基础,根据藏文词汇特点与构词规律,并参考汉语分词 及词类标记相关标准(见参考文献)的部分内容,规定了信息处理用藏文分词规范。 Ⅱ GB/T 36452—2018 信息处理用藏文分词规范 1范围 本标准规定了信息处理用藏文分词规范 本标准适用于藏文信息处理各领域,其他行业和有关学科可参照使用。 2规范性引用文件 2 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T36337—2018信息处理用藏语词类标记集 术语和定义 3 下列术语和定义适用于本文件。 3.1 词 word 区别事物意义的最小的语法单位。 3.2 词组 1phrase 两个或更多词组合成的语言单位。 注:词组可以是实词与实词的组合,也可以是实词和虚词的组合。 3.3 藏文信息处理 Tibetan information processing;TIP 用计算机对藏文的音、形、义等信息进行处理。 3.4 分词单位 segment unit 在分词过程中出现的词。 注:分词单位不仅限于语法词,其中也包含了信息处理所需的一部分结合紧密、使用稳定的词组。 3.5 藏文分词 Tibetan segmentation 将连续的藏文音节序列按照一定的规范重新组合词序列的过程。 4分词规范 4.1 藏文分词单位和词类的标记 本标准以"/”作为藏文分词单位的标记,藏语词类标记依据GB/T36337一2018的规定。 4.2 4.2.1由单音节名词和单音节形容词组成的词为一个分词单位 1 GB/T36452—2018 示例: 示例: 4.2.3由名词性分词单位和专职词“引"组成的名词为一个分词单位 示例: 4.2.4名词性的构词后缀“”不单独切分。 示例: /e.. /e./.e. . .. 4.2.5四音节构成的复合词为一个分词单位。 示例: 4.2.6五音节构成的复合词为一个分词单位。 示例: 4.2.7三音节构成的固定词组为一个分词单位。 示例: 4.2.8四音节构成的固定词组为一个分词单位。 示例: 4.2.9五音节及以上音节构成的固定词组为一个分词单位。 示例: 4.3人名<(nr) 4.3.1不易区分姓和名的笔名通常作为一个分词单位。 示例: 4.3.2人名的译名按其习惯形式作为一个分词单位。 示例: 4.3.3人名(包括带格助词的人名)作为一个分词单位 2 GB/T36452—2018 示例: 4.4地名>(ns) 4.4.1山丘河流等名称作为一个分词单位。 示例: 4.4.2地名后有表示自然区划的普通名词,如“a1”等,作为一个分词单位。 示例: 4.4.3地址叙述中的大小地名分别作为一个分词单位,如其中地名或路名是一个音节则不予切分。 示例: 4.5国名(ng) 国名不论长短,作为一个分词单位。 示例: 4.6族群名(ne) 4.6.1表示民族、人种的词作为一个分词单位。 示例: 4.6.2表示部落、部族的词作为一个分词单位。 示例: 4.6.3表示文种、语种的词作为一个分词单位。 示例: 4.7团体机构名<>(na) 4.7.1行政区划称谓中两个音节及以上做切分,地名或行政区划名如其中一个是单音节,则不切分,将 地名与行政区划名合起来作为一个词。 示例: 3
GB-T 36452-2018 信息处理用藏文分词规范
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 思安 于
2023-01-26 17:30:38
上传分享
举报
下载
原文档
(2.4 MB)
分享
友情链接
GB-T 20733-2022 数码照相机 术语.pdf
DB15-T 1394-2018 软件工程项目价格测算规范 内蒙古自治区.pdf
GB-T 20507-2018 球形氢氧化镍.pdf
DB31-T 1240.1-2020 公共数据共享交换工作规范 第1部分:平台建设和运行管理要求 上海市.pdf
GB-T 37955-2019 信息安全技术 数控网络安全技术要求.pdf
GB-T 38499-2020 消毒剂稳定性评价方法.pdf
商用密码应用安全性测评机构能力评审实施细则(试行).pdf
T-XJNFCP 002—2023 预制菜保质期通用规范.pdf
如何结合使用TOGAF® 和IT4IT™ 标准.pdf
商用密码检测机构管理办法(征求意见稿).pdf
GB-T 29755-2013 中空玻璃用弹性密封胶.pdf
GB-T 7256.1-2022 民用机场助航灯具 第1部分:一般要求.pdf
JR-T 0072-2012 金融行业信息系统信息安全等级保护测评指南.pdf
T-ACEF 065—2023 重金属污染土壤生态风险评估技术指南.pdf
NIST SP 800-210 云系统通用访问控制指南 .pdf
GB-T 42882-2023 城市和社区可持续发展 智慧城市运行模型 应对突发公共卫生事件的指南.pdf
HB 8573-2020 民用飞机机载嵌入式操作系统板级支持软件测试要求.pdf
SN-T 5350.1-2021 硫磺 酸度的测定 自动电位滴定法.pdf
GB-T 37227.1-2018 制冷系统绩效评价与计算测试方法 第1部分:蓄能空调系统.pdf
GBT 50064-2014 交流电气装置的过电压保护和绝缘配合设计规范.pdf
1
/
3
19
评价文档
赞助2元 点击下载(2.4 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。