抽取怎么造句优秀
文件格式:DOCX
时间:2023-04-20 00:00:00    小编:向上遴选

抽取怎么造句优秀

小编:向上遴选

在日常的学习、工作、生活中,肯定对各类范文都很熟悉吧。范文书写有哪些要求呢?我们怎样才能写好一篇范文呢?下面是小编为大家收集的优秀范文,供大家参考借鉴,希望可以帮助到有需要的朋友。

抽取造句篇一

;

第1步:组建题库

首先请在excel创建题库,试题可从其他位置复制过来,但请保证一行一题,建议题库的题量尽可能大一些,格式请参考如图1所示的样式,“随机数”和“排名”是两个辅助列,抽取试题时需要用到。

第2步:辅助列使用公式

选择c2单元格,在编辑栏输入公式并下拉填充“=rand()”,这是为每道试题添加一个随机数字;选择d2单元格,在编辑栏输入公式并下拉填充“=rank(c2,$c$2:$c$53)”,這是为了得到这个随机数的排名,相当于为每道试题添加了一个随机变化的序号,执行效果如图2所示。

第3步:使用公式抽取试题

切换到“测试卷”工作表,选择b2单元格,在编辑栏输入公式“=index(题库!b:b,match(row(a1),题库!d:d,0))”。“row(a1)”部分的作用是得到参数的行号,结果为1,公式下拉时,参数会依次变成a2、a3、a4……,目的是产生一组从1开始的递增序号;match函数以这个序号作为查询值,在“题库”工作表的d列中返回对应的位置信息,最后由index函数根据这个位置信息,返回“题库”工作表b列的内容。(图3)

由于“题库”工作表d列的排名是随着随机数的变化而不断变化的,所以match函数的结果也会不断变化,最终实现了随机提取题目内容的要求。向下拖曳到相应的位置,这个位置取决于测试卷的题量。

第4步:设置计算选项

切换到“公式”选项卡,依次选择“计算→计算选项”,在下拉菜单选择“手动”,以后只要按下f9功能键,即可自动切换一组新的试题。

相关热词搜索:;

抽取造句篇二

兹介绍丁西峰等壹名同志前往贵中心办理文景商务广

场1~2#办公楼及商业裙房地下车库一标段进场登记号jk1320901工程专家抽取事宜。在切块管理区(区、县)招标办监督下,该项目已具备开标条件,现定于 20xx 年 7 月 22 日 9时 30分 开标,需评标专家共 7 名,其中系统抽取专家 5 名( 房建 专业 3 名、 经济类 专业 2 名),甲方专家 2 名,请予接洽。

(有效期:2天)

注:一式二份(交易中心和切块管理区(区、县)招标办分别留存一份)

抽取造句篇三

;

摘 要:随着藏文信息开始与现代化接轨,藏文信息数量在网络上迅速增加。面对海量的网络信息,如何从中挖掘人们所需的信息成为目前关注的热点。目前中文实体关系抽取研究已取得较多成果,而在藏语人物属性抽取研究方面还有很大的提升空间。实验选取实体位置关系、实体间距离关系、实体及周围词特征进行特征向量化。通过bp神经网络模型进行分类抽取,并且取得了较好效果。研究成果可在搜索引擎、信息安全、机器翻译等许多应用领域发挥重要作用。

关键词:藏语;实体关系抽取;bp神经网络

doi:10. 11907/rjdk. 181807

0 引言

随着互联网的迅速发展,电子文本信息资源数量越来越多,网民的增长速度也不斷加快,其中藏族网民近年来的增长幅度达到86%,远高于全国的平均增长速度[1]。如今自然语言处理技术已成为计算机领域的重要研究方向之一,其研究成果也为社会带来了巨大价值。如何对庞大的电子文本信息资源进行有效利用,并从中快速、准确地获取人们所需的信息,已成为当前关注的热点问题。

由于互联网数据的爆炸式增长,使研究热点更多地转向web内容结构化分析[2],在自然语言处理研究中,知识图谱开始得到人们的重点关注。由于少数民族语言知识图谱的构建才刚刚起步,所有藏文信息以文本形式显示为主,而缺少知识的结构化表示。如果将藏文知识以实体方式表示,并通过实体与实体之间的链接表征知识之间的关系,将有利于藏文知识的结构化分析与深度挖掘。

80年代初期,中国社会科学院民族所张连生尝试用计算机进行藏文词汇排序,开启了藏文文本处理的先河。但由于藏语形式与英语及汉语有着很大不同,在计算机操作系统平台上对其进行开发十分困难。截至目前,在藏语文本资源及文献分类、文本统计[3]与嫡值计算[4]、文本资源建设与词典构建等方面研究已取得较大进展,从而为本文的藏语实体关系抽取研究打下了良好基础。

1 研究现状

实体关系抽取是信息处理技术中的重要环节。由于藏语人物属性抽取工作尚处于起步阶段,还有大量工作有待完成。在英文研究方面提出了基于特征向量[5-6]与基于核函数的方法[7-8],在中文研究方面也有针对这两种方法的具体应用研究[9-10]。在使用模式匹配技术的基础上,邓擘等[11]引入词汇语义匹配技术对汉语实体关系进行抽取;张苇如等[12]提出一种基于维基百科与模式聚类的方法,从开放文本中抽取高准确率的中文关系实体对;culotta[13]利用一些转换规则,定义基于依存树的核函数,并使用svm分类器进行关系抽取;zhang等[14]设计了一种复合卷积树核函数进行关系抽取。

藏语自然语言处理[15]研究目前存在最大的困难是藏语语料的缺乏。在藏语实体关系抽取方面,现有研究成虹非常少。在文献[16]中提出基于泛化模板与svm相结合的方法抽取实体关系;在文献[17]中提出基于svm的方法进行藏语人名属性抽取研究,并且已取得一定成果。

2 方法描述

bp神经网络的实体关系抽取是将实体关系的判别问题转化为分类问题。本文首先从许多藏文网站爬取得到具有实体关系的文本;然后从文本中筛选出具有实体关系的句子进行预处理,如分词、词性标注等;对于标注好的语料,选取相关实体位置关系、实体之间距离、实体及实体周围词特征进行向量化,作为输入数据;最后利用构建好的神经网络模型进行判别分类。整体抽取过程如图1所示。

2.1 特征向量化

本文对需要处理的语料进行向量化。本文特征选取主要采用实体词位置关系、实体词距离关系、实体词周围特征以及实体本身特征。假设实体关系中的两个实体分别为e1、e2。

(1)实体位置关系。两个实体在藏文句子中出现的顺序是决定其关系的重要因素之一。在非包含关系的实体位置特征中考虑的情况有两种:一种情况是实体e1在实体e2之前,表示为ep12;另一种情况是实体e1在实体e2之后,表示为ep21。

(2)实体距离关系。两个实体在藏文句子中会产生一定距离。两个实体词之间距离不同,表达的两个实体词之间的信息也不同。将两个实体之间的距离特征表示为ed。

(3)实体及周围词特征。实体词周围特征以及实体本身特征包含词特征以及词性特征。藏语与汉语、英语有很大不同,比如藏语句型是谓语后置,其中的动词是句子的关键。在藏文实体关系抽取工作中,格标记同样起着关键作用。

本文选择实体周围窗口windows大小为2,也即是实体前后两个词的词性特征,选取格助词(/k)、动词(/v)、形容词(/a)、数词(/m)、连词(/c)作为实体周围词的词性特征。本文研究中实体e2为出生地、出生日期、逝世日期、父亲、母亲、国籍、职业、有关人物、性别等。实体e2词性特征e2pog可以表示为/ng、/nt、/ns、/nh、/nz 共5种。实体e1全部为人名,其词性都为人物名词,没有显著区别,所以在本文中忽略不计。[ewi]表示词汇特征,i=1,2,[epog]表示词汇词性特征,分别如式(1)、式(2)所示。

2.2 bp神经网络

3 实验

3.1 语料预处理

本文的藏语语料是通过配置的爬虫系统从多个藏文网站爬取的,如维基百科(藏语版)、康巴传媒网、中国藏族中学网等。然后从中筛选出关于藏族人物介绍的文章,并对这些句子作一些预处理,如人工分词、词性语料标注等,其中筛选包含人物属性的句子4 216句,采用3 000句作为训练数据,1 216句作为测试数据。

3.2 评价指标

实体关系抽取的性能评价使用信息检索中的评价方法,召回率(r)可被粗略看成是测量被正确抽取的信息比例,而准确率(p)用来测量抽取的信息中有多少是正确的。一般召回率与准确率存在反比关系,也即准确率增大会导致召回率减小,反之亦然。本文采用f值对最终的系统性能进行评价,f值越接近1,表示结果越好。

3.3 实验参数设置

本文隐藏层选用sigmoid函数,输出层选用线性函数。训练函数有trainlm算法、traip算法、trainbfg算法、traingdx算法等。本文选用了适合模拟分类的traingdx算法。选择的学习速度参数不能太大,否则会出现算法不收敛的情况,也不能太小,否则会使训练时间太长。一般选择0.01~0.1之间的值,本文选用0.01,训练目标误差为0.01。

3.4 实验结果及分析

在同样语料的情况下,本文采用支持向量机方法进行实验,实验结果如表1所示。

从表1可以直观地看出,在选取相同特征及相同语料的基础上,使用bp神经网络模型比使用svm模型的实验结果在正确率、召回率以及f值上都有更好效果,其中f值提高了1%。

实验采用matlab对结果作进一步分析,如图3所示为训练结果,随着迭代次数增加,检验参数的值不断减少。在迭代106次时,最佳的检验参数是0.653。

图4是bp神经网络模型的实际与预测分类对比结果。黑色表示预测类别的标签,灰色表示测试之前标注好的标签。

4 结语

本文介绍了使用bp神经网络模型对藏语实体关系进行抽取的方法。实验结果表明,bp神经网络相比于svm分类器,在正确率、召回率以及f值上都有更好效果。目前,藏语语料还不够丰富,与汉语测试数据相比,实验中藏语数据相对比较单一,而且标注数量有限,对语料的收集与检验工作还需进一步完善。因此,在藏语实体关系抽取研究上仍有很大的提升空间。该研究在搜索引擎、网络信息过滤与信息安全、机器翻译等许多应用领域可发挥重要的作用。

参考文献:

(责任编辑:黄 健)

相关热词搜索:;

抽取造句篇四

确定及管理办法

第一条 为了进一步提升我局招投标工作效率,择优选择业务能力强、专业水平高的招标代理机构,规范代理机构服务程序,根据《滁州市2018-2019年度公共资源交易代理服务采购项目交易文件》、《滁州市招标代理机构考评管理办法》、定远县公共资源交易监督管理局对入库招标代理机构的相关管理规定,结合我局实际,制定本办法。

第二条 入选我局招标代理库需同时具备以下条件。

2、在县公共资源交易监督管理局上年度考核评比中获得优秀及合格评价的单位。

第三条 入选我局招投代理库的单位必须遵守国家及省市相关管理规定,同时接受招投标监管部门及我局的管理。

第四条 服务内容

1、招标代理全过程服务;

2、建设工程工程量清单及控制价编制;

3、业主单位委托的其他服务工作。第五条 招标代理机构选择方式。

2、根据项目的情况每次从库中选择5家的单位参加循环抽取;

3、项目抽取前30分钟通知招标代理公司专职人员到达现场见证抽取情况,不能按时到场的将视为自动放弃。招标代理公司参加抽取人员必须为本公司专职人员并通过公管局考核入库的人员。

第六条 入库单位管理。

4、被滁州市公共资源交易监督管理部门暂停代理业务的单位,将不再参加抽取。

5、代理机构必须遵守有关保密规定,如有违反,我局将依据《招标投标法》第50条规定、《招标投标法实施条例》第65条、第78条之规定以及《政府采购法》与《工程建设项目施工招标投标办法》的约定报请相关部门进行处罚,构成犯罪的依法追究刑事责任。

第七条 服务费用。

招标代理费、工程量清单及控制价编制等费用,参照县公共资源交易监督管理局的现行具体规定计算。

第八条 代理单位在代理过程中违约、违规将按相关法律法规及监督管理部门的规定处理。

第九条 本办法未尽事宜由我局另行议定。第十条 本办法自文件印发之日起施行。

猜你喜欢 网友关注 本周热点
精选文章
基于你的浏览为你整理资料合集
复制