StyxJedi's Blog

靡不有初,鲜克有终


  • 首页

  • 分类

  • 归档

  • 标签

  • 留言板

  • 搜索

斯坦福自然语言处理工具(Stanford CoreNLP)Python接口封装

发表于 2019-10-16 分类于 NLP Tools

Python 封装

Stanford CoreNLP 的网站中,已经列举出许多种封装。这些packages都是通过启动 Stanford CoreNLP server,然后向server发送请求,达到调用的目的。但这些包有的早已停止更新,不能同当前的版本(3.9.2)兼容,有的使用方法比较复杂,有的则缺失一些关键性的功能(比如分句)。

为了解决上面这些问题,我对 Lynten/stanford-corenlp 的代码进行了维护,修正了一些bug。修改后的代码在原来的基础上,增加了:

  • 兼容Stanford CoreNLP最新版本(v3.9.2)
  • 分词方法word_tokenize()可以正常使用(原版本存在bug)
  • 增加了分句方法 sent_split()

代码地址为: https://github.com/styxjedi/stanford-corenlp

如果在使用过程中遇到问题,可以在这个仓库中提 issue,我会尽快解决。

阅读全文 »

论文阅读-跨语言上下文词向量对齐

发表于 2019-07-25 更新于 2019-09-15 分类于 论文阅读

这篇和跨语言多语任务型对话那篇都是跨语言相关的论文,作者都姓 Schuster,我还以为是同一个人来着……囧

论文题目:Cross-Lingual Alignment of Contextual Word Embeddings, with Applications to Zero-shot Dependency Parsing

作者:Tal Schuster, Ori Ram, Regina Barzilay, Amir Globerson

发表情况:NAACL-HLT 2019

公开代码:https://github.com/TalSchuster/CrossLingualELMo

1
2
3
4
5
6
@inproceedings{Schuster2019CrossLingualAO,
title={Cross-Lingual Alignment of Contextual Word Embeddings, with Applications to Zero-shot Dependency Parsing},
author={Tal Schuster and Ori Ram and Regina Barzilay and Amir Globerson},
booktitle={NAACL-HLT},
year={2019}
}

1. 问题背景

上下文相关的词向量(contextual embedding),如 ELMo,相比于静态的词向量可以包含更多的语义信息。但对于一个词来说,其上下文相关词嵌入是动态的,随上下文的变化而改变。目前的方法,如 MUSE 可以将一种语言的向量空间映射到另一种语言的向量空间,但仅限于静态词向量。对于ELMo产生的上下文相关,目前则没有很好的跨语言迁移方法。

阅读全文 »

论文阅读-跨语言多语任务型对话

发表于 2019-07-24 更新于 2019-07-25 分类于 论文阅读

论文题目: Cross-lingual Transfer Learning for Multilingual Task Oriented Dialog

作者:Sebastian Schuster, Sonal Gupta, Rushin Shah, Mike Lewis

发表情况:NAACL-HLT 2018

1
2
3
4
5
6
@inproceedings{Schuster2018CrosslingualTL,
title={Cross-lingual Transfer Learning for Multilingual Task Oriented Dialog},
author={Sebastian Schuster and Sonal Gupta and Rushin Shah and Mike Lewis},
booktitle={NAACL-HLT},
year={2018}
}

1. 问题描述

在AI对话系统中,首先要进行的工作往往是进行用户意图识别(intent detection)和槽语义识别(slot filling)。由于这项任务需要对大量对话语料进行标注,数据比较难获取。因此,借助高资源(high-resource)语言的语料去训练模型,然后将模型应用于低资源(low-resource)语言中,成为一种可行的方法。然而这种方法依赖多语训练语料。文章解决了两个问题:

  • 多语训练语料匮乏的问题;

  • 跨语言训练的方法问题。

阅读全文 »

转载-Python多线程同步队列模型

发表于 2019-07-22 分类于 Python

(本文转载自 Static Oneplus 不可控制论 ,原文链接:Python 多线程同步队列模型 )

在处理大规模语料时,经常会遇到的一种情况是希望进行多线程处理,并且希望输出是有序的。比如需要保留篇章结构的分词。原文提供了一种“同步队列”模型的思路,解决了在多线程处理时保持输出结果有序的问题。

原文如下:

我面临的问题是有个非常慢的处理逻辑(比如分词、句法),有大量的语料,想用多线程来处理。

这一个过程可以抽象成一个叫“同步队列”的模型。 具体来讲,有一个生产者(Dispatcher)一方面从语料中读入句子,并且存入队列中,一方面看有没有空闲的消费者(Segmentor),如果有,就把句子从队列中弹出并交给这个空闲的消费者处理。 然后消费者把处理完成的结果交给生产者输出,生产者要保证输出与输入顺序一致。

阅读全文 »

解决Ubuntu18.04系统无声音问题

发表于 2019-07-22 分类于 Linux

1. 问题描述

Ubuntu18.04系统有个必现的bug,并且会影响到基于该系统的Linux Mint 19.1。

首先用 HDMI 线连接电视机或大屏幕,然后在“设置—>声音”里面选择音频输出设备为 HDMI 设备,然后拔掉 HDMI 线,这时候系统就没有声音了。

阅读全文 »

scikit-learn应用:基于K-means的新闻聚类

发表于 2018-03-22 更新于 2019-08-24 分类于 机器学习

要对新闻文本进行聚类,首先要将每一篇新闻都表示成向量的形式。这里使用的方法是提取文本中的特征词,然后将每篇文档表示成一个特征向量。提取特征的方式有很多,这里选取最简单的基于TF-IDF的方法。对新闻文本进行分词、去停用词后,计算每个词的TF-IDF值,依据该值提取特征,并获得每篇文档的特征向量。接下来对流程进行详细描述。

阅读全文 »

python文本去重方法:simhash

发表于 2018-03-21 更新于 2019-07-24 分类于 Python

simhash是google用来处理海量文本去重的算法。 simhash可以将一个文档转换成一个64位的字节,暂且称之为特征字。判断文档是否重复,只需要判断文档特征字之间的汉明距离。根据经验,一般当两个文档特征字之间的汉明距离小于3, 就可以判定两个文档相似。《数学之美》一书中,在讲述信息指纹时对这种算法有详细的介绍。

阅读全文 »

Python爬虫指归(一)

发表于 2017-08-01 更新于 2019-07-22 分类于 Python

最近面临一个采集语料的任务,要求以百度搜索为入口,从搜索结果中检索到需要的语料。这样一来,面临的情况就相当复杂,于是好好研究了一下自动化测试工具Selenium,用这玩意儿做爬虫简直是万能的。可以把它当成一个浏览器的控制工具,也就是说,只要浏览器可以访问的页面,都可以爬下来。Selenium的使用不算复杂,但是使用的过程中发现,这里面的坑真不是一般的多!这篇文章其实更适合叫做 “Python爬虫踩坑记” ,因为每条经验都是踩坑踩!出!来!的!!!啊……

阅读全文 »

Python日知录|快速创建对应多个值的字典

发表于 2017-06-16 更新于 2019-07-22 分类于 Python

经常会遇到这种情况,字典中的每个键需要对应的不仅仅是一个值,而是多个值。这种时候就需要将这些值封装到另一个数据结构中,比如列表或另一个字典。数据结构可能是这样的:

1
2
3
4
5
sample_dict = {
'a': [1, 2, 3],
'b': [2, 4, 6],
'c': [3, 6, 9],
}
阅读全文 »

Pymongo入门学习笔记(三)

发表于 2017-06-14 更新于 2019-07-22 分类于 mongodb

升级数据(Update)

使用Pymongo进行数据的update,同样有两种方法可用,分别为update_one()和update_many()。顾名思义,update_one()只升级一条文档,update_many()升级所有符合查询条件的文档。

注意:_id字段无法被升级!

升级指定单个字段

MongoDB提供了升级操作符(update operators)来进行升级字段的操作,比如$set操作符,可以用来修改一个字段的值。有些操作符,比如$set,如果字段不存在的话,会创建这个字段。

阅读全文 »
12
StyxJedi

StyxJedi

直而温,宽而栗,刚而无虐,简而无傲
12 日志
6 分类
34 标签
Creative Commons
© 2017 – 2019 StyxJedi
由 Hexo 强力驱动
|
主题 – NexT.Pisces
|
0%