StyxJedi's Blog

斯坦福自然语言处理工具（Stanford CoreNLP）Python接口封装

发表于 2019-10-16 分类于 NLP Tools

Python 封装

Stanford CoreNLP 的网站中，已经列举出许多种封装。这些packages都是通过启动 Stanford CoreNLP server，然后向server发送请求，达到调用的目的。但这些包有的早已停止更新，不能同当前的版本（3.9.2）兼容，有的使用方法比较复杂，有的则缺失一些关键性的功能（比如分句）。

为了解决上面这些问题，我对 Lynten/stanford-corenlp 的代码进行了维护，修正了一些bug。修改后的代码在原来的基础上，增加了：

兼容Stanford CoreNLP最新版本（v3.9.2）
分词方法word_tokenize()可以正常使用（原版本存在bug）
增加了分句方法 sent_split()

代码地址为： https://github.com/styxjedi/stanford-corenlp

如果在使用过程中遇到问题，可以在这个仓库中提 issue，我会尽快解决。

阅读全文 »

论文阅读-跨语言上下文词向量对齐

发表于 2019-07-25 更新于 2019-09-15 分类于论文阅读

这篇和跨语言多语任务型对话那篇都是跨语言相关的论文，作者都姓 Schuster，我还以为是同一个人来着……囧

论文题目：Cross-Lingual Alignment of Contextual Word Embeddings, with Applications to Zero-shot Dependency Parsing

作者：Tal Schuster, Ori Ram, Regina Barzilay, Amir Globerson

发表情况：NAACL-HLT 2019

公开代码：https://github.com/TalSchuster/CrossLingualELMo

@inproceedings{Schuster2019CrossLingualAO,
  title={Cross-Lingual Alignment of Contextual Word Embeddings, with Applications to Zero-shot Dependency Parsing},
  author={Tal Schuster and Ori Ram and Regina Barzilay and Amir Globerson},
  booktitle={NAACL-HLT},
  year={2019}
}

1. 问题背景

上下文相关的词向量（contextual embedding），如 ELMo，相比于静态的词向量可以包含更多的语义信息。但对于一个词来说，其上下文相关词嵌入是动态的，随上下文的变化而改变。目前的方法，如 MUSE 可以将一种语言的向量空间映射到另一种语言的向量空间，但仅限于静态词向量。对于ELMo产生的上下文相关，目前则没有很好的跨语言迁移方法。

阅读全文 »

论文阅读-跨语言多语任务型对话

发表于 2019-07-24 更新于 2019-07-25 分类于论文阅读

论文题目： Cross-lingual Transfer Learning for Multilingual Task Oriented Dialog

作者：Sebastian Schuster, Sonal Gupta, Rushin Shah, Mike Lewis

发表情况：NAACL-HLT 2018

@inproceedings{Schuster2018CrosslingualTL,
  title={Cross-lingual Transfer Learning for Multilingual Task Oriented Dialog},
  author={Sebastian Schuster and Sonal Gupta and Rushin Shah and Mike Lewis},
  booktitle={NAACL-HLT},
  year={2018}
}

1. 问题描述

在AI对话系统中，首先要进行的工作往往是进行用户意图识别（intent detection）和槽语义识别（slot filling）。由于这项任务需要对大量对话语料进行标注，数据比较难获取。因此，借助高资源（high-resource）语言的语料去训练模型，然后将模型应用于低资源（low-resource）语言中，成为一种可行的方法。然而这种方法依赖多语训练语料。文章解决了两个问题：

多语训练语料匮乏的问题；
跨语言训练的方法问题。

阅读全文 »

转载-Python多线程同步队列模型

发表于 2019-07-22 分类于 Python

（本文转载自 Static Oneplus 不可控制论 ,原文链接：Python 多线程同步队列模型）

在处理大规模语料时，经常会遇到的一种情况是希望进行多线程处理，并且希望输出是有序的。比如需要保留篇章结构的分词。原文提供了一种“同步队列”模型的思路，解决了在多线程处理时保持输出结果有序的问题。

原文如下：

我面临的问题是有个非常慢的处理逻辑（比如分词、句法），有大量的语料，想用多线程来处理。

这一个过程可以抽象成一个叫“同步队列”的模型。具体来讲，有一个生产者（Dispatcher）一方面从语料中读入句子，并且存入队列中，一方面看有没有空闲的消费者（Segmentor），如果有，就把句子从队列中弹出并交给这个空闲的消费者处理。然后消费者把处理完成的结果交给生产者输出，生产者要保证输出与输入顺序一致。

阅读全文 »

1. 问题描述

Ubuntu18.04系统有个必现的bug，并且会影响到基于该系统的Linux Mint 19.1。

首先用 HDMI 线连接电视机或大屏幕，然后在“设置—>声音”里面选择音频输出设备为 HDMI 设备，然后拔掉 HDMI 线，这时候系统就没有声音了。

阅读全文 »

scikit-learn应用：基于K-means的新闻聚类

发表于 2018-03-22 更新于 2019-08-24 分类于机器学习

要对新闻文本进行聚类，首先要将每一篇新闻都表示成向量的形式。这里使用的方法是提取文本中的特征词，然后将每篇文档表示成一个特征向量。提取特征的方式有很多，这里选取最简单的基于TF-IDF的方法。对新闻文本进行分词、去停用词后，计算每个词的TF-IDF值，依据该值提取特征，并获得每篇文档的特征向量。接下来对流程进行详细描述。

阅读全文 »

python文本去重方法：simhash

发表于 2018-03-21 更新于 2019-07-24 分类于 Python

simhash是google用来处理海量文本去重的算法。 simhash可以将一个文档转换成一个64位的字节，暂且称之为特征字。判断文档是否重复，只需要判断文档特征字之间的汉明距离。根据经验，一般当两个文档特征字之间的汉明距离小于3，就可以判定两个文档相似。《数学之美》一书中，在讲述信息指纹时对这种算法有详细的介绍。

阅读全文 »

Python爬虫指归（一）

发表于 2017-08-01 更新于 2019-07-22 分类于 Python

最近面临一个采集语料的任务，要求以百度搜索为入口，从搜索结果中检索到需要的语料。这样一来，面临的情况就相当复杂，于是好好研究了一下自动化测试工具Selenium，用这玩意儿做爬虫简直是万能的。可以把它当成一个浏览器的控制工具，也就是说，只要浏览器可以访问的页面，都可以爬下来。Selenium的使用不算复杂，但是使用的过程中发现，这里面的坑真不是一般的多！这篇文章其实更适合叫做 “Python爬虫踩坑记” ，因为每条经验都是踩坑踩！出！来！的！！！啊……

阅读全文 »

Python日知录|快速创建对应多个值的字典

发表于 2017-06-16 更新于 2019-07-22 分类于 Python

经常会遇到这种情况，字典中的每个键需要对应的不仅仅是一个值，而是多个值。这种时候就需要将这些值封装到另一个数据结构中，比如列表或另一个字典。数据结构可能是这样的：

sample_dict = {
	'a': [1, 2, 3],
	'b': [2, 4, 6],
	'c': [3, 6, 9],
}

阅读全文 »

Pymongo入门学习笔记（三）

发表于 2017-06-14 更新于 2019-07-22 分类于 mongodb

升级数据（Update）

使用Pymongo进行数据的update，同样有两种方法可用，分别为update_one()和update_many()。顾名思义，update_one()只升级一条文档，update_many()升级所有符合查询条件的文档。

注意：_id字段无法被升级！

升级指定单个字段

MongoDB提供了升级操作符（update operators）来进行升级字段的操作，比如$set操作符，可以用来修改一个字段的值。有些操作符，比如$set，如果字段不存在的话，会创建这个字段。

阅读全文 »

靡不有初，鲜克有终

斯坦福自然语言处理工具（Stanford CoreNLP）Python接口封装

Python 封装

论文阅读-跨语言上下文词向量对齐

1. 问题背景

论文阅读-跨语言多语任务型对话

1. 问题描述

转载-Python多线程同步队列模型

解决Ubuntu18.04系统无声音问题

1. 问题描述

scikit-learn应用：基于K-means的新闻聚类

python文本去重方法：simhash

Python爬虫指归（一）

Python日知录|快速创建对应多个值的字典

Pymongo入门学习笔记（三）

升级数据（Update）

升级指定单个字段