Wxw Blog

Code is life

Attention的PyTorch实现

主要是为了入门PyTorch

在NLP实验室混了有一段时间,模型多少也算跑过几个,但是一直把它当黑箱用,没有动力去研究其内部构造。这两天终于抽出精力把大名鼎鼎的《Attention is all you need》看完了,想趁着兴趣还在,把矩阵在整个模型中的流动给系统性描述一遍。 本文包括: 矩阵每一层的形状变化情况 Pytorch代码实现 那就开始吧。要记住模型的目的是输入序列,输出序列 先验知识—...

git基础语法

简介 Git是目前世界上最先进的分布式版本控制系统(没有之一)。 增 初始化:在想要git化的仓库里使用git init 添加文件:git add * 工作区(Working Directory)->缓存区(Stage):git add <filename> 缓存区->本地分支(master):git commit -m “SOME INFOM...

如何预训练一个词向量

前言 词嵌入(word embedding)的本质是用向量来描述词的信息,主要的好处是能更清晰地刻画词的性质。 举个简单的例子,计算机可能并不知道pink是什么,但RGB代码(255, 192, 203)可以用三个维度刻画这种颜色的程度,十分清晰。当然,词嵌入未必是可解释的,比如一根64维的向量,你很难说清楚每一个维度究竟在描述什么。 词向量技术 语境无关:word2vec、GloV...

张坤访谈之我思

2020年是全民买基的年份,一大批基金经理声名远扬,并屡次冲上微博热搜,而其中的佼佼者就是人称“坤坤”的张坤经理。在机缘巧合下,本人有幸拜读了小雅对张经理的采访全文,感兴趣的朋友们可以移步资料来源观看。若想节约一点时间,我在下文概括了张坤的主要观点,以及我对其方法论的一些思考。 观点一:和商业模式好、竞争力强、确定性强的企业长期走下去。 商业模式:商业模式好是一个比较玄学的概...

Java ES入门

踩坑实录

简介 ES不是一个数据库,而是一个搜索引擎! 优点: 全文搜索:例如对于“我在北京的一家互联网公司工作”这样的数据,如果你搜索“北京”、“互联网”、“工作”这些关键词都能命中这条数据的话,这就是全文搜索,百度、Google都属于全文搜索。值得一提的是,ES的全文搜索对中文也有很好的支持(单是中文分词器就有很多种),绝对能够满足国内大多数人的全文搜索需求。 ...