たけのこブログ

凡人が頑張って背伸びするブログ

NLP

word2vecやfasttextを使って類似単語を抽出できる仕組みを数学を一切使わずに頑張って説明してみる

背景 機械学習で過去に実装したものの原理を教えて欲しいと言われて社内勉強会でword2vecを説明した時、数学にあまり詳しくない人にword2vecの仕組みを伝えるのに苦労した。実際に他の現場でも、「単語を学習してるのは分かるんだけど、そもそもなんで似てい…

PDFMiner使ってPDFをテキストとして抽出

テキストマイニング初心者が調子に乗ってPDFをテキストに変換してみました ただの備忘録です(思った以上に苦戦したので汗)。仕事などで本格的に自然言語処理をする機会がありそうなので、何となくテキストマイニングをやってみようと思ったのがきっかけです…