Представление текста в цифровом виде для нейросети | Нейросети для анализа текстов
Автор: Andrey Sozykin
Загружено: 2019-08-24
Просмотров: 19436
В видео рассматриваются различные методы токенизации и векторизации текста для представления его в виде, пригодном для обработки нейросетью. Страница курса - https://www.asozykin.ru/courses/nnpython
Нейронные сети могут работать только с числами. Поэтому перед обработкой текста нейронной сетью, его нужно конвертировать в набор чисел. Для этого используется два шага:
1. Токенизация - разделение текста на отдельные части: символы, слова, предложения.
2. Векторизация - представление каждого токена в виде чисел: кода или вектора (one hot encoding или embedding).
Предварительно обученные плотные векторные представления слов:
1. GloVe (Global Vectors) - https://nlp.stanford.edu/projects/glove/
2. Word2Vec, Google - https://code.google.com/archive/p/wor...
3. FastText, Facebook - https://fasttext.cc
Плотные векторные представления слов для русского языка:
1. RusVectōrēs – https://rusvectores.org
2. RUSSE (Russian Semantic Evaluation) – https://russe.nlpub.org/downloads/
Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations - https://www.microsoft.com/en-us/resea...
Как можно поддержать курс:
1. Яндекс Кошелек - https://money.yandex.ru/to/4100142982...
2. PayPal - https://www.paypal.me/asozykin
Заранее спасибо за помощь!
Добавляйтесь в друзья в социальных сетях:
вКонтакте - https://vk.com/avsozykin
Instagram - / sozykin_andr
Facebook - / asozykin
Twitter - / andreysozykin
Мой сайт - https://www.asozykin.ru
Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках - / andreysozykincs
Доступные форматы для скачивания:
Скачать видео mp4
-
Информация по загрузке: