Лучшие проекты NLP (обработка естественного языка) с использованием Python (включая ссылки на репозиторий на Github)

Обработка естественного языка — это область лингвистики, компьютерных наук и искусственного интеллекта, связанная с взаимодействием компьютеров и человеческого языка, в частности с тем, как программировать компьютеры для обработки и анализа больших объемов данных естественного языка. Википедия

Обработка естественного языка объясняет, что в НЛП машины учат читать и интерпретировать текст так же, как это делают люди. NLP признано «приложением для анализа текста и распознавания речи». Эта человеческая способность интерпретировать текст пригодится для анализа больших объемов текстовых данных. Технология может точно извлекать информацию и идеи, содержащиеся в документах, а также классифицировать и организовывать сами документы.

В сегодняшней статье мы поговорим о пяти проектах НЛП, которые помогут улучшить ваши навыки в области науки о данных и обработки изображений.

Примечание. В этой статье мы поговорим о некоторых не очень удачных, но действительно хороших проектах НЛП с открытым исходным кодом, которые вы можете использовать в своих проектах. Чтобы узнать больше о каждом из них, я рекомендую перейти по ссылке, указанной в проекте.

Бонус

Наборы данных. Крупнейший центр готовых к использованию наборов данных НЛП для моделей машинного обучения с быстрыми, простыми в использовании и эффективными инструментами обработки данных.

Репозиторий Github

Документация

Обучение — это не только повышение компетентности в своей работе. Это гораздо больше. Datacamp позволяет мне учиться без ограничений.

Datacampпредоставляет вам гибкость, необходимую для прохождения курсов в свободное время и изучения основных навыков, необходимых для перехода к успешной карьере.

Datacamp научил меня быстро улавливать новые идеи и применять их к реальным проблемам. Пока я был на этапе обучения, Datacamp зацепил меня всем, что происходит на курсах, от содержания курсов и отзывов ассистентов до встреч и твитов профессора.

Вот некоторые из моих любимых курсов, которые я настоятельно рекомендую вам изучать, когда это соответствует вашему графику и настроению. Вы можете напрямую применить концепции и навыки, полученные на этих курсах, в новом увлекательном проекте на работе или в университете.

Возвращаясь к теме —

1. Берт как сервис

Гитхаб

Официальная документация

Медведь как сервис — это сервис кодирования предложений для преобразования предложения переменной длины в вектор фиксированной длины для пользователей Python.

BERT — это модель НЛП, разработанная Google для предобучения языковых представлений. Он использует огромное количество открытых текстовых данных, общедоступных в Интернете, и обучается без присмотра. Предварительное обучение модели BERT — довольно дорогая, но Процедура для каждого языка. К счастью, Google выпустил несколько предварительно обученных моделей, где можно скачать отсюда.

Кодирование/внедрение предложений – это основная задача, необходимая во многих приложениях NLP, например, анализ тональности, классификация текста. Цель состоит в том, чтобы представить предложение переменной длины в векторе фиксированной длины, например. hello world до [0.1, 0.3, 0.9]. Каждый элемент вектора должен кодировать некоторую семантику исходного предложения.

Наконец, bert-as-service использует BERT в качестве кодировщика предложений и размещает его как службу через ZeroMQ, что позволяет отображать предложения в представления фиксированной длины всего за две строки кода.

Что делает его особенным?

современный
прост в использовании
быстро
масштабируемый
надежно

2. Текстовый блок

Гитхаб

Официальная документация

Textblobэто библиотека Python (2 и 3) для обработки текстовых данных. Он предоставляет простой API для погружения в общие задачи обработки естественного языка (NLP).

Простая Pythonic-библиотека обработки текста «Textblob» известна тем, что:

Анализ настроений
пометка частей речи
извлечение словосочетаний
перевод
и многое другое.

TextBlob стоит на гигантских плечах NLTK и pattern и прекрасно сочетается с ними обоими.

Особенности, которые он предлагает:

Извлечение словосочетаний
Пометка частей речи
Анализ настроений
Классификация (наивный байесовский анализ, дерево решений)
Токенизация (разделение текста на слова и предложения)
Частоты слов и фраз
Анализ
n граммов
Склонение слова (множественное и единственное число) и лемматизация
Правописание
Добавить новые модели или языки с помощью расширений
Интеграция с WordNet

3. Шифей

Гитхаб

Cipheyэто библиотека, которая автоматически расшифровывает шифрование без знания ключа или шифра, декодирует кодировки, и взламывает хэши.

Это полностью автоматизированный инструмент дешифрования/декодирования/взлома, в котором вы вводите зашифрованный текст и получаете расшифрованный текст обратно с помощью обработки естественного языка и искусственного интеллекта, а также здравого смысла.

Может возникнуть вопрос Какой тип шифрования?

В этом-то и дело. Вы не знаете, вы просто знаете, что он, возможно, зашифрован. Ciphey все сделает за вас. Ciphey может решить большинство проблем за 3 секунды или меньше.

Ciphey призван стать инструментом для автоматизации большого количества операций расшифровки и декодирования, таких как множественное базовое кодирование , классические шифры, хэши или более совершенная криптография.

Если вы мало что знаете о криптографии или хотите быстро проверить зашифрованный текст, прежде чем работать над ним самостоятельно, Ciphey для вас.

Почему Сифи?

50+ шифровок/кодировок
Специально созданный искусственный интеллект с расширенным поиском (AuSearch) для ответа на вопрос «какое шифрование использовалось?»
Собственный модуль обработки естественного языка
Многоязычная поддержка
Поддерживает шифрование и хеширование

4. Доккано

Гитхаб

Официальная документация

Doccano – это инструмент для создания текстовых аннотаций с открытым исходным кодом, предназначенный для специалистов по машинному обучению.

Он предоставляет функции аннотаций для классификации текста, маркировки последовательностей и последовательностей задач. Таким образом, вы можете создавать размеченные данные. дляанализа тональности, распознавания именованных сущностей, суммирования текста и т. д.. Просто создайте проект, загрузите данные и начните комментировать. Вы можете создать набор данных за несколько часов.

Функции

Совместная аннотация
Многоязычная поддержка
Мобильная поддержка
Поддержка эмодзи
Темная тема
RESTful API

5. Ленивое НЛП

Гитхаб

LazyNLP — это библиотека с открытым исходным кодом для очистки и очистки веб-страниц для создания массивных наборов данных.

Простая библиотека, которая позволяет вам сканировать, очищать и дедуплицировать веб-страницы для создания массивных одноязычных наборов данных. Используя эту библиотеку, вы сможете создавать наборы данных большего размера, чем тот, который используется OpenAI для GPT-2.

Эта библиотека использует Python 3 и использует URL-адреса веб-страниц для загрузки набора данных путем очистки.

6. Текст

Гитхаб

Официальная документация

Textractэто библиотека с открытым исходным кодом дляизвлечения текста из любого документа без всякойсуеты и суеты. Этот пакет предоставляет единый интерфейс для извлечения содержимого из файлов любого типа без какой-либо ненужной разметки.

Если вам понравилось читать эту статью, я уверен, что мы разделяем схожие интересы и работаем/будем работать в схожих отраслях. Итак, подключаемся через LinkedIn и Github. Пожалуйста, не стесняйтесь отправить запрос на контакт!

Python NLP Machine Learning Artificial Intelligence Data Science

смотрите также:

10 лучших функций dplyr - простой анализ данных

Практики безопасного кодирования: защитите свой код от распространенных уязвимостей

Контакт:

5 шагов в разработке модели машинного обучения.

НОВЫЙ КУРС — Введение в управляемый сервером пользовательский интерфейс в Swift

Новые материалы

10 лучших функций dplyr - простой анализ данных

Dplyr проще и чище, чем Pandas. Вы смеете переключиться? Я был фанатом Python последние пару лет. Этот язык отлично подходит для науки о данных, и, будучи языком общего назначения ,..

Практики безопасного кодирования: защитите свой код от распространенных уязвимостей

В постоянно меняющейся среде разработки программного обеспечения написание безопасного кода имеет первостепенное значение для защиты приложений и конфиденциальных пользовательских данных от..

Контакт:

⋆⋆⋆ PREDICTIVE ANALYTICS AND CUSTOMER SEGMENTATION: THE FUTURE OF MARKETING ⋆⋆⋆ Authored by Gerard King Контакт: Электронная почта:..

5 шагов в разработке модели машинного обучения.

5 шагов в разработке модели машинного обучения. Машинное обучение (ML), часть искусственного интеллекта (ИИ). Существует пять общих шагов для разработки модели машинного обучения (ML)...

НОВЫЙ КУРС — Введение в управляемый сервером пользовательский интерфейс в Swift

Что, если есть способ мгновенно обновить пользовательский интерфейс вашего приложения, не отправляя новую версию? Такие компании, как Airbnb, Spotify, Flipkart, Swiggy и некоторые другие,..

«Что такое машинное обучение и его влияние на следующее поколение?»

«Прорыв в машинном обучении стоил бы десяти Microsoft». — Билл Гейтс, бывший председатель Microsoft Позвольте мне объяснить вам, что это просто. Точно так же дети учатся ходить. Каждый..

SyntaxError: EOL при сканировании строкового литерала

Забыл закрыть строку кавычками в python В моем случае эта ошибка была слишком сложным способом сказать: «Вы забыли закрыть строку соответствующей двойной или одинарной кавычкой». EOL означает..

Метки
Machine Learning JavaScript Data Science Artificial Intelligence Python Software Development Web Development Coding Deep Learning React AI Software Engineering Nodejs Front End Development Data Computer Science Data Analysis Neural Networks Typescript Angular DevOps Reactjs Python Programming Startup Code Development Java HTML Algorithms Learning Engineering Golang NLP Business Tutorial Javascript Tips Programming Languages Productivity

Лучшие проекты NLP (обработка естественного языка) с использованием Python (включая ссылки на репозиторий на Github)

1. Берт как сервис

Что делает его особенным?

2. Текстовый блок

Простая Pythonic-библиотека обработки текста «Textblob» известна тем, что:

Особенности, которые он предлагает:

3. Шифей

Почему Сифи?

4. Доккано

Функции

5. Ленивое НЛП

6. Текст

смотрите также:

Новые материалы

10 лучших функций dplyr - простой анализ данных

Практики безопасного кодирования: защитите свой код от распространенных уязвимостей

Контакт:

5 шагов в разработке модели машинного обучения.

НОВЫЙ КУРС — Введение в управляемый сервером пользовательский интерфейс в Swift

«Что такое машинное обучение и его влияние на следующее поколение?»

SyntaxError: EOL при сканировании строкового литерала

Метки