Stanford Parser: Как включить знаки препинания?

Синий482

Я использовал Stanford Parser для анализа некоторых из моих уже токенизированных и POS-тегов (с помощью Stanford POS tagger с моделью Gate Twitter). Но полученный результат в формате conll 2007 не содержит знаков препинания. Это почему?

Команда, которую я использовал:

java -mx16g -cp "*" edu.stanford.nlp.parser.lexparser.LexicalizedParser -sentences newline -tokenized -tagSeparator § -tokenizerFactory edu.stanford.nlp.process.WhitespaceTokenizer -tokenizerMethod newCoreLabelTokenizerFactory -escaper edu.stanford.nlp.process.PTBEscapingProcessor -outputFormat conll2007 edu/stanford/nlp/models/lexparser/englishPCFG.caseless.ser.gz ..test.tagged > ../test.conll

например

Исходный твит:

bbc sp says they don't understand why the tories aren't 8% ahead in the polls given the current economics stats ; bbc bias ? surely not ?

Твит с тегами POS, используемый в качестве входных данных для синтаксического анализатора Стэнфорда:

bbc§NN sp§NN says§VBZ they§PRP don't§VBP understand§VB why§WRB the§DT tories§NNS aren't§VBZ 8%§CD ahead§RB in§IN the§DT polls§NNS given§VBN the§DT current§JJ economics§NNS stats§NNS ;§: bbc§NN bias§NN ?§. surely§RB not§RB ?§.

Результирующий разбор в формате conll 2007:

1   bbc _   NN  NN  _   2   compound    _   _
2   sp  _   NN  NN  _   3   nsubj   _   _
3   says    _   VBZ VBZ _   0   root    _   _
4   they    _   PRP PRP _   5   nsubj   _   _
5   don't   _   VBP VBP _   3   ccomp   _   _
6   understand  _   VB  VB  _   5   xcomp   _   _
7   why _   WRB WRB _   10  advmod  _   _
8   the _   DT  DT  _   9   det _   _
9   tories  _   NNS NNS _   10  nsubj   _   _
10  aren't  _   VBZ VBZ _   6   ccomp   _   _
11  8%  _   CD  CD  _   12  nmod:npmod  _   _
12  ahead   _   RB  RB  _   15  advmod  _   _
13  in  _   IN  IN  _   15  case    _   _
14  the _   DT  DT  _   15  det _   _
15  polls   _   NNS NNS _   10  nmod    _   _
16  given   _   VBN VBN _   15  acl _   _
17  the _   DT  DT  _   19  det _   _
18  current _   JJ  JJ  _   19  amod    _   _
19  economics   _   NNS NNS _   16  dobj    _   _
20  stats   _   NNS NNS _   19  dep _   _
22  bbc _   NN  NN  _   23  compound    _   _
23  bias    _   NN  NN  _   20  dep _   _
25  surely  _   RB  RB  _   26  advmod  _   _
26  not _   RB  RB  _   16  neg _   _

Как видите, большинство знаков препинания не включаются в синтаксический анализ. Но почему?

Синий482

Наконец, нашел ответ, используйте

-outputFormatOptions includePunctuationDependencies

Давно связались со Стэнфордским парсером и службой поддержки corenlp, никакого ответа

Эта статья взята из Интернета, укажите источник при перепечатке.

Если есть какие-либо нарушения, пожалуйста, свяжитесь с[email protected] Удалить.

Отредактировано в
0

я говорю два предложения

0обзор
Войти в системуУчаствуйте в комментариях

Статьи по теме

stanford parser не может читать немецкие умляуты

поиск существительного и глагола в stanford parser

Может ли Stanford Parser игнорировать регистр?

Как получить доступ к отдельным узлам в дереве зависимостей и дереве группы интересов, возвращаемом Stanford Parser?

запустить stanford parser в интерактивном режиме (используя stdin и stdout) или запустить его как сервер

NLTK и Stanford Dependency Parser - как узнать позицию слова?

Stanford NNDep parser: используемые функции

извлечение VP / NP, связанных с конъюнкциями, с использованием Tregex для Stanford Parser

Stanford Core NLP Tree Parser Предельные предложения неверны - предложения?

Невозможно запустить Stanford CoreNLP server с Shift-Reduce Parser

Я хочу использовать stanford-parser-full-2015-01-30 в командной строке Java

Что не так с типами моего класса Parser?

Описание моего типа Parser как серии преобразователей монад

Как слова преобразуются в векторные в Stanford NER

Токены слияния Stanford CoreNLP

Подробная оценка настроений в Stanford CoreNLP

Как получить обучающие данные и модели Stanford CoreNLP?

Добавление метаданных во входные данные Stanford coreNLP

Stanford coreNLP: как получить зависимости метки, позиции и типа из дерева синтаксического анализа

Проблемы при настройке моего собственного сервера Stanford CoreNLP:

как мне создать собственный учебный корпус для stanford tagger?

Разрешить кореференцию с помощью Stanford CoreNLP - невозможно загрузить модель парсера

Ошибка в ядре stanford nlp

Есть ли в конвейере Stanford CoreNLP слушатель, проверяющий прерывание?

О Stanford CoreNLP в китайской модели

Формат дерева синтаксического анализа Stanford NLP

Как мы используем выходной файл, созданный после обучения теггера Stanford NER с использованием пользовательского набора данных?

логика естественного языка в stanford corenlp

Stanford NER для фраз или составных сущностей

TOP список

  1. 1

    Распределение Рэлея Curve_fit на Python

  2. 2

    В типе Observable <unknown> отсутствуют следующие свойства из типа Promise <any>.

  3. 3

    Merging legends in plotly subplot

  4. 4

    TypeError: store.getState não é uma função. (Em 'store.getState ()', 'store.getState' é indefinido, como posso resolver esse problema?

  5. 5

    ContentDialog.showAsync в универсальном оконном приложении Win 10

  6. 6

    PayPal REST API возвращает INVALID_CURRENCY_AMOUNT_FORMAT

  7. 7

    Невозможно отобразить данные модели загрузки Spring в Thymeleaf

  8. 8

    FormsAuthentication.SignOut () не работает после изменения CookieDomain

  9. 9

    Перебирайте несколько столбцов в фрейме данных Panda и находите уникальные значения подсчета

  10. 10

    Does addListener in JavaFX get garbage collected when the ChangeListener is typed as a lambda?

  11. 11

    Définition de la valeur par défaut dans le dictionnaire Python si la clé est manquante

  12. 12

    How to click an array of links in puppeteer?

  13. 13

    Cannot find reference System

  14. 14

    Android Включение / выключение вспышки камеры программно с помощью Camera2

  15. 15

    Как добавить Swagger в веб-API с поддержкой OData, работающий на ASP.NET Core 3.1

  16. 16

    How to set windows.form's start position to bottom?

  17. 17

    Добавить URL-адрес скрипта в очередь: поместить переменную в URL-адрес

  18. 18

    Разделить набор на несколько наборов Scala

  19. 19

    Интеграция Jenkins + Jfrog через плагины - в опубликованном банке добавлена метка времени (дата)

  20. 20

    Unable to open a new window from a method

  21. 21

    Запуск sqlplus в фоновом режиме в Unix

популярныйтег

файл