Stanford Parser: Как включить знаки препинания?

Blue482 Опубликовано в Dev

Синий482

Я использовал Stanford Parser для анализа некоторых из моих уже токенизированных и POS-тегов (с помощью Stanford POS tagger с моделью Gate Twitter). Но полученный результат в формате conll 2007 не содержит знаков препинания. Это почему?

Команда, которую я использовал:

java -mx16g -cp "*" edu.stanford.nlp.parser.lexparser.LexicalizedParser -sentences newline -tokenized -tagSeparator § -tokenizerFactory edu.stanford.nlp.process.WhitespaceTokenizer -tokenizerMethod newCoreLabelTokenizerFactory -escaper edu.stanford.nlp.process.PTBEscapingProcessor -outputFormat conll2007 edu/stanford/nlp/models/lexparser/englishPCFG.caseless.ser.gz ..test.tagged > ../test.conll

например

Исходный твит:

bbc sp says they don't understand why the tories aren't 8% ahead in the polls given the current economics stats ; bbc bias ? surely not ?

Твит с тегами POS, используемый в качестве входных данных для синтаксического анализатора Стэнфорда:

bbc§NN sp§NN says§VBZ they§PRP don't§VBP understand§VB why§WRB the§DT tories§NNS aren't§VBZ 8%§CD ahead§RB in§IN the§DT polls§NNS given§VBN the§DT current§JJ economics§NNS stats§NNS ;§: bbc§NN bias§NN ?§. surely§RB not§RB ?§.

Результирующий разбор в формате conll 2007:

1   bbc _   NN  NN  _   2   compound    _   _
2   sp  _   NN  NN  _   3   nsubj   _   _
3   says    _   VBZ VBZ _   0   root    _   _
4   they    _   PRP PRP _   5   nsubj   _   _
5   don't   _   VBP VBP _   3   ccomp   _   _
6   understand  _   VB  VB  _   5   xcomp   _   _
7   why _   WRB WRB _   10  advmod  _   _
8   the _   DT  DT  _   9   det _   _
9   tories  _   NNS NNS _   10  nsubj   _   _
10  aren't  _   VBZ VBZ _   6   ccomp   _   _
11  8%  _   CD  CD  _   12  nmod:npmod  _   _
12  ahead   _   RB  RB  _   15  advmod  _   _
13  in  _   IN  IN  _   15  case    _   _
14  the _   DT  DT  _   15  det _   _
15  polls   _   NNS NNS _   10  nmod    _   _
16  given   _   VBN VBN _   15  acl _   _
17  the _   DT  DT  _   19  det _   _
18  current _   JJ  JJ  _   19  amod    _   _
19  economics   _   NNS NNS _   16  dobj    _   _
20  stats   _   NNS NNS _   19  dep _   _
22  bbc _   NN  NN  _   23  compound    _   _
23  bias    _   NN  NN  _   20  dep _   _
25  surely  _   RB  RB  _   26  advmod  _   _
26  not _   RB  RB  _   16  neg _   _

Как видите, большинство знаков препинания не включаются в синтаксический анализ. Но почему?

Синий482

Наконец, нашел ответ, используйте

-outputFormatOptions includePunctuationDependencies

Давно связались со Стэнфордским парсером и службой поддержки corenlp, никакого ответа

Эта статья взята из Интернета, укажите источник при перепечатке.

Если есть какие-либо нарушения, пожалуйста, свяжитесь с[email protected] Удалить.

Отредактировано в2021-04-8

я говорю два предложения

0обзор

Войти в системуУчаствуйте в комментариях

предыдущий:Очень простая проблема с fread fwrite?

Stanford Parser: Как включить знаки препинания?

Stanford Parser: Как включить знаки препинания?

Распределение Рэлея Curve_fit на Python

В типе Observable <unknown> отсутствуют следующие свойства из типа Promise <any>.

Merging legends in plotly subplot

TypeError: store.getState não é uma função. (Em 'store.getState ()', 'store.getState' é indefinido, como posso resolver esse problema?

ContentDialog.showAsync в универсальном оконном приложении Win 10

PayPal REST API возвращает INVALID_CURRENCY_AMOUNT_FORMAT

Невозможно отобразить данные модели загрузки Spring в Thymeleaf

FormsAuthentication.SignOut () не работает после изменения CookieDomain

Перебирайте несколько столбцов в фрейме данных Panda и находите уникальные значения подсчета

Does addListener in JavaFX get garbage collected when the ChangeListener is typed as a lambda?

Définition de la valeur par défaut dans le dictionnaire Python si la clé est manquante

How to click an array of links in puppeteer?

Cannot find reference System

Android Включение / выключение вспышки камеры программно с помощью Camera2

Как добавить Swagger в веб-API с поддержкой OData, работающий на ASP.NET Core 3.1

How to set windows.form's start position to bottom?

Добавить URL-адрес скрипта в очередь: поместить переменную в URL-адрес

Разделить набор на несколько наборов Scala

Интеграция Jenkins + Jfrog через плагины - в опубликованном банке добавлена метка времени (дата)

Unable to open a new window from a method

Запуск sqlplus в фоновом режиме в Unix