Extracción de funciones de acuerdo de un texto

Estoy pasando por una tarea en la que tengo que extraer la característica de acuerdo de los sustantivos en el texto ... La característica de acuerdo como:

number = singular, plural
person = first, second, third
gender = male, female, neuter
animacy = animate, inanimate

¿Hay alguna forma de extraer estas características del texto ...?

3
Realmente tendría que verificar cada línea, encontrar las etiquetas de sustantivo y luego tener una lista de características de acuerdo (como usted lo llama) para verificar otra vez la que se encuentra en la línea.
agregado el autor Kazekage Gaara, fuente
Stanford-nlp POS tagger utiliza el Penn Treebank POS conjunto de etiquetas . Desafortunadamente, solo puedes acceder a sustantivos en singular y en plural de esas etiquetas. O necesita buscar un conjunto de etiquetas que tenga tales características compatibles o hacer manualmente un analizador para buscar tales atributos.
agregado el autor Kazekage Gaara, fuente
Y creo que incluso open-nlp usa el mismo conjunto de etiquetas.
agregado el autor Kazekage Gaara, fuente
quieres decir que debería verificar cada línea del analizador o el texto en sí mismo ... porque los sustantivos en singular y plural puedo extraerlos por medio del rotulador de TPV. ¿Qué pasa con las otras características? ¿Es posible extraerlas usando código abierto de NLP?
agregado el autor S Gaber, fuente

1 Respuestas

Si sus datos son en inglés, como sugieren sus comentarios, entonces los sustantivos nunca tendrán información de la persona, por lo que podemos descartar eso.

El número es fácil, como lo mencionaron otros: muchos etiquetadores de voz parcial distinguen entre sustantivos en singular y plural.

Género y animacy son más interesantes. En inglés, estas son propiedades semánticas en lugar de sintácticas de sustantivos. Por ejemplo, toma la oración La princesa está en la torre . Sabemos que princess es femenina y animada, no por información inflexional, sino porque conocemos el significado de la palabra. Es factible construir una ontología obteniendo un gran corpus de datos y analizando pronombres y anáforas. Su algoritmo buscaría ejemplos como estos:

La princesa se mira en el espejo.

La princesa está en la torre. Ella está triste.

Resultaría (de alguna manera) que princess es el antecedente de ella misma y her , e inferir las propiedades del sustantivo a partir de las propiedades conocidas de Los pronombres. Por supuesto, ahora el problema se convierte en resolución de referencia, que no es trivial. Aquí hay algunas referencias de un curso de conferencia reciente de la Universidad de Edimburgo sobre el tema:

  • Denis, Pascal y Baldridge, Jason, 2008. 'Modelos especializados y cambio de resolución de correferencia'. En Procedimientos de la Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural . ACL, 650-69.
  • Haghighi, Aria y Klein, Dan, 2010. 'Resolución de correferencia en un modelo modular, centrado en la entidad'. En Human Language Technologies: la Conferencia Anual 2010 del Capítulo Norteamericano de la Asociación de Lingüística Computacional . Los Angeles CA, 385-93.
  • Lappin, Shalom y Leass, Herbert, 1994. 'Algoritmo para la resolución pronominal de la anáfora'. Lingüística computacional 20: 535-61.
  • Ng, Vincent, 2010. 'Supervised Sustantivo Frase Coreference Research: Los primeros 15 años.' En ACL '10: Actas de la 48ª Reunión de la Asociación de Lingüística Computacional. 1396-411.
2
agregado
Oh, bueno, creo que eso sería mucho más fácil. Es una lista bastante limitada de títulos. Compílalo a mano y haz que tu etiquetador los busque. No sé si hay una implementación de código abierto existente.
agregado el autor Tommy Herbert, fuente
gracias Tommy Herbert, es realmente útil lo que se te ha explicado, especialmente la Resolución Anaphora ... ¿qué hay de los nombres que no tienen ningún pronombre que esté conectado a ella? cómo podemos descubrir su género y su animación. ¿Qué pasa con los nombres que comienzan con Mr, Miss, Queen, Lady, Lord ..... hay algún enfoque para estas palabras o código abierto que han estado haciendo en esta cosa!
agregado el autor S Gaber, fuente