Published using Google Docs
Author Profiling
Updated automatically every 5 minutes

Creado el 29/12/2015

Última versión:  29/12/2015

Paolo Rosso, Universitat Politècnica de Valencia

Comunidad moocTLH 

Esta obra está bajo una licencia de Creative Commons
Reconocimiento-CompartirIgual 3.0 Unported
.

Perfiles de autoría (author profiling)

Hola. Soy Paolo Rosso de la Universitat Politècnica de Valencia y voy a contar algo sobre author profiling.

Cuando queremos tener un perfil de autor nos centramos no tanto en un autor concreto sino en una clase de autores. Esto puede ser muy importante desde el punto de vista de la lingüística forense si se necesita conocer detalles sobre el sexo, la edad, el idioma nativo, también personalidad, ideología y organización a la que uno podría pertenecer.

Pero también desde el punto de vista de la mercadotecnia podría ser interesante saber algo más sobre quién opina respecto de un cierto producto: si son jóvenes, hombres o mujeres, lo que les gusta, lo que no.

Es bastante interesante y desafiante como tarea, se trata de inferir esta información a partir del estilo de escritura del texto.

Os dejo como ejemplo estos dos textos, uno ha sido escrito por un hombre el otro por una mujer. Podéis darle al botón de la pausa…

My aim in this article is to show that given a relevance theoretic approach to utterance interpretation, it is possible to develop a better understanding of what some of these so-called apposition markers indicate. It will be argued that the decision to put something in other words is essentially a decision about style, a point which is, perhaps, anticipated by Burton-Roberts when he describes loose apposition as a rhetorical device. However, he does not justify this suggestion by giving the criteria for classifying a mode of expression as a rhetorical device. Nor does he specify what kind of effects might be achieved by a reformulation or explain how it achieves those effects.  In this paper I  follow Sperber and Wilson's (1986) suggestion that rhetorical devices like metaphor, irony and repetition are particular means of achieving relevance. As I have suggested, the corrections that are made in unplanned discourse are also made in the pursuit of optimal relevance.  However, these are made because the speaker recognises that the original formulation did not achieve optimal relevance .  

The main aim of this article is to propose an exercise in stylistic analysis which can be employed in the teaching of English language. It details the design and results of a workshop activity on narrative carried out with undergraduates in a university department of English. The methods proposed are intended to enable students to obtain insights into aspects of cohesion and narrative structure: insights, it is suggested, which are not as readily obtainable through more traditional techniques of stylistic analysis. The text chosen for analysis is a short story by Ernest Hemingway comprising only 11 sentences. A jumbled version of this story is presented to students who are asked to assemble a cohesive and well formed version of the story. Their  re-constructions are then compared with the original Hemingway version.

Bueno, no sé si tenéis ya una idea o las razones por las que pensáis que uno ha sido escrito por un hombre y el otro por una mujer. De momento no os voy a decir quién ha escrito qué pero sí os puedo proporcionar alguna información que se ha determinado de manera estadística: los hombres utilizan más adjetivos, más palabras como of, y las mujeres más pronombres y palabras como for y with, utilizan más el tiempo presente, más negación…

Es interesante ver estos aspectos en un libro de un psicolingüista, J.W. Pennebaker, The secret life of pronouns, la manera que tenemos de utilizar los pronombres y otras categorías de palabras, cómo esta información puede darnos indicios.

Podéis volver a leer los mismos textos. En el de la izquierda se utilizan más pronombres, el tiempo presente, más negación. Está claro que el texto de la izquierda ha sido escrito por una mujer. Y el de la derecha, en este ejemplo, es más corto, utiliza más veces la palabra “of”.

En unos experimentos desarrollados por Moshe Koppel y su grupo, utilizando unos mil documentos del British National Corpus, solamente con información de function words se ha conseguido identificar el sexo en más del 72 % de los casos; Part-of-Speech ayuda, pero menos, 70 %; los dos juntos consiguen obtener unos resultados más altos, del 75-76 %.

Aquí tenemos un par de ejemplos de los medios sociales. En este caso se trata de tener una idea no solo sobre el sexo sino también sobre la edad. Si lo ha escrito un adolescente, un veinteañero o una persona alrededor de los 30 años.

Yesterday we had our second jazz competition. Thank God we weren't competing. We were sooo bad. Like, I was so ashamed, I didn't even want to talk to anyone after. I felt so rotton, and I wanted to cry, but...it's ok.

Como podéis haber notado, los textos de los medios sociales son más cortos no tenemos la información de frecuencia de uso de ciertas palabras pero sí tenemos información a nivel de slang utilizado. En este caso, ha sido escrito por una mujer, en pocos casos un hombre admite o lo escribe en un post que se ha encerrado en una habitación a llorar. Entonces es un lenguaje más de adolescentes.

En este otro caso, que podéis leer tranquilamente dándole al botón de pausa… Ha sido escrito por un hombre pero un hombre relativamente joven como se puede notar por el estilo de escritura, freakin’ days por ejemplo.

Este es el tipo de experimentos que hicieron los compañeros Moshe Koppel y su grupo. Tenían unos 20000 posts de blogs, divididos en estas 3 categorías. Se ha considerado un salto de edad de 5 años entre las categorías porque la hipótesis de base es que el estilo de escritura cambia a lo largo de los años pero lógicamente hay que dejar unos cuantos entre las categorías para permitir una cierta accuracy en determinar el grado de edad correcta.

Los resultados que han obtenido son bastante altos considerando solo palabras que tienen un cierto significado, más de un 75-76 % de accuracy. Con el estilo un poco menos pero combinadas las dos, estilo y contenido, se consigue más del 77 % en la identificación de la edad.

Como veremos luego, en corpus más grandes, estos valores caen bastante en picado pero estos son los valores con los cuales empezamos un poco a familiarizarnos con la tarea.

Con respecto a la clasificación de sexo, valores todavía más altos, 80 %, pero una vez más los resultados sobre otros corpus son bastante más bajos.

Lo que hicieron de interesante Moshe Koppel y su grupo ha sido ver un poco cuáles son las palabras que se han utilizado con más frecuencia en su categoría.

Los adolescentes, ¿de qué se preocupan? De que hacen sus deberes, las matemáticas, que están aburridos, que se vuelven locos… La frecuencia de estas palabras disminuye en las otras dos categorías.

Con respecto a las preocupaciones de los veinteañeros, que viven en un apartamento, estudian, van al college, al bar, cerveza…

En la categoría en la que muchos de nosotros caemos o ya no caemos, las preocupaciones son diferentes: la pareja, los impuestos, los hijos.

Resumiendo, las frecuencias de uso de las palabras, y las palabras mismas, han sido bastante diferentes entre las 3 categorías.

¿De qué hablan los hombres y de qué hablan las mujeres? Para hacer este análisis se ha utilizado un recurso, Linguistic Inquiry and Word Count, de J.W. Pennebaker, el psicolingüista que ha escrito el libro “The secret life of pronouns”.

Como podéis ver, los hombres hablan más de trabajo, de hacer dinero, de deportes, de mirar la televisión, mientras que las mujeres, por lo menos en este conjunto de datos —que, sobre todo, reflejan la vida en los Estados Unidos—, hablan más de sexo, amor, familia, comida o amigos; y de dormir, a lo mejor por la falta de sueño cuando los niños se despiertan por la noche y llaman a mamá.

Y también, atendiendo a que las emociones sean negativas o positivas, una vez más queda evidente que las mujeres se estresan más a nivel emocional que los hombres.

Un experimento interesante ha sido ver cuáles son las palabras de mayor información con respecto a la edad y el sexo. Se han elegido 1000 palabras por cada una de las dos tareas, identificación de la edad y del sexo, y al final se han presentado en este gráfico para ver si había algún outlayer, alguna palabra solo utilizada en cierta categoría.

¿Podéis imaginar de qué hablan, de qué hablaban, de qué puede hablar las mujeres de 30 años para arriba? De sus maridos. Habría que hacer un análisis un poco más en detalle para ver si hablan bien o mal pero, por frecuencia, esta ha sido la palabra más utilizada en esta categoría específica.

Con respecto a estas dos tareas, de identificación de edad y sexo, se ha organizado en 2013, en el marco del PAN en el CLEF, una tarea sobre author profiling en la que participaron, al final, 21 equipos. España estuvo bien representada.

Si consultáis los valores mostrados anteriormente para la identificación del sexo de alrededor del 75 % y de hasta el 80 % de accuracy, aquí los valores conseguidos son bastante más bajos. Para el inglés y también para el español que, en este caso, hace más fácil la detección del sexo. En el mejor de los casos, se ha conseguido casi un 65 % en español, pero para el inglés los resultados han sido bastante más bajos.

Con respecto a la identificación de la edad, en los dos casos se consigue como mucho el 65 % de accuracy para el inglés y el español.

Para acabar, la importancia de detectar la edad, por ejemplo, en tareas como la detección de potenciales pedófilos. Detectar a estos individuos en función del estilo de escritura que el usuario es, sin duda, importante. Algunos periódicos dan cifras de intentos de pedofilia utilizando Twitter que, si nos las creemos, son escalofriantes. Hemos intentado abordar esta tarea desde otra perspectiva: el perfil emocional. Los pedófilos son potencialmente personas poco estables, por lo que hemos intentado ver si palabras relacionadas con las 6 emociones básicas —felicidad, ira, miedo, tristeza, disgusto y sorpresa— han sido utilizadas con una cierta variación a lo largo del tiempo.

Hemos considerado, además, la importancia del perfil emocional para la misma tarea de identificación de edad y sexo. Aparte de algunas features, de algunas características de estilo de escritura, hemos utilizado recursos desarrollados por el Instituto Politécnico Nacional de Ciudad de México. En estos se dispone de palabras que coocurren con las 6 emociones básicas y que pueden ayudar a determinar las que, con una cierta carga emocional, han sido utilizadas por las diferentes edades y sexos.

Con esta aproximación se consiguen resultados relativamente buenos, sobre todo para la identificación de la edad y, como veis, las emociones por sí solas consiguen obtener una posición en el ranking para el español bastante bueno —equipo Rangel—.

Por último, comentar que estas tareas de author profiling han sido unas tareas de bastante seguimiento a partir de 2013. PAN, sobre identificación de edad y sexo. ICTWSMi, sobre la personalidad. Y una tarea sobre la identificación del idioma nativo en la NAACL.

Si os interesa el tema, contactadnos que os pasamos más información al respecto. Muchas gracias.

Bibliografía

Creado el 29/12/2015

Última versión:  29/12/2015

Paolo Rosso, Universitat Politècnica de Valencia

Comunidad moocTLH 

Esta obra está bajo una licencia de Creative Commons
Reconocimiento-CompartirIgual 3.0 Unported
.