Clasificación binaria de páginas web donde los datos en categorías son muy similares

Estoy trabajando en la clasificación binaria de páginas web relacionadas con un tema de mi interés. Quiero clasificar si la página web pertenece a una categoría determinada o no. He etiquetado manualmente el conjunto de datos con 2 categorías positive y negative . Sin embargo, mi preocupación aquí es cuando miro la bolsa de palabras de cada una de las categorías, las características son muy similares. Las páginas web positive y negative son de hecho muy cercanas (en cuanto al contenido).

Algo más de información: el contenido está en inglés, también estamos eliminando las palabras vacías.

¿Cómo puedo hacer esta tarea? ¿Hay un enfoque diferente que pueda aplicarse a este problema? Gracias !

0
Eso es lo que estoy recibiendo ahora ... muchos falsos positivos. Los expertos clasificaron las páginas web en cada categoría, pero principalmente en función de si hablan sobre un determinado tema o no. En mi caso, las páginas web negativas son en su mayoría páginas de reenvío a las páginas web positivas. Actualmente estoy investigando profundamente para encontrar qué más puede separar las 2 categorías.
agregado el autor y2p, fuente
También estoy raspando páginas limitadas al tema de mi interés, esto ya limita bastante el ruido
agregado el autor y2p, fuente
@ aganders3 No es "blogspam". Principalmente sitios web relacionados con la investigación científica. Algunas de las funciones que mencionas pueden ser útiles, ya que dichas características provienen de tu experiencia. Lo probaré. Gracias !
agregado el autor y2p, fuente
¿Puedes pensar en alguna otra característica que los diferencie? ¿Cuáles fueron sus criterios personales para incluirlos en cada categoría? Un algoritmo de aprendizaje puede ser capaz de "compensar" la separación estrecha, pero es probable que tenga muchos falsos positivos y negativos.
agregado el autor aganders3, fuente
Ah, ¿estás tratando de filtrar "blogspam"? Podría intentar agregar otras características como la longitud del artículo, la cantidad de anuncios en la página, el número de enlaces dentro del artículo, etc. No creo que obtenga una respuesta concreta para esto en StackOverflow a menos que usted indique su problema. con más detalles.
agregado el autor aganders3, fuente

1 Respuestas

Puede usar pares de palabras consecutivas en lugar de palabras sueltas (bolsa de pares de palabras). La esperanza es que un par de palabras capture mejor el concepto que buscas. Las trillizas de palabras podrían venir después. El problema es que la dimensionalidad va realmente alta (N ^ 2). Si no puede permitírselo, una idea es utilizar el truco de hash (consulte la literatura sobre proyecciones/hash aleatorias) en los pares de palabras para vincular la dimensionalidad.

0
agregado