Palabras a excluir de la búsqueda

Desarrollo técnico e información sobre proyectos pendientes del foro. Ayuda para problemas técnicos relacionados con la página.
Avatar de Usuario
Jacob
Exprópiese
Mensajes: 10200
Registrado: Jue 01 Jul, 2004 02:00
Ubicación: Where no one has gone before!

Palabras a excluir de la búsqueda

Mensaje por Jacob » Mar 02 Ene, 2007 22:28

Jejeje.

Hola.

Qué tal.

Venía yo de este hilo, bueno, para concretar más, de estos posts: uno y dos.
La falta de sueño suele tener efectos devastadores sobre mi autocensura, y como hoy he dormido poco, muy poco, pues aquí va esta chorra-propuesta de sentido pseudocomunitario para que todos propongamos las palabras que deben ser excluidas de la indexación en las tablas de búsqueda.
Pongamos un ejemplo práctico.
Interior. Noche.
La luz de un monitor de ordenador se extiende parpadeante sobre el pequeño cuarto. Un chaval de unos 21 años (o 38, no es seguro) con ojos enrojecidos por el consumo de estupefacientes (¿no funciona en este foro el tachado?)... que diga... por la prolongada exposición a la radiación catódica esboza una maléfica sonrisa, pues está a punto de cometer una fechoría internáutica.

- ¡¡MuaHaHa!! ¡Estos cabrones de DXC se van a enterar, panda de elitistas snobs!

En la pantalla se ve la imagen de un foro de internet, de tonos azulado-grisáceos, la barra superior del navegador Internet Explorer muestra la siguiente leyenda: "DivX Clásico :: Cine Mudo: 1895-1934 [Actualizada 28-11-06]".
El chaval escribe frenéticamente sin levantar la vista de la pantalla, la sonrisa comienza a adquirir tonos diabólicos, por un momento la luz de la pantalla deja de parpadear.

- Ya está. Enviar.

Oscuridad. A cámara lenta vemos la publicación de un mensaje en un foro, lo que antes era azul es ahora rojo, el gris se ha convertido en negro.
Contraplano. La boca del chico empieza a estirarse, los colmillos se extienden y brota de ellos un oscuro, putrefacto y verdoso líquido.
Leemos por fin el contenido del mensaje.

- ¡EL CINE MUDO ES UNA PATRAÑA! ¿A QUIEN PRETENDEIS ENGAÑAR PANDA DE PEDANTES MARICONAZOS A VER SI OS PETAN EL OJETE VICIOSOS! ¡¡JACK BAUER SE COMERÍA VUESTRA EPIGLOTIS PARA MERENDAR, JOSPERRAS!!!

Fundido en negro.
Y ahora la exposición:

Si excluímos la palabra "epiglotis" de la búsqueda, el día que un usuario haga una búsqueda en DXC de la palabra "epiglotis" no verá ese mensaje.
Por un DXC libre de epiglotis. Vota.

Sugerencia de palabras a excluir de la búsqueda, un dos tres responda otra vez:

cierro aqui aquí moderador fascista pincho gracias ¿hay subs? keyser kayser zepporip lurkélido lurquélido......

Avatar de Usuario
tethor
Mensajes: 2905
Registrado: Sab 15 Nov, 2003 01:00
Ubicación: Miami Beach

Mensaje por tethor » Mar 02 Ene, 2007 22:32

excluye los porros

Avatar de Usuario
Morrissey21
Mensajes: 5095
Registrado: Lun 20 Oct, 2003 02:00
Ubicación: Vete a saber
Contactar:

Mensaje por Morrissey21 » Mar 02 Ene, 2007 22:53

Jacob, deja las drogas ya, macho. :mrgreen:

Avatar de Usuario
Cirlot
Marxista, por Karl y Groucho
DXC Republican Clown
Mensajes: 4334
Registrado: Jue 05 Ago, 2004 02:00
Ubicación: Level 5

Mensaje por Cirlot » Mar 02 Ene, 2007 23:00

Podríamos excluir las palabras "Jacob" y "betis" de la búsqueda.

Salud, comas y República
Salud, comas, clowns y República


Avatar de Usuario
raul2010
Mensajes: 3203
Registrado: Mié 24 Jul, 2002 02:00

Mensaje por raul2010 » Mar 02 Ene, 2007 23:13

Jacob, ya usamos un listado de palabras muy frecuentes que no se indexan, no sé si te refieres a eso. Es básico para que las tablas de búsqueda no tengan un tamaño exagerado. Contiene palabras vacías como "que", "como" y cosas por el estilo.

Un saludo

Avatar de Usuario
mesmerism
Mensajes: 3008
Registrado: Mié 08 Sep, 2004 02:00

Mensaje por mesmerism » Mié 03 Ene, 2007 02:09

No sé si estaría bien sacar alguna de estas (supongo que no), pero me ha hecho gracia el recuento:
El buscador escribió:17649 audio
14165 dvdrip
12960 video
10070 xvid
9135 bitrate
8766 divx
8399 compartir
8380 dual
7973 codec
7123 bajar
7042 descarga
6115 imdb
5927 archivo
5588 emule
4482 no encuentro
4360 lanzamiento
4088 vose
4001 mensaje
3955 pausa
3940 frame
3874 edito
3474 dxc
3360 aviso
3312 capturas
3165 info
2744 incoming
2666 no funciona
2415 fileheaven
2283 informe
2185 release
2045 ofrecimiento
2001 internet
1884 jejeje
1870 privado
1864 buscador
1572 keyser
1555 dolby
1517 pixel
1499 joder
1303 culturalia
1298 titles
1155 publicar
990 pol*tica
889 mierda
802 salut
708 mola
701 gato
698 hitchcock
599 registro
598 jajaja
(jijiji).

Avatar de Usuario
KeyserSoze
Mensajes: 6302
Registrado: Jue 03 Oct, 2002 02:00
Contactar:

Mensaje por KeyserSoze » Mié 03 Ene, 2007 02:18

No hay ningún mensaje mio sin ninguna de esas palabras :-(

por cierto: pelicula, ripeo, cine y saludos no dan resultados ;-)

Particularmente, lo de las 500 palabras que han hecho en FH no me gusta nada, pero si lo han hecho, sus motivos y poderosos tendrán. No creo que sea capricho.

Saludos y buenas noches!!
Hilo de presentaciones para nuevos usuarios. Recordad leer los hilos fijos de cada foro antes de abrir un tema. Muchas gracias.

Avatar de Usuario
Morrissey21
Mensajes: 5095
Registrado: Lun 20 Oct, 2003 02:00
Ubicación: Vete a saber
Contactar:

Mensaje por Morrissey21 » Mié 03 Ene, 2007 03:31

mesmerism escribió:
El buscador escribió:990 pol*tica
Ésa suele ser el preámbulo a la aparición de Mr. Lock.
Imagen

Avatar de Usuario
dooddle
Mensajes: 3783
Registrado: Mar 06 Abr, 2004 02:00
Ubicación: San Sebastián
Contactar:

Mensaje por dooddle » Mié 03 Ene, 2007 09:10

:shock: no comas tanto polvorón, que te sientan mal.

No, en serio, la idea es buena. Como bien dicen más arriba el buscador ya discrimina algunas palabras, lo bueno sería saber la lista para, como dice Jacob, ampliarla con lo que más se use y más inútil y molestón resulta en una búsqueda.

Yo voto por el "saludetes" del cuervo, el "PET y OFR antes de cada post" del key y alguna más que ya se me ocurrirá... :mrgreen:
Si tu mula necesita un empujón avísame y te pongo slot :buscando:

Avatar de Usuario
raul2010
Mensajes: 3203
Registrado: Mié 24 Jul, 2002 02:00

Mensaje por raul2010 » Mié 03 Ene, 2007 11:32

Buenas chicos, la lista que hice en su día (cuando reconstruimos las tablas de búsqueda) no la hice de forma aleatoria, sino extrayendo de las tablas un listado ordenado por apariciones.

Las palabras que nos ha puesto mesmerism (por cierto, te odio tío, el tute que le has dado a la base de datos para sacar eso... xD) vienen a ser algunas de esas palabras más usadas, pero más o menos todas las mantuve porque pensaba que alguien podría usarlas en una búsqueda.

El criterio obviamente era: "¿usará esto alguien alguna vez para buscar?" Y si la respuesta era: "no, salvo casos patológicos", pues se quitaba :) Es el caso de los ejemplos que ha puesto Keyser.

El listado de palabras que en estos momentos se están filtrando de las tablas de búsqueda lo tenéis aquí: language/lang_spanish/search_stopwords.txt (hay que aclarar que hay entradas de 3 letras o menos, lo que en sí mismo ya se filtra, así que haced como si no vieseis esas líneas)
*Edito: por cierto, vienen en estricto orden de aparición (retirando las palabras útiles, claro)

Cualquier sugerencia será bien recibida

Un saludo

Avatar de Usuario
Dardo
Arrow Thrower Clown
Mensajes: 18095
Registrado: Dom 19 Oct, 2003 02:00
Ubicación: Entre Encinas y Dolomías

Mensaje por Dardo » Mié 03 Ene, 2007 12:56

Me alegro de leerte raul2010

Respecto al mensaje de Jacob muy interesante :mrgreen:

He buscado "ronaldinho" en el buscador y salen 38 aparaciones y uno de los enlaces es la filmografía de blue de cine mudo :roll: :?

Avatar de Usuario
elPadrino
Mensajes: 3151
Registrado: Mié 24 Sep, 2003 02:00
Ubicación: esperando el rescate por la liberación de Ademola
Contactar:

Mensaje por elPadrino » Mié 03 Ene, 2007 13:28

Haciendo un recesillo en el curro (esta semana estoy de mañanas) me he pasado por aquí y he pensado: no se liberaría mucho trabajo a la base de datos si las búsquedas se restringeran for foros? Me explico. Si lo que busco es una pelio determinada no es necesario hacer la búsqueda en todos los foros o si busco algo referente a comunidad o offtopic tampoco. De manera que se podría quitar la opción de búsqueda en todos los foros para así aligerar el trabajo, no?

Si lo que digo es una tontería achacadla a que no estoy habituado a los madrugones y me está sentando fatal el despertarme tan pronto.

Salut ;)
Si estás interesado en un OFR dilo en el hilo correspondiente, por favor.
No esperes que alguien lo haga por tí

Avatar de Usuario
raul2010
Mensajes: 3203
Registrado: Mié 24 Jul, 2002 02:00

Mensaje por raul2010 » Mié 03 Ene, 2007 13:58

Hombre, eso quitaría libertad a la gente en el momento de buscar, no creo que todo el mundo estuviera de acuerdo. En cualquier caso, sí sería algo bueno que todos tuviéramos eso en cuenta cuando hacemos búsquedas. Cuanto más filtremos, mejores resultados obtendremos y menos carga le daremos al servidor. (Frase Yoda del día)

En la nueva versión de phpBB (de momento en fase de desarrollo) parece que el tema de las búsquedas ha cambiado radicalmente, aunque para hacer pruebas de carga al final necesitas un entorno real. Tengo un par de ideas para cuando llegue la versión final de phpBB 3, pero ya veremos.

Un saludo

Avatar de Usuario
Jacob
Exprópiese
Mensajes: 10200
Registrado: Jue 01 Jul, 2004 02:00
Ubicación: Where no one has gone before!

Mensaje por Jacob » Mié 03 Ene, 2007 15:13

Hola.

Lo del límite de 500 palabras en FH al final lo quitó TurnIP, y relajó un poco la restricción de palabras mayores de tantos caracteres. (He estado bicheando por ahí y según parece en español hay pocas palabras de más de 18 caracteres aprox., que no sean construidas artificialmente a base de prefijos adverbiales y tal. Imagino que en catalán o gallego más o menos igual; en vasco ya tengo más dudas. ^_^)
Gracias por mover el mensaje, aquí está mejor (bueno, en Offtopic tampoco iría mal xD -or in the dustbin-).
Interesante lista, quizá se podría añadir alguna palabra que no es probable que se use combinada, como "lanzamiento" o "release", pero vaya, parece bastante completa.

Gracias, si tengo alguna tont... idea ya la comentaré por aquí.
Un saludo.

Avatar de Usuario
pepe0008
Catador de vinos
Mensajes: 1357
Registrado: Vie 15 Jul, 2005 02:00
Ubicación: Madrid

Mensaje por pepe0008 » Jue 04 Ene, 2007 02:12

raul2010 escribió:El listado de palabras que en estos momentos se están filtrando de las tablas de búsqueda lo tenéis aquí: language/lang_spanish/search_stopwords.txt (hay que aclarar que hay entradas de 3 letras o menos, lo que en sí mismo ya se filtra, así que haced como si no vieseis esas líneas)
Vaya, yo tenía entendido que con tres caracteres ya era válida la palabra para usarla en el buscador...
raul2010 escribió:Cualquier sugerencia será bien recibida
A mí la verdad es que me parece un poco "duro" excluir de la búsqueda palabras como: verdad, cosas, mal, bueno, gente... Pero supongo que la realidad es la que es...

Avatar de Usuario
mesmerism
Mensajes: 3008
Registrado: Mié 08 Sep, 2004 02:00

Mensaje por mesmerism » Jue 04 Ene, 2007 02:38

verdad, cosas, mal, bueno, gente...
A mí me parece que están bien excluidas. La verdad y la mentira, el bien y el mal, las cosas y la gente... todo eso se dice demasiado y no significa nada.
raul2010 escribió:(por cierto, te odio tío, el tute que le has dado a la base de datos para sacar eso... xD)
Jejeje. Cierto, Raúl. Perdón. Sabía que le estaba dando trabajo a la base de datos, pero era por una buena causa... (bueno, más o menos...)

No se volverá a repetir...

Va, sólo un par de ellas más:
El buscador escribió:11964 director
7989 datos
5584 supongo (esta me parece poco útil en una búsqueda seria, podría eliminarse, aunque no sé si 5500 apariciones son relevantes...)
2679 dios (esta es más inútil todavía)
2103 curro (esta ojalá pudiera eliminarse, jejeje)
2007 noticia (quizá un poco redundante, si se busca una noticia sobre algo mejor se busca ese algo directamente)
(Ya está, trataré de controlar mi patología buscadoril...)

Avatar de Usuario
raul2010
Mensajes: 3203
Registrado: Mié 24 Jul, 2002 02:00

Mensaje por raul2010 » Jue 04 Ene, 2007 10:23

pepe0008 escribió:Vaya, yo tenía entendido que con tres caracteres ya era válida la palabra para usarla en el buscador...
Vaya, y tienes razón. Algo se me debió colar en su momento. Gracias por decirlo.
pepe0008 escribió:A mí la verdad es que me parece un poco "duro" excluir de la búsqueda palabras como: verdad, cosas, mal, bueno, gente... Pero supongo que la realidad es la que es...
Excepto quizás "verdad", no creo que nadie las vaya a usar como argumento de búsqueda. Se usan casi siempre en muletillas y acaban siendo huecas como apunta mesmerism. Recordemos que se trata sólo de que se pueda buscar por ellas, no de que las borremos de la base de datos :D
mesmerism escribió:Va, sólo un par de ellas más:
Gracias de nuevo. Estamos hablando de cifras cada vez menos significativas, pero "supongo" es un claro ejemplo de frase hueca, la añado.

Un saludo

Avatar de Usuario
pepe0008
Catador de vinos
Mensajes: 1357
Registrado: Vie 15 Jul, 2005 02:00
Ubicación: Madrid

Mensaje por pepe0008 » Jue 04 Ene, 2007 13:24

Se me ocurre una sugerencia.

En la página de búsqueda, vienen unas breves instrucciones sobre cómo realizar búsquedas provechosas. Se podría añadir una frase corta al final de dichas instrucciones, como "Estas palabras están excluidas del buscador" que fuera un hiperenlace a language/lang_spanish/search_stopwords.txt , de modo que los interesados en sacarle todo el jugo posible al buscador tengan más opciones de encontrar lo que buscan (con búsquedas alternativas, si ha lugar, etc.).

Saludos y gracias por el magnífico trabajo de mantener DXC no sólo a flote, sino con excelente rumbo.

Avatar de Usuario
Compartir_es_amar
Mensajes: 645
Registrado: Jue 13 May, 2004 02:00

Mensaje por Compartir_es_amar » Sab 06 Ene, 2007 10:54

raul2010: ¿Se están usuando índices y constraints en la base de datos? Lo digo por que si te bajas la aplicación phpBB los scripts de creación de tablas para MySQL vienen sin ellos...

En su día y en un arrebato de "locura" propuse usar Lucene como buscador del foro. Lo que pasa es que cuando empecé a mirar el código fuente de phpBB me di cuenta que había que hacer tantas modificaciones que no merecía la pena.

Para vuestra curiosidad, que os conste que por ejemplo cuando se usa el buscador en la página de un periódico (El País, El Mundo, Marca, Expansión...) la búsqueda no se lanza contra una base de datos, sino contra una herramienta estilo Lucene (en los casos anteriores Autonomy, lo sé porque quien esto escribe ha participado en su desarrollo)

Un saludo y a seguir bien

Avatar de Usuario
Jacob
Exprópiese
Mensajes: 10200
Registrado: Jue 01 Jul, 2004 02:00
Ubicación: Where no one has gone before!

Mensaje por Jacob » Vie 12 Ene, 2007 17:58

Hola.

En Fileheaven están teniendo más de un problema con el cambio de servidor, pobrecillos. La búsqueda es, no sé si uno de ellos, porque ya lo venían arrastrando, creo, pero es un problema en cualquier caso (en buena parte por lo inútiles/poco inspirados que somos a veces los usuarios). También han propuesto allí usar Lucene, y Xapian. http://www.xapian.org/

Según mi experiencia personal (válida hasta que venga bscout con un par de estadísticas de tercer grado :mrgreen: ) la búsqueda funciona mejor aquí que en FH, pero nunca está de más proponer mejoras (aunque sean para el 2014 :p ).
(en los casos anteriores Autonomy, lo sé porque quien esto escribe ha participado en su desarrollo)
Jejeje. 8)

Edito: para enlazar este post en el hilo mentado de fileheaven, hilo que se titula "Ask not what FH can do for you.... ;-)". Muy interesante, sobre tipos de búsqueda y tal.
Última edición por Jacob el Vie 12 Ene, 2007 21:05, editado 2 veces en total.

Responder