Página 1 de 2

Palabras a excluir de la búsqueda

Publicado: Mar 02 Ene, 2007 22:28
por Jacob
Jejeje.

Hola.

Qué tal.

Venía yo de este hilo, bueno, para concretar más, de estos posts: uno y dos.
La falta de sueño suele tener efectos devastadores sobre mi autocensura, y como hoy he dormido poco, muy poco, pues aquí va esta chorra-propuesta de sentido pseudocomunitario para que todos propongamos las palabras que deben ser excluidas de la indexación en las tablas de búsqueda.
Pongamos un ejemplo práctico.
Interior. Noche.
La luz de un monitor de ordenador se extiende parpadeante sobre el pequeño cuarto. Un chaval de unos 21 años (o 38, no es seguro) con ojos enrojecidos por el consumo de estupefacientes (¿no funciona en este foro el tachado?)... que diga... por la prolongada exposición a la radiación catódica esboza una maléfica sonrisa, pues está a punto de cometer una fechoría internáutica.

- ¡¡MuaHaHa!! ¡Estos cabrones de DXC se van a enterar, panda de elitistas snobs!

En la pantalla se ve la imagen de un foro de internet, de tonos azulado-grisáceos, la barra superior del navegador Internet Explorer muestra la siguiente leyenda: "DivX Clásico :: Cine Mudo: 1895-1934 [Actualizada 28-11-06]".
El chaval escribe frenéticamente sin levantar la vista de la pantalla, la sonrisa comienza a adquirir tonos diabólicos, por un momento la luz de la pantalla deja de parpadear.

- Ya está. Enviar.

Oscuridad. A cámara lenta vemos la publicación de un mensaje en un foro, lo que antes era azul es ahora rojo, el gris se ha convertido en negro.
Contraplano. La boca del chico empieza a estirarse, los colmillos se extienden y brota de ellos un oscuro, putrefacto y verdoso líquido.
Leemos por fin el contenido del mensaje.

- ¡EL CINE MUDO ES UNA PATRAÑA! ¿A QUIEN PRETENDEIS ENGAÑAR PANDA DE PEDANTES MARICONAZOS A VER SI OS PETAN EL OJETE VICIOSOS! ¡¡JACK BAUER SE COMERÍA VUESTRA EPIGLOTIS PARA MERENDAR, JOSPERRAS!!!

Fundido en negro.
Y ahora la exposición:

Si excluímos la palabra "epiglotis" de la búsqueda, el día que un usuario haga una búsqueda en DXC de la palabra "epiglotis" no verá ese mensaje.
Por un DXC libre de epiglotis. Vota.

Sugerencia de palabras a excluir de la búsqueda, un dos tres responda otra vez:

cierro aqui aquí moderador fascista pincho gracias ¿hay subs? keyser kayser zepporip lurkélido lurquélido......

Publicado: Mar 02 Ene, 2007 22:32
por tethor
excluye los porros

Publicado: Mar 02 Ene, 2007 22:53
por Morrissey21
Jacob, deja las drogas ya, macho. :mrgreen:

Publicado: Mar 02 Ene, 2007 23:00
por Cirlot
Podríamos excluir las palabras "Jacob" y "betis" de la búsqueda.

Salud, comas y República

Publicado: Mar 02 Ene, 2007 23:13
por raul2010
Jacob, ya usamos un listado de palabras muy frecuentes que no se indexan, no sé si te refieres a eso. Es básico para que las tablas de búsqueda no tengan un tamaño exagerado. Contiene palabras vacías como "que", "como" y cosas por el estilo.

Un saludo

Publicado: Mié 03 Ene, 2007 02:09
por mesmerism
No sé si estaría bien sacar alguna de estas (supongo que no), pero me ha hecho gracia el recuento:
El buscador escribió:17649 audio
14165 dvdrip
12960 video
10070 xvid
9135 bitrate
8766 divx
8399 compartir
8380 dual
7973 codec
7123 bajar
7042 descarga
6115 imdb
5927 archivo
5588 emule
4482 no encuentro
4360 lanzamiento
4088 vose
4001 mensaje
3955 pausa
3940 frame
3874 edito
3474 dxc
3360 aviso
3312 capturas
3165 info
2744 incoming
2666 no funciona
2415 fileheaven
2283 informe
2185 release
2045 ofrecimiento
2001 internet
1884 jejeje
1870 privado
1864 buscador
1572 keyser
1555 dolby
1517 pixel
1499 joder
1303 culturalia
1298 titles
1155 publicar
990 pol*tica
889 mierda
802 salut
708 mola
701 gato
698 hitchcock
599 registro
598 jajaja
(jijiji).

Publicado: Mié 03 Ene, 2007 02:18
por KeyserSoze
No hay ningún mensaje mio sin ninguna de esas palabras :-(

por cierto: pelicula, ripeo, cine y saludos no dan resultados ;-)

Particularmente, lo de las 500 palabras que han hecho en FH no me gusta nada, pero si lo han hecho, sus motivos y poderosos tendrán. No creo que sea capricho.

Saludos y buenas noches!!

Publicado: Mié 03 Ene, 2007 03:31
por Morrissey21
mesmerism escribió:
El buscador escribió:990 pol*tica
Ésa suele ser el preámbulo a la aparición de Mr. Lock.
Imagen

Publicado: Mié 03 Ene, 2007 09:10
por dooddle
:shock: no comas tanto polvorón, que te sientan mal.

No, en serio, la idea es buena. Como bien dicen más arriba el buscador ya discrimina algunas palabras, lo bueno sería saber la lista para, como dice Jacob, ampliarla con lo que más se use y más inútil y molestón resulta en una búsqueda.

Yo voto por el "saludetes" del cuervo, el "PET y OFR antes de cada post" del key y alguna más que ya se me ocurrirá... :mrgreen:

Publicado: Mié 03 Ene, 2007 11:32
por raul2010
Buenas chicos, la lista que hice en su día (cuando reconstruimos las tablas de búsqueda) no la hice de forma aleatoria, sino extrayendo de las tablas un listado ordenado por apariciones.

Las palabras que nos ha puesto mesmerism (por cierto, te odio tío, el tute que le has dado a la base de datos para sacar eso... xD) vienen a ser algunas de esas palabras más usadas, pero más o menos todas las mantuve porque pensaba que alguien podría usarlas en una búsqueda.

El criterio obviamente era: "¿usará esto alguien alguna vez para buscar?" Y si la respuesta era: "no, salvo casos patológicos", pues se quitaba :) Es el caso de los ejemplos que ha puesto Keyser.

El listado de palabras que en estos momentos se están filtrando de las tablas de búsqueda lo tenéis aquí: language/lang_spanish/search_stopwords.txt (hay que aclarar que hay entradas de 3 letras o menos, lo que en sí mismo ya se filtra, así que haced como si no vieseis esas líneas)
*Edito: por cierto, vienen en estricto orden de aparición (retirando las palabras útiles, claro)

Cualquier sugerencia será bien recibida

Un saludo

Publicado: Mié 03 Ene, 2007 12:56
por Dardo
Me alegro de leerte raul2010

Respecto al mensaje de Jacob muy interesante :mrgreen:

He buscado "ronaldinho" en el buscador y salen 38 aparaciones y uno de los enlaces es la filmografía de blue de cine mudo :roll: :?

Publicado: Mié 03 Ene, 2007 13:28
por elPadrino
Haciendo un recesillo en el curro (esta semana estoy de mañanas) me he pasado por aquí y he pensado: no se liberaría mucho trabajo a la base de datos si las búsquedas se restringeran for foros? Me explico. Si lo que busco es una pelio determinada no es necesario hacer la búsqueda en todos los foros o si busco algo referente a comunidad o offtopic tampoco. De manera que se podría quitar la opción de búsqueda en todos los foros para así aligerar el trabajo, no?

Si lo que digo es una tontería achacadla a que no estoy habituado a los madrugones y me está sentando fatal el despertarme tan pronto.

Salut ;)

Publicado: Mié 03 Ene, 2007 13:58
por raul2010
Hombre, eso quitaría libertad a la gente en el momento de buscar, no creo que todo el mundo estuviera de acuerdo. En cualquier caso, sí sería algo bueno que todos tuviéramos eso en cuenta cuando hacemos búsquedas. Cuanto más filtremos, mejores resultados obtendremos y menos carga le daremos al servidor. (Frase Yoda del día)

En la nueva versión de phpBB (de momento en fase de desarrollo) parece que el tema de las búsquedas ha cambiado radicalmente, aunque para hacer pruebas de carga al final necesitas un entorno real. Tengo un par de ideas para cuando llegue la versión final de phpBB 3, pero ya veremos.

Un saludo

Publicado: Mié 03 Ene, 2007 15:13
por Jacob
Hola.

Lo del límite de 500 palabras en FH al final lo quitó TurnIP, y relajó un poco la restricción de palabras mayores de tantos caracteres. (He estado bicheando por ahí y según parece en español hay pocas palabras de más de 18 caracteres aprox., que no sean construidas artificialmente a base de prefijos adverbiales y tal. Imagino que en catalán o gallego más o menos igual; en vasco ya tengo más dudas. ^_^)
Gracias por mover el mensaje, aquí está mejor (bueno, en Offtopic tampoco iría mal xD -or in the dustbin-).
Interesante lista, quizá se podría añadir alguna palabra que no es probable que se use combinada, como "lanzamiento" o "release", pero vaya, parece bastante completa.

Gracias, si tengo alguna tont... idea ya la comentaré por aquí.
Un saludo.

Publicado: Jue 04 Ene, 2007 02:12
por pepe0008
raul2010 escribió:El listado de palabras que en estos momentos se están filtrando de las tablas de búsqueda lo tenéis aquí: language/lang_spanish/search_stopwords.txt (hay que aclarar que hay entradas de 3 letras o menos, lo que en sí mismo ya se filtra, así que haced como si no vieseis esas líneas)
Vaya, yo tenía entendido que con tres caracteres ya era válida la palabra para usarla en el buscador...
raul2010 escribió:Cualquier sugerencia será bien recibida
A mí la verdad es que me parece un poco "duro" excluir de la búsqueda palabras como: verdad, cosas, mal, bueno, gente... Pero supongo que la realidad es la que es...

Publicado: Jue 04 Ene, 2007 02:38
por mesmerism
verdad, cosas, mal, bueno, gente...
A mí me parece que están bien excluidas. La verdad y la mentira, el bien y el mal, las cosas y la gente... todo eso se dice demasiado y no significa nada.
raul2010 escribió:(por cierto, te odio tío, el tute que le has dado a la base de datos para sacar eso... xD)
Jejeje. Cierto, Raúl. Perdón. Sabía que le estaba dando trabajo a la base de datos, pero era por una buena causa... (bueno, más o menos...)

No se volverá a repetir...

Va, sólo un par de ellas más:
El buscador escribió:11964 director
7989 datos
5584 supongo (esta me parece poco útil en una búsqueda seria, podría eliminarse, aunque no sé si 5500 apariciones son relevantes...)
2679 dios (esta es más inútil todavía)
2103 curro (esta ojalá pudiera eliminarse, jejeje)
2007 noticia (quizá un poco redundante, si se busca una noticia sobre algo mejor se busca ese algo directamente)
(Ya está, trataré de controlar mi patología buscadoril...)

Publicado: Jue 04 Ene, 2007 10:23
por raul2010
pepe0008 escribió:Vaya, yo tenía entendido que con tres caracteres ya era válida la palabra para usarla en el buscador...
Vaya, y tienes razón. Algo se me debió colar en su momento. Gracias por decirlo.
pepe0008 escribió:A mí la verdad es que me parece un poco "duro" excluir de la búsqueda palabras como: verdad, cosas, mal, bueno, gente... Pero supongo que la realidad es la que es...
Excepto quizás "verdad", no creo que nadie las vaya a usar como argumento de búsqueda. Se usan casi siempre en muletillas y acaban siendo huecas como apunta mesmerism. Recordemos que se trata sólo de que se pueda buscar por ellas, no de que las borremos de la base de datos :D
mesmerism escribió:Va, sólo un par de ellas más:
Gracias de nuevo. Estamos hablando de cifras cada vez menos significativas, pero "supongo" es un claro ejemplo de frase hueca, la añado.

Un saludo

Publicado: Jue 04 Ene, 2007 13:24
por pepe0008
Se me ocurre una sugerencia.

En la página de búsqueda, vienen unas breves instrucciones sobre cómo realizar búsquedas provechosas. Se podría añadir una frase corta al final de dichas instrucciones, como "Estas palabras están excluidas del buscador" que fuera un hiperenlace a language/lang_spanish/search_stopwords.txt , de modo que los interesados en sacarle todo el jugo posible al buscador tengan más opciones de encontrar lo que buscan (con búsquedas alternativas, si ha lugar, etc.).

Saludos y gracias por el magnífico trabajo de mantener DXC no sólo a flote, sino con excelente rumbo.

Publicado: Sab 06 Ene, 2007 10:54
por Compartir_es_amar
raul2010: ¿Se están usuando índices y constraints en la base de datos? Lo digo por que si te bajas la aplicación phpBB los scripts de creación de tablas para MySQL vienen sin ellos...

En su día y en un arrebato de "locura" propuse usar Lucene como buscador del foro. Lo que pasa es que cuando empecé a mirar el código fuente de phpBB me di cuenta que había que hacer tantas modificaciones que no merecía la pena.

Para vuestra curiosidad, que os conste que por ejemplo cuando se usa el buscador en la página de un periódico (El País, El Mundo, Marca, Expansión...) la búsqueda no se lanza contra una base de datos, sino contra una herramienta estilo Lucene (en los casos anteriores Autonomy, lo sé porque quien esto escribe ha participado en su desarrollo)

Un saludo y a seguir bien

Publicado: Vie 12 Ene, 2007 17:58
por Jacob
Hola.

En Fileheaven están teniendo más de un problema con el cambio de servidor, pobrecillos. La búsqueda es, no sé si uno de ellos, porque ya lo venían arrastrando, creo, pero es un problema en cualquier caso (en buena parte por lo inútiles/poco inspirados que somos a veces los usuarios). También han propuesto allí usar Lucene, y Xapian. http://www.xapian.org/

Según mi experiencia personal (válida hasta que venga bscout con un par de estadísticas de tercer grado :mrgreen: ) la búsqueda funciona mejor aquí que en FH, pero nunca está de más proponer mejoras (aunque sean para el 2014 :p ).
(en los casos anteriores Autonomy, lo sé porque quien esto escribe ha participado en su desarrollo)
Jejeje. 8)

Edito: para enlazar este post en el hilo mentado de fileheaven, hilo que se titula "Ask not what FH can do for you.... ;-)". Muy interesante, sobre tipos de búsqueda y tal.