hashed.cpp 4.0 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124
  1. /* Boost.MultiIndex example of use of hashed indices.
  2. *
  3. * Copyright 2003-2008 Joaquin M Lopez Munoz.
  4. * Distributed under the Boost Software License, Version 1.0.
  5. * (See accompanying file LICENSE_1_0.txt or copy at
  6. * http://www.boost.org/LICENSE_1_0.txt)
  7. *
  8. * See http://www.boost.org/libs/multi_index for library home page.
  9. */
  10. #if !defined(NDEBUG)
  11. #define BOOST_MULTI_INDEX_ENABLE_INVARIANT_CHECKING
  12. #define BOOST_MULTI_INDEX_ENABLE_SAFE_MODE
  13. #endif
  14. #include <boost/multi_index_container.hpp>
  15. #include <boost/multi_index/hashed_index.hpp>
  16. #include <boost/multi_index/member.hpp>
  17. #include <boost/multi_index/ordered_index.hpp>
  18. #include <boost/tokenizer.hpp>
  19. #include <iomanip>
  20. #include <iostream>
  21. #include <string>
  22. using boost::multi_index_container;
  23. using namespace boost::multi_index;
  24. /* word_counter keeps the ocurrences of words inserted. A hashed
  25. * index allows for fast checking of preexisting entries.
  26. */
  27. struct word_counter_entry
  28. {
  29. std::string word;
  30. unsigned int occurrences;
  31. word_counter_entry(std::string word_):word(word_),occurrences(0){}
  32. };
  33. /* see Compiler specifics: Use of member_offset for info on
  34. * BOOST_MULTI_INDEX_MEMBER
  35. */
  36. typedef multi_index_container<
  37. word_counter_entry,
  38. indexed_by<
  39. ordered_non_unique<
  40. BOOST_MULTI_INDEX_MEMBER(word_counter_entry,unsigned int,occurrences),
  41. std::greater<unsigned int> /* sorted beginning with most frequent */
  42. >,
  43. hashed_unique<
  44. BOOST_MULTI_INDEX_MEMBER(word_counter_entry,std::string,word)
  45. >
  46. >
  47. > word_counter;
  48. /* utilities */
  49. template<typename T>
  50. struct increment
  51. {
  52. void operator()(T& x)const{++x;}
  53. };
  54. typedef boost::tokenizer<boost::char_separator<char> > text_tokenizer;
  55. int main()
  56. {
  57. /* boostinspect:noascii */
  58. std::string text=
  59. "En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha "
  60. "mucho tiempo que vivía un hidalgo de los de lanza en astillero, adarga "
  61. "antigua, rocín flaco y galgo corredor. Una olla de algo más vaca que "
  62. "carnero, salpicón las más noches, duelos y quebrantos los sábados, "
  63. "lantejas los viernes, algún palomino de añadidura los domingos, "
  64. "consumían las tres partes de su hacienda. El resto della concluían sayo "
  65. "de velarte, calzas de velludo para las fiestas, con sus pantuflos de lo "
  66. "mesmo, y los días de entresemana se honraba con su vellorí de lo más "
  67. "fino. Tenía en su casa una ama que pasaba de los cuarenta, y una "
  68. "sobrina que no llegaba a los veinte, y un mozo de campo y plaza, que "
  69. "así ensillaba el rocín como tomaba la podadera. Frisaba la edad de "
  70. "nuestro hidalgo con los cincuenta años; era de complexión recia, seco "
  71. "de carnes, enjuto de rostro, gran madrugador y amigo de la caza. "
  72. "Quieren decir que tenía el sobrenombre de Quijada, o Quesada, que en "
  73. "esto hay alguna diferencia en los autores que deste caso escriben; "
  74. "aunque, por conjeturas verosímiles, se deja entender que se llamaba "
  75. "Quejana. Pero esto importa poco a nuestro cuento; basta que en la "
  76. "narración dél no se salga un punto de la verdad.";
  77. /* feed the text into the container */
  78. word_counter wc;
  79. text_tokenizer tok(text,boost::char_separator<char>(" \t\n.,;:!?'\"-"));
  80. unsigned int total_occurrences=0;
  81. for(text_tokenizer::iterator it=tok.begin(),it_end=tok.end();
  82. it!=it_end;++it){
  83. /* Insert the word into the container. If duplicate, wit will point to
  84. * the preexistent entry.
  85. */
  86. ++total_occurrences;
  87. word_counter::iterator wit=wc.insert(*it).first;
  88. /* Increment occurrences.
  89. * In a lambda-capable compiler, this can be written as:
  90. * wc.modify_key(wit,++_1);
  91. */
  92. wc.modify_key(wit,increment<unsigned int>());
  93. }
  94. /* list words by frequency of appearance */
  95. std::cout<<std::fixed<<std::setprecision(2);
  96. for(word_counter::iterator wit=wc.begin(),wit_end=wc.end();
  97. wit!=wit_end;++wit){
  98. std::cout<<std::setw(11)<<wit->word<<": "
  99. <<std::setw(5) <<100.0*wit->occurrences/total_occurrences<<"%"
  100. <<std::endl;
  101. }
  102. return 0;
  103. }