Литмир - Электронная Библиотека
A
A

the

guests

arrived;

then,

Это слова невозможно найти в словаре: “planned,” и “arrived;” — это вообще не слова. Это набор букв, состоящий из слов, к которым присоединены лишние и не относящиеся к делу знаки пунктуации. В большинстве случаев мы должны рассматривать знаки пунктуации как разделители. Как же избавиться от этих знаков пунктуации? Мы могли бы считать символы, удалить знаки пунктуации или преобразовать их в пробелы, а затем ввести “очищенные” данные снова.

string line;

getline(cin,line);                // вводим строку line

for (int i=0; i<line.size(); ++i) // заменяем знаки пунктуации

                                  // пробелами

  switch(line[i]) {

  case ';': case '.': case ',': case '?': case '!':

    line[i] = ' ';

  }

stringstream ss(line); // создаем поток istream ss, вводя в него

                       // строку line

vector<string> vs;

string word;

while (ss>>word)       // считываем слова без знаков пунктуации

  vs.push_back(word);

Применив такой способ, получаем желаемый результат.

As

planned

the

guests

arrived

then

К сожалению, этот код слишком сложен и излишне специализирован. А что делать, если знаки пунктуации определены иначе? Опишем более общий и полезный способ удаления нежелательных символов из потока ввода. Как должен выглядеть этот поток? Как должен выглядеть наш код? Может быть, так?

ps.whitespace(";:,."); // точка с запятой, двоеточие, запятая и точка

                       // считаются разделителями

string word;

while (ps>>word) vs.push_back(word);

Как определить поток, работающий так, как поток

ps
? Основная идея заключается в том, чтобы считывать слова в обычный поток ввода, а затем обрабатывать символы-разделители, заданные пользователем, как настоящие разделители, т.е. не передавать разделители пользователю, а просто использовать их для отделения слов друг от друга. Рассмотрим пример.

as.not

Слова

as
и
not
должны быть двумя самостоятельными словами

as

not

Для того чтобы сделать это, можно определить класс. Он должен принимать символы из потока

istream
и содержать оператор
>>
, работающий так же, как оператор ввода потока
istream
, за исключением того, что мы сами можем указывать, какие символы являются разделителями. Для простоты будем считать существующие символы-разделители (пробел, символ перехода на новую строку и т.д.) обычными символами; мы просто позволим пользователю указать дополнительные разделители. Кроме того, мы не будем удалять указанные символы из потока; как и прежде, мы превратим их в разделители. Назовем наш класс
Punct_stream
.

class Punct_stream { // аналогичен потоку istream, но пользователь

                     // может самостоятельно задавать разделители

public:

  Punct_stream(istream& is)

      :source(is), sensitive(true) { }

  void whitespace(const string& s) // создает строку

                                   // разделителей s

  { white = s; }

  void add_white(char c) { white += c; } // добавляет символ

                                         // в набор разделителей

  bool is_whitespace(char c); // является ли c набором

                              // разделителей?

  void case_sensitive(bool b) { sensitive = b; }

  bool is_case_sensitive() { return sensitive; }

  Punct_stream& operator>>(string& s);

  operator bool();

private:

  istream& source;      // источник символов

  istringstream buffer; // буфер для форматирования

  string white;         // символы–разделители

  bool sensitive;       // является ли поток чувствительным

                        // к регистру?

};

Как и в предыдущем примере, основная идея — ввести строку из потока

istream
как одно целое, преобразовать символы-разделители в пробелы, а затем использовать поток
istringstream
для форматирования. Кроме обработки разделителей, заданных пользователем, в классе
Punct_stream
есть аналогичная возможность: если вызвать функцию
case_sensitive()
, то она преобразует ввод, чувствительный к регистру, в нечувствительный.

Например, можно приказать объекту класса

Punct_stream
прочитать строку

Man bites dog!

как

man

bites

dog

Конструктор класса

Punct_stream
получает поток
istream
, используемый как источник символов, и присваивает ему локальное имя
source
. Кроме того, конструктор по умолчанию делает поток чувствительным к регистру, как обычно. Можно создать объект класса
Punct_stream
, считывающий данные из потока
cin
, рассматривающий точку с запятой, двоеточие и точку как разделители, а также переводящий все символы в нижний регистр.

162
{"b":"847443","o":1}