the
guests
arrived;
then,
Это слова невозможно найти в словаре: “planned,” и “arrived;” — это вообще не слова. Это набор букв, состоящий из слов, к которым присоединены лишние и не относящиеся к делу знаки пунктуации. В большинстве случаев мы должны рассматривать знаки пунктуации как разделители. Как же избавиться от этих знаков пунктуации? Мы могли бы считать символы, удалить знаки пунктуации или преобразовать их в пробелы, а затем ввести “очищенные” данные снова.
string line;
getline(cin,line); // вводим строку line
for (int i=0; i<line.size(); ++i) // заменяем знаки пунктуации
// пробелами
switch(line[i]) {
case ';': case '.': case ',': case '?': case '!':
line[i] = ' ';
}
stringstream ss(line); // создаем поток istream ss, вводя в него
// строку line
vector<string> vs;
string word;
while (ss>>word) // считываем слова без знаков пунктуации
vs.push_back(word);
Применив такой способ, получаем желаемый результат.
As
planned
the
guests
arrived
then
К сожалению, этот код слишком сложен и излишне специализирован. А что делать, если знаки пунктуации определены иначе? Опишем более общий и полезный способ удаления нежелательных символов из потока ввода. Как должен выглядеть этот поток? Как должен выглядеть наш код? Может быть, так?
ps.whitespace(";:,."); // точка с запятой, двоеточие, запятая и точка
// считаются разделителями
string word;
while (ps>>word) vs.push_back(word);
Как определить поток, работающий так, как поток
ps
? Основная идея заключается в том, чтобы считывать слова в обычный поток ввода, а затем обрабатывать символы-разделители, заданные пользователем, как настоящие разделители, т.е. не передавать разделители пользователю, а просто использовать их для отделения слов друг от друга. Рассмотрим пример.
as.not
Слова
as
и
not
должны быть двумя самостоятельными словами
as
not
Для того чтобы сделать это, можно определить класс. Он должен принимать символы из потока
istream
и содержать оператор
>>
, работающий так же, как оператор ввода потока
istream
, за исключением того, что мы сами можем указывать, какие символы являются разделителями. Для простоты будем считать существующие символы-разделители (пробел, символ перехода на новую строку и т.д.) обычными символами; мы просто позволим пользователю указать дополнительные разделители. Кроме того, мы не будем удалять указанные символы из потока; как и прежде, мы превратим их в разделители. Назовем наш класс
Punct_stream
.
class Punct_stream { // аналогичен потоку istream, но пользователь
// может самостоятельно задавать разделители
public:
Punct_stream(istream& is)
:source(is), sensitive(true) { }
void whitespace(const string& s) // создает строку
// разделителей s
{ white = s; }
void add_white(char c) { white += c; } // добавляет символ
// в набор разделителей
bool is_whitespace(char c); // является ли c набором
// разделителей?
void case_sensitive(bool b) { sensitive = b; }
bool is_case_sensitive() { return sensitive; }
Punct_stream& operator>>(string& s);
operator bool();
private:
istream& source; // источник символов
istringstream buffer; // буфер для форматирования
string white; // символы–разделители
bool sensitive; // является ли поток чувствительным
// к регистру?
};
Как и в предыдущем примере, основная идея — ввести строку из потока
istream
как одно целое, преобразовать символы-разделители в пробелы, а затем использовать поток
istringstream
для форматирования. Кроме обработки разделителей, заданных пользователем, в классе
Punct_stream
есть аналогичная возможность: если вызвать функцию
case_sensitive()
, то она преобразует ввод, чувствительный к регистру, в нечувствительный.
Например, можно приказать объекту класса
Punct_stream
прочитать строку
Man bites dog!
как
man
bites
dog
Конструктор класса
Punct_stream
получает поток
istream
, используемый как источник символов, и присваивает ему локальное имя
source
. Кроме того, конструктор по умолчанию делает поток чувствительным к регистру, как обычно. Можно создать объект класса
Punct_stream
, считывающий данные из потока
cin
, рассматривающий точку с запятой, двоеточие и точку как разделители, а также переводящий все символы в нижний регистр.