One place for hosting & domains

      строк

      Индексация и разделение строк в Python 3


      Введение

      Тип строки данных Python представляет собой последовательность, составленную из одного или нескольких отдельных символов, в том числе букв, чисел, пробелов или специальных символов. Поскольку строка представляет собой последовательность, к ней можно получить доступ посредством индексации и разделения, как и к другим типам данных на базе последовательностей.

      В этом учебном модуле вы узнаете, как получать доступ к строкам через индексацию, как разделять их через последовательности символов и как использовать методы подсчета и определения расположения символов.

      Индексация строк

      Как и тип данных списка, который содержит элементы, соответствующие индексу, строки также содержат символы, которым соответствуют индексы, начиная с 0.

      Для строки Sammy Shark! индекс выглядит следующим образом:

      SammyShark!
      01234567891011

      Как видите, первая S начинается с индекса 0, а заканчивается строка символом ! с индексом 11.

      Также отметим, что символу пробела между Sammy и Shark также соответствует собственный индекс. В данном случае пробелу соответствует индекс 5.

      Восклицательному знаку (!) также соответствует индекс. Все другие специальные символы и знаки препинания, в том числе *#$&. ;?, также являются символами и будут иметь свои индексы.

      Поскольку каждый символ в строке Python имеет свой индекс, мы можем получать доступ к строкам и совершать с ними манипуляции так же, как и с другими типами последовательных данных.

      Доступ к символам через положительный числовой индекс

      Используя ссылки на числовые индексы, мы можем изолировать один из символов в строке. Для этого мы поместим индекс в квадратные скобки. Давайте декларируем строку, выведем ее и вызовем индекс в квадратных скобках:

      ss = "Sammy Shark!"
      print(ss[4])
      

      Output

      y

      Когда мы ссылаемся на определенный числовой индекс строки, Python возвращает символ, находящийся на соответствующей позиции. Поскольку букве y соответствует индекс 4 строки ss = "Sammy Shark!", когда мы выводим ss[4], мы получаем y в качестве вывода.

      Числовые индексы позволяют получать доступ к определенным символам в строках.

      Доступ к символам через отрицательный индекс

      Если у нас имеется длинная строка, и мы хотим использовать символ ближе к концу строки, мы также можем использовать обратный отсчет от конца строки, начиная с индекса -1.

      Для той же строки Sammy Shark! отрицательная разбивка индекса выглядит следующим образом:

      SammyShark!
      -12-11-10-9-8-7-6-5-4-3-2-1

      Используя отрицательные индексы, мы можем вывести символ r, используя ссылку на его положение в индексе -3, как показано в следующей последовательности:

      print(ss[-3])
      

      Output

      r

      Использование отрицательных индексов может быть полезно для изоляции отдельных символов ближе к концу длинной строки.

      Разделение строк

      Также мы можем вызвать ряд символов из строки. Допустим, мы хотим вывести слово Shark. Для этого мы можем создать срез, представляющий собой последовательность символов в исходной строке. С помощью срезов мы можем вызывать несколько значений символов, создавая диапазоны символов, разделенные двоеточием [x:y]:

      print(ss[6:11])
      

      Output

      Shark

      При построении среза, такого как [6:11], первый индекс соответствует началу среза (включительно), а второй — окончанию среза (не включительно). Поэтому в нашем примере конец диапазона обозначается индексом позиции сразу после конца строки.

      При разделении строк на срезы мы создаем подстроки, то есть, строки внутри других строк. Вызывая ss[6:11], мы вызываем подстроку Shark, существующую в строке Sammy Shark!.

      Если мы хотим включить любой конец строки, мы можем пропустить одно из чисел в синтаксисе string[n:n]. Например, если нам нужно вывести первое слово строки ss — “Sammy”, мы можем сделать это так:

      print(ss[:5])
      

      Output

      Sammy

      Мы пропустили индекс перед двоеточием в синтаксисе среза и указали только индекс после двоеточия, обозначающий конец подстроки.

      Чтобы вывести подстроку, начинающуюся в середине строки и идущую до конца строки, мы можем указать только индекс перед двоеточием:

      print(ss[7:])
      

      Output

      hark!

      Если мы укажем только индекс перед двоеточием и не укажем второй индекс, подстрока будет идти от соответствующего первому индексу символа до конца строки.

      Для создания срезов также можно использовать отрицательные индексы. Как мы уже говорили раньше, отрицательные индексы строки начинаются с -1 и отсчитываются далее к началу строки. При использовании отрицательных индексов, мы начинаем с меньшего числа, потому что соответствующий ему символ идет раньше.

      Давайте используем два отрицательных индекса для создания среза строки ss:

      print(ss[-4:-1])
      

      Output

      ark

      Подстрока “ark” выводится из строки “Sammy Shark!”, потому что символ “a” соответствует индексу -4, а символ “k” находится перед позицией индекса -1.

      Определение шага при создании срезов строк

      В дополнение к двум индексам при создании срезов можно использовать третий параметр. Третий параметр указывает шаг, означающий, на сколько символов нужно сдвинуться после извлечения первого символа из строки. В предыдущих примерах мы не использовали параметр шага, а по умолчанию Python использует значение шага 1, выводя все символы между двумя индексами.

      Давайте снова посмотрим на пример выше, который выводит подстроку “Shark”:

      print(ss[6:11])
      

      Output

      Shark

      Мы можем получить те же результаты, добавив третий параметр шага со значением 1:

      print(ss[6:11:1])
      

      Output

      Shark

      Если шаг равен 1, выводятся все символы между двумя индексами среза. Если мы опустим параметр шага, Python будет по умолчанию использовать значение 1.

      Если же мы увеличим значение шага, некоторые символы будут пропущены:

      print(ss[0:12:2])
      

      Output

      SmySak

      Если мы зададим шаг 2 как последний параметр в синтаксисе Python ss[0:12:2], будет пропущен каждый второй символ. Выводимые символы обозначены красным цветом:

      Sammy Shark!

      Обратите внимание, что символ пробела с индексом 5 также пропускается, если задан шаг 2.

      Если мы используем более крупное значение шага, подстрока будет значительно короче:

      print(ss[0:12:4])
      

      Output

      Sya

      Если мы укажем шаг 4 как последний параметр синтаксиса Python ss[0:12:4], будет выведен только каждый четвертый символ. Выводимые символы также обозначены красным цветом:

      Sammy Shark!

      В этом примере символ пробела тоже пропускается.

      Поскольку мы выводим всю строку, мы можем опустить два индекса и оставить два двоеточия в синтаксисе, чтобы получить тот же результат:

      print(ss[::4])
      

      Output

      Sya

      Если мы пропустим два индекса и оставим запятые, мы включим в диапазон всю строку, а последний параметр будет определять шаг, то есть, количество пропускаемых символов.

      Также мы можем указать отрицательное значение шага и использовать его для вывода исходной строки в обратном порядке, если зададим шаг -1:

      print(ss[::-1])
      

      Output

      !krahS ymmaS

      Два двоеточия без параметров означают вывод всех символов первоначальной строки, шаг 1 означает вывод всех символов без пропуска, а отрицательное значение шага изменяет порядок вывода символов на противоположный.

      Давайте повторим эту команду, но используем шаг -2:

      print(ss[::-2])
      

      Output

      !rh ma

      В этом примере, ss[::-2], мы включаем в диапазон всю первоначальную строку, поскольку индексы не указаны, и задаем обратный порядок вывода отрицательным значением шага. Кроме того, с шагом -2 мы пропускаем каждую вторую букву строки, выводимой в обратном порядке:

      ! krahS[пробел]ymmaS

      В этом примере выводится символ пробела.

      Задавая третий параметр синтаксиса среза Python, мы указываем шаг подстроки, которую извлекаем из первоначальной строки.

      Методы подсчета

      Когда мы говорим об индексах символов в строках, стоит упомянуть о некоторых методах подсчета строк или вывода индексов. Это может быть полезно для того, чтобы ограничить количество символов, которые мы хотим включить в форму ввода, или чтобы сравнивать строки. Для подсчета строк, как и других символов последовательных данных, можно использовать несколько методов.

      Вначале мы рассмотрим метод len(), который поможет определить длину любого типа данных упорядоченной или неупорядоченной последовательности, включая строки, списки, кортежи и словари.

      Давайте выведем длину строки ss:

      print(len(ss))
      

      Output

      12

      Длина строки “Sammy Shark!” составляет 12 символов, включая символ пробела и символ восклицательного знака.

      Вместо использования переменной мы также можем передать строку прямо в метод len():

      print(len("Let's print the length of this string."))
      

      Output

      38

      Метод len() подсчитывает общее количество символов в строке.

      Если нам нужно подсчитать, сколько раз в строке встречается определенный символ или последовательность символов, мы можем использовать метод str.count(). Давайте возьмем нашу строку ss = "Sammy Shark!" и подсчитаем, сколько раз в ней встречается символ “a”:

      print(ss.count("a"))
      

      Output

      2

      Мы можем поискать и другой символ:

      print(ss.count("s"))
      

      Output

      0

      Хотя в строке есть буква “S”, важно понимать, что при подсчете учитывается регистр. Если мы хотим найти все буквы в строке независимо от регистра, мы можем использовать метод str.lower(), чтобы предварительно конвертировать все символы строки в нижний регистр. Вы можете узнать больше об этом методе в учебном модуле Введение в методы строк в Python 3.

      Давайте попробуем использовать str.count() с последовательностью символов:

      likes = "Sammy likes to swim in the ocean, likes to spin up servers, and likes to smile."
      print(likes.count("likes"))
      

      Output

      3

      В строке likes последовательность символов, эквивалентная “likes”, встречается в исходной строке 3 раза.

      Также мы можем определить позицию символа или последовательности символов в строке. Для этого мы можем использовать метод str.find(), который выводит позицию символа на базе номера индекса.

      Мы можем посмотреть, где появляется первый символ “m” в строке ss:

      print(ss.find("m"))
      

      Ouput

      2

      Первый символ “m” появляется в строке “Sammy Shark!” на позиции с индексом 2. Мы можем проверить позиции индекса в строке ss выше.

      Давайте посмотрим, где встречается первая последовательность символов “likes” в строке likes:

      print(likes.find("likes"))
      

      Ouput

      6

      Первый экземпляр последовательности символов “likes” начинается с индекса 6, соответствующего позиции символа l в последовательности likes.

      Что делать, если, если мы хотим увидеть, где начинается вторая последовательность “likes”? Для этого мы можем передать второй параметр в метод str.find(), который будет начинаться с конкретного индекса. Вместо того, чтобы начинать с начала строки, начнем с индекса 9:

      print(likes.find("likes", 9))
      

      Output

      34

      Во втором примере, который начинается с индекса 9, первая последовательность символов “likes” начинается с индекса 34.

      Также мы можем указать в качестве третьего параметра конец диапазона. Как и в случае со срезами, мы можем использовать обратный отсчет, указав отрицательный индекс:

      print(likes.find("likes", 40, -6))
      

      Output

      64

      В последнем примере мы ищем позицию последовательности “likes” между индексами 40 и -6. Поскольку последний параметр отрицательный, отсчет выполняется с конца первоначальной строки.

      Методы строки len(), str.count() и str.find() можно использовать для определения длины, количества символов или последовательностей символов и индексов символов или последовательностей символов в строках.

      Заключение

      Возможность вызова определенных индексов строк или конкретного среза строки дает дополнительную гибкость при работе с этим типом данных. Поскольку строки относятся к последовательному типу данных, как списки и кортежи, для доступа к ним можно использовать индексы и срезы.

      Чтобы продолжить изучение строк, вы можете прочитать дополнительные материалы по форматированию строк и методам строк.



      Source link

      Форматирование строк в Go


      Строки часто состоят из текста, и нам нужно контролировать читаемость этих строк посредством пунктуации, разрывов строк и отступов.

      В этом обучающем модуле мы рассмотрим несколько способов работы со строками Go, призванных обеспечить правильность форматирования всего выводимого текста.

      Литерали строк

      Вначале определим разницу между литералями строк и значениями строк. Литераль строк — это то, что мы видим в исходном коде компьютерной программы, включая кавычки. Значение строки — это то, что мы видим, когда вызываем функцию fmt.Println и запускаем программу.

      В простой программе Hello, World! литераль строки будет выглядеть как "Hello, World!", а значением строки будет Hello, World! без кавычек. Значение строки — это то, что мы видим в окне терминала после запуска программы Go.

      Однако для некоторых значений строк могут требоваться кавычки, в частности в случае с цитатами. Поскольку литерали строк и значения строк не эквивалентны, часто требуется добавлять в литерали строк дополнительное форматирование, чтобы значения строк отображались ожидаемым образом.

      Кавычки

      В Go можно использовать одинарные кавычки (`) или двойные кавычки ("), поэтому мы можем легко вставлять цитаты в строку, выделяя их двойными кавычками, в то время как сама строка выделена одинарными кавычками:

      `Sammy says, "Hello!"`
      

      Также вы можете использовать одинарные кавычки и заключить строку в двойные кавычки:

      "Sammy likes the `fmt` package for formatting strings.."
      

      Кроме того, комбинирование одинарных и двойных кавычек позволяет контролировать отображение символов кавычек и одинарных кавычек в строках.

      Важно помнить, что при использовании одинарных кавычек в Go создается чистая литераль строки, а при использовании двойных кавычек — интерпретированная литераль строки. Чтобы узнать больше о разнице между ними, ознакомьтесь с руководством Введение в работу со строками в Go.

      Символы перехода

      Также для форматирования строк используются символы перехода. Символы перехода интерпретируются кодом как наличие особого значения у следующего за ними символа. Символы перехода начинаются с обратной косой черты (), за которой идет другой символ строки, в результате чего строка имеет определенный формат.

      Далее приведен перечень нескольких распространенных символов перехода:

      Символ переходаФормат
      Обратная косая черта
      Двойные кавычки
      nРазрыв строки
      tТабуляция (горизонтальный отступ)

      Используем символ перехода, чтобы добавить символы кавычек в приведенный выше пример, при этом сейчас мы используем двойные кавычки для обозначения строки:

      fmt.Println("Sammy says, "Hello!"")
      

      Output

      Sammy says, "Hello!"

      С помощью символа перехода " мы можем использовать двойные кавычки, чтобы заключить строку с текстом в двойные кавычки.

      Символ перехода n можно использовать для разрыва строк без нажатия клавиши Enter (Return):

      fmt.Println("This stringnspans multiplenlines.")
      

      Output

      This string spans multiple lines.

      Символы перехода при желании можно комбинировать. Например, мы можем вывести список позиций, напечатав строку из нескольких рядов и добавив разделители в виде табуляции:

      fmt.Println("1.tSharkn2.tShrimpn10.tSquid")
      

      Output

      1. Shark 2. Shrimp 10. Squid

      Горизонтальные отступы, создаваемые за счет символа перехода t, обеспечивают выравнивание со вторым столбцом в предыдущем примере, что делает выводимый текст удобным для чтения.

      Символы перехода используются для добавления в строки дополнительного форматирования, которого иным образом достичь сложно или невозможно. Без символов перехода вы не сможете построить строку Сэмми говорит: "Мне нравится использовать пакет `fmt`".

      Многострочная печать

      Многострочная печать строк делает текст более удобным для чтения. Размещение строк в нескольких рядах делает текст более понятным и упорядоченным, позволяет форматировать его как письмо или сохранить разрывы строк в стихотворении или тексте песни.

      Для создания строк, отображаемых на нескольких рядах, их нужно заключить в одинарные кавычки. Помните, что хотя при этом сохраняются символы возврата строки, создаваться будут чистые литерали строки.

      `
      This string is on
      multiple lines
      within three single
      quotes on either side.
      `
      

      Если вы распечатаете этот текст, вы увидите, что символ возврата имеется в начале и в конце строки:

      Output

      This string is on multiple lines within three single quotes on either side.

      Во избежание этого следует поместить первый ряд сразу же за одинарной кавычкой и закончить последний ряд одинарной кавычкой.

      `This string is on
      multiple lines
      within three single
      quotes on either side.`
      

      Если вам нужно создать интерпретированную литераль строки, вы можете использовать двойные кавычки и оператор +, но при этом вам нужно будет самостоятельно вставлять символы разрыва строки между рядами.

      "This string is onn" +
      "multiple linesn" +
      "within three singlen" +
      "quotes on either side."
      

      Хотя с обратными кавычками намного проще распечатывать и читать длинный текст, если вам требуется интерпретированная литераль строки, вам нужно использовать двойные кавычки.

      Чистые литерали строк

      Что, если нам не нужно особое форматирование строк? Например, нам может понадобиться сравнить или оценить несколько строк программного кода, где целенаправленно используется символ обратной косой черты, так что мы не хотим, чтобы Go использовал этот символ как символ перехода.

      Чистая литераль строки указывает Go игнорировать все форматирование строки, включая символы перехода.

      Мы можем создать чистую строку, заключив строку в одинарные кавычки:

      fmt.Println(`Sammy says,"The balloon's color is red."`)
      

      Output

      Sammy says,"The balloon's color is red."

      Построение чистой строки с помощью одинарных кавычек вокруг нее позволяет сохранить в тексте символы обратной косой черты и другие символы, которые используются в качестве символов перехода.

      Заключение

      В этом руководстве мы рассмотрели несколько способов форматирования текста в Go при работе со строками. Используя символы перехода и чистые строки, мы можем обеспечить правильный вывод текста на экране, чтобы конечный пользователь мог легко его прочитать.



      Source link