Делаем свой укорачиватель длинных адресов URL


Наверняка вам встречались адреса URL ссылок на различные ресурсы в записях Twitter или Facebook? составленные с использованием сервисов bit.ly или t.co. Такие сервисы предоставляют короткие псевдонимы для ссылок на страницы с длинными адресами URL. Например, вот псевдоним http://bit.ly/SaaYw5, который соответствует очень длинному URL на результат поиска в Google (тема: как погладить рубашку). Передать 20 символьную ссылку с bit.ly гораздо проще. В данном уроке мы разберемся, как сделать полноценный функционал создания коротких псевдонимов адресов URL для вашего веб сайта. Если у вас есть система управления сайтом, то мы разберемся, как легко интегрировать новые функции без глубинного копания в коде. Ответы на общие вопросы Итак, кроме bit.ly существует множество подобных бесплатных сервисов, так зачем же делать свой собственный? Большинство таких сервисов даже имеют простые в использовании API, что позволяет программно генерировать короткие URL и использовать их в собственных скриптах PHP. Наиболее побудительные мотивы - удобство, эстетичность и распознавание бренда. Например, если ваш сайт содержит приложение, которое создает большое количество отчетов, блог с высокой активностью или огромную коллекцию изображений, то на него может существовать большое количество ссылок. Укорачиватель адресов URL позволит программно создавать простые и четкие ссылки, которые будет легко переправлять по почте читателям или публиковать на сайте. Очевидным преимуществом такого решения будет быстрое и четкое выделение вашего бренда у посетителей сайта. Может быть, вас удивляет смесь из букв и цифр, которая присутствует в коротких адресах URL. Использование большего числа опций, чем десять цифр (0-9) для символа ссылки существенно увеличивает число возможных комбинаций и сохраняет код более коротким. У нас для формирования адресов будут использоваться цифры и символы в обычном и заглавном написании. Из набора удаляем гласные (чтобы исключить формирование неприличных слов) и символы, которые похожи друг на друга. В итоге получается набор из 50 символов для каждой позиции, что дает для 2 символов адреса 2500 различных комбинаций, для 3-ч - 125000 и колоссальное число 6.5 миллионов всего лишь для 4-х символов адреса. Планируем базу данных Будем использовать таблицу short_urls. Это простая таблица, которую можно создать с помощью ниже приведенного выражения: 01 CREATE TABLE IF NOT EXISTS short_urls ( 02 id INTEGER UNSIGNED NOT NULL AUTO_INCREMENT, 03 long_url VARCHAR(255) NOT NULL, 04 short_code VARBINARY(6) NOT NULL, 05 date_created INTEGER UNSIGNED NOT NULL, 06 counter INTEGER UNSIGNED NOT NULL DEFAULT '0', 07 08 PRIMARY KEY (id), 09 KEY short_code (short_code) 10 ) 11 ENGINE=InnoDB; У нас будет стандартный ключ с автоматическим инкрементом и поля для полного адреса URL, короткого кода для адреса URL (индексируем его для быстрого доступа), времени создания псевдонима и количества обращений к короткому псевдониму. Обратите внимание, что поле long_url имеет максимальную длину в 255 символов, что должно хватить для большинства приложений. Если вам потребуется хранить более длинные адреса URL, то тип поля следует изменить на TEXT. Приступим к кодированию на PHP! Создаем короткий код для адреса URL Код для создания и декодирования коротких кодов URL будет в классе ShortUrl. Сначала рассмотрим часть, ответственную за создание коротких кодов: 001 <?php 002 class ShortUrl 003 { 004 protected static $chars = "123456789bcdfghjkmnpqrstvwxyzBCDFGHJKLMNPQRSTVWXYZ"; 005 protected static $table = "short_urls"; 006 protected static $checkUrlExists = true; 007 008 protected $pdo; 009 protected $timestamp; 010 011 public function __construct(PDO $pdo) { 012 $this->pdo = $pdo; 013 $this->timestamp = $_SERVER["REQUEST_TIME"]; 014 } 015 016 public function urlToShortCode($url) { 017 if (empty($url)) { 018 throw new \Exception("Не получен адрес URL."); 019 } 020 021 if ($this->validateUrlFormat($url) == false) { 022 throw new \Exception( 023 "Адрес URL имеет неправильный формат."); 024 } 025 026 if (self::$checkUrlExists) { 027 if (!$this->verifyUrlExists($url)) { 028 throw new \Exception( 029 "Адрес URL не существует."); 030 } 031 } 032 033 $shortCode = $this->urlExistsInDb($url); 034 if ($shortCode == false) { 035 $shortCode = $this->createShortCode($url); 036 } 037 038 return $shortCode; 039 } 040 041 protected function validateUrlFormat($url) { 042 return filter_var($url, FILTER_VALIDATE_URL, 043 FILTER_FLAG_HOST_REQUIRED); 044 } 045 046 protected function verifyUrlExists($url) { 047 $ch = curl_init(); 048 curl_setopt($ch, CURLOPT_URL, $url); 049 curl_setopt($ch, CURLOPT_NOBODY, true); 050 curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); 051 curl_exec($ch); 052 $response = curl_getinfo($ch, CURLINFO_HTTP_CODE); 053 curl_close($ch); 054 055 return (!empty($response) && $response != 404); 056 } 057 058 protected function urlExistsInDb($url) { 059 $query = "SELECT short_code FROM " . self::$table . 060 " WHERE long_url = :long_url LIMIT 1"; 061 $stmt = $this->pdo->prepare($query); 062 $params = array( 063 "long_url" => $url 064 ); 065 $stmt->execute($params); 066 067 $result = $stmt->fetch(); 068 return (empty($result)) ? false : $result["short_code"]; 069 } 070 071 protected function createShortCode($url) { 072 $id = $this->insertUrlInDb($url); 073 $shortCode = $this->convertIntToShortCode($id); 074 $this->insertShortCodeInDb($id, $shortCode); 075 return $shortCode; 076 } 077 078 protected function insertUrlInDb($url) { 079 $query = "INSERT INTO " . self::$table . 080 " (long_url, date_created) " . 081 " VALUES (:long_url, :timestamp)"; 082 $stmnt = $this->pdo->prepare($query); 083 $params = array( 084 "long_url" => $url, 085 "timestamp" => $this->timestamp 086 ); 087 $stmnt->execute($params); 088 089 return $this->pdo->lastInsertId(); 090 } 091 092 protected function convertIntToShortCode($id) { 093 $id = intval($id); 094 if ($id < 1) { 095 throw new \Exception( 096 "ID не является некорректным целым числом."); 097 } 098 099 $length = strlen(self::$chars); 100 // Проверяем, что длина строки 101 // больше минимума - она должна быть 102 // больше 10 символов 103 if ($length < 10) { 104 throw new \Exception("Длина строки мала"); 105 } 106 107 $code = ""; 108 while ($id > $length - 1) { 109 // Определяем значение следующего символа 110 // в коде и подготавливаем его 111 $code = self::$chars[fmod($id, $length)] . 112 $code; 113 // Сбрасываем $id до оставшегося значения для конвертации 114 $id = floor($id / $length); 115 } 116 117 // Оставшееся значение $id меньше, чем 118 // длина self::$chars 119 $code = self::$chars[$id] . $code; 120 121 return $code; 122 } 123 124 protected function insertShortCodeInDb($id, $code) { 125 if ($id == null || $code == null) { 126 throw new \Exception("Параметры ввода неправильные."); 127 } 128 $query = "UPDATE " . self::$table . 129 " SET short_code = :short_code WHERE id = :id"; 130 $stmnt = $this->pdo->prepare($query); 131 $params = array( 132 "short_code" => $code, 133 "id" => $id 134 ); 135 $stmnt->execute($params); 136 137 if ($stmnt->rowCount() < 1) { 138 throw new \Exception( 139 "Строка не обновляется коротким кодом."); 140 } 141 142 return true; 143 } 144 ... При реализации нашего класса ShortUrl мы передаем ему экземпляр объекта PDO. Конструктор сохраняет данную ссылку и устанавливает $timestamp. Мы вызываем метод urlToShortCode() и передаем в него длинный адрес URL, который надо заменить коротким псевдонимом. Метод выполняет все действия, необходимые для создания короткого кода. urlToShortCode() вызывает validateUrlFormat(), где используется фильтр PHP для проверки правильности адреса URL. Если статическая переменная $checkUrlExists имеет значение true, вызывается verifyUrlExists(), где используется cURL для соединения с адресом URL и проверки, что не возвращается ошибка 404. Также можно проверить наличие статуса 200 (OK), но он устанавливается, если адрес возвращает код 301 (перемещено) или 401 (нет доступа). Нет смысла хранить повторяющиеся значения, поэтому производим проверку функцией urlExistsInDb(), которая опрашивает базу данных на предмет наличия в ней длинного адреса URL. Если он уже есть в базе данных, то функция возвращает соответствующий короткий код. Иначе возвращается значение false, чтобы мы могли создать короткий код. Обратите внимание, что http://www.example.com и http://example.com являются разными адресами URL, поэтому, если вам нужно предотвратить подобного рода повторения, следует использовать регулярные выражения. createShortCode() предает следующие задачи соответствующим методам: insertUrlInDb() для вставки длинного адреса URL в базу данных и возвращения ID новой строки. convertIntToShortCode() для конвертации ID новой строки в короткий код. insertShortCodeInDb() для обновления новой строки созданным коротким кодом. Когда нужно создать короткий код для адреса URL, мы создаем экземпляр класса, передаем конструктору экземпляр PDO, вызываем метод urlToShortCode() с длинным адресом URL, добавляем полученный короткий код к имени домена и передаем полученный результат запрашивающему контроллеру. 01 <?php 02 include "../include/config.php"; 03 include "../include/ShortUrl.php"; 04 05 try { 06 $pdo = new PDO(DB_PDODRIVER . ":host=" . DB_HOST . 07 ";dbname=" . DB_DATABASE, 08 DB_USERNAME, DB_PASSWORD); 09 } 10 catch (\PDOException $e) { 11 trigger_error("Ошибка: не могу установить соединение с базой данных."); 12 exit; 13 } 14 15 $shortUrl = new ShortUrl($pdo); 16 try { 17 $code = $shortUrl->urlToShortCode($_POST["url"]); 18 printf('<p><strong>Короткий URL:</strong> <a href="%s">%1$s</a></p>', 19 SHORTURL_PREFIX . $code); 20 exit; 21 } 22 catch (\Exception $e) { 23 // Записываем в журнал ошибку и перенаправляем на страницу. 24 header("Location: /error"); 25 exit; 26 } Преобразуем короткий код Код для декодирования короткого кода и получения длинного адреса URL также является частью класса ShortUrl. Мы вызываем метод shortCodeToUrl() и передаем ему короткий код, извлеченный из адреса URI. shortCodeToUrl() также принимает опциональный параметр $increment, который по умолчанию имеет значение true. Затем происходит следующее: validateShortCodeFormat() выполняет проверку, что короткий код содержит только символы и числа. getUrlFromDb() запрашивает базу данных с полученным коротким кодом и возвращает поля id, long_url, и counter. Если параметр $increment имеет значение true, вызывается метод incrementCounter() для увеличения счетчика обращений к короткому коду. Вот остальной код класса: 01 ... 02 public function shortCodeToUrl($code, $increment = true) { 03 if (empty($code)) { 04 throw new \Exception("Не задан короткий код."); 05 } 06 07 if ($this->validateShortCode($code) == false) { 08 throw new \Exception( 09 "Короткий код имеет неправильный формат."); 10 } 11 12 $urlRow = $this->getUrlFromDb($code); 13 if (empty($urlRow)) { 14 throw new \Exception( 15 "Короткий код не содержится в базе."); 16 } 17 18 if ($increment == true) { 19 $this->incrementCounter($urlRow["id"]); 20 } 21 22 return $urlRow["long_url"]; 23 } 24 25 protected function validateShortCode($code) { 26 return preg_match("|[" . self::$chars . "]+|", $code); 27 } 28 29 protected function getUrlFromDb($code) { 30 $query = "SELECT id, long_url FROM " . self::$table . 31 " WHERE short_code = :short_code LIMIT 1"; 32 $stmt = $this->pdo->prepare($query); 33 $params=array( 34 "short_code" => $code 35 ); 36 $stmt->execute($params); 37 38 $result = $stmt->fetch(); 39 return (empty($result)) ? false : $result; 40 } 41 42 protected function incrementCounter($id) { 43 $query = "UPDATE " . self::$table . 44 " SET counter = counter + 1 WHERE id = :id"; 45 $stmt = $this->pdo->prepare($query); 46 $params = array( 47 "id" => $id 48 ); 49 $stmt->execute($params); 50 } 51 } Собираем все вместе Построение контроллера или встраивание функционала в имеющийся пакет выходит за рамки нашего урока. Вся логика нашего проекта помещается в файл с именем r.php (r - от слова redirect). Можно использовать короткие коды адресов URL по примеру http://example.com/r/X4c, где r.php (или r/index.php, в зависимости от дизайна вашего проекта) будет контроллером. Такой формат легко встроить практически в любую систему без затрагивания существующего контроллера. Преимуществом такого подхода является возможность организовать различные контроллеры для различных частей сайта с помощью использования разных таблиц для формирования максимально коротких кодов. Например, http://example.com/b/ можно использовать для блога, а http://example.com/i/ для изображений. Если вы не используете контроллер или систему управления содержанием, то можно применить формат http://example.com/r?c=X4c, где r/index.php содержит декодирующий скрипт. Файл r.php может выглядеть так: 01 <?php 02 include "../include/config.php"; 03 include "../include/ShortUrl.php"; 04 05 // Как вы получаете короткий код? 06 07 // Из CMS или контроллера с помощью формата URL наподобие 08 // http://.example.com/r/X4c 09 // $code = $uri_data[1]; 10 11 // Из строки запроса с помощью формат URL наподобие 12 // http://example.com/r?c=X4c, где файл index.php находится 13 // в папке http_root/r/index.php 14 $code = $_GET["c"]; 15 16 try { 17 $pdo = new PDO(DB_PDODRIVER . ":host=" . DB_HOST . 18 ";dbname=" . DB_DATABASE, 19 DB_USERNAME, DB_PASSWORD); 20 } 21 catch (\PDOException $e) { 22 trigger_error("Ошибка: не могу соединится с базой данных."); 23 exit; 24 } 25 26 $shortUrl = new ShortUrl($pdo); 27 try { 28 $url = $shortUrl->shortCodeToUrl($code); 29 header("Location: " . $url); 30 exit; 31 } 32 catch (\Exception $e) { 33 header("Location: /error"); 34 exit; 35 } В зависимости от метода получения короткого кода определяется значение переменной $code. Устанавливаем соединение PDO, реализуем экземпляр ShortUrl, и вызываем метод shortCodeToUrl(), передавая в него короткий код и увеличивая счетчик обращений по умолчанию. Если короткий код правильный, то вы получите длинный адрес URL, который можно использовать по назначению.